Modifica componente metadati

Questo articolo descrive un componente incluso nella finestra di progettazione di Azure Machine Learning.

Usare il componente Modifica metadati per modificare i metadati associati alle colonne di un set di dati. Il valore e il tipo di dati del set di dati verranno modificati dopo l'uso del componente Modifica metadati.

Le modifiche tipiche dei metadati possono includere:

  • Trattamento di colonne booleane o numeriche come valori categorici.

  • Indica quale colonna contiene l'etichetta della classe o contiene i valori da classificare o stimare.

  • Contrassegnare le colonne come funzionalità.

  • Modifica dei valori di data/ora in valori numerici o viceversa.

  • Ridenominazione delle colonne.

Usare Modifica metadati ogni volta che è necessario modificare la definizione di una colonna, in genere per soddisfare i requisiti per un componente downstream. Ad esempio, alcuni componenti funzionano solo con tipi di dati specifici o richiedono flag sulle colonne, ad esempio IsFeature o IsCategorical.

Dopo aver eseguito l'operazione richiesta, è possibile reimpostare i metadati sullo stato originale.

Configurare modifica metadati

  1. Nella finestra di progettazione di Azure Machine Learning aggiungere il componente Modifica metadati alla pipeline e connettere il set di dati da aggiornare. È possibile trovare il componente nella categoria Trasformazione dati.

  2. Fare clic su Modifica colonna nel pannello destro del componente e scegliere la colonna o il set di colonne da utilizzare. È possibile scegliere le colonne singolarmente in base al nome o all'indice oppure scegliere un gruppo di colonne per tipo.

  3. Selezionare l'opzione Tipo di dati se è necessario assegnare un tipo di dati diverso alle colonne selezionate. Potrebbe essere necessario modificare il tipo di dati per determinate operazioni. Ad esempio, se il set di dati di origine ha numeri gestiti come testo, è necessario modificarli in un tipo di dati numerico prima di usare operazioni matematiche.

    • I tipi di dati supportati sono String, Integer, Double, Boolean e DateTime.

    • Se si selezionano più colonne, è necessario applicare le modifiche ai metadati a tutte le colonne selezionate. Si supponga, ad esempio, di scegliere due o tre colonne numeriche. È possibile modificarli tutti in un tipo di dati stringa e rinominarli in un'unica operazione. Tuttavia, non è possibile modificare una colonna in un tipo di dati stringa e un'altra colonna da un tipo float a un numero intero.

    • Se non si specifica un nuovo tipo di dati, i metadati della colonna non vengono modificati.

    • Il tipo di colonna e i valori verranno modificati dopo aver eseguito l'operazione Modifica metadati. È possibile ripristinare il tipo di dati originale in qualsiasi momento usando Modifica metadati per reimpostare il tipo di dati della colonna.

    Nota

    Il formato DateTime segue il formato datetime predefinito di Python.
    Se si modifica un tipo di numero nel tipo DateTime , lasciare vuoto il campo Formato DateTime. Attualmente non è possibile specificare il formato dei dati di destinazione.

  4. Selezionare l'opzione Categorical per specificare che i valori nelle colonne selezionate devono essere considerati categorie.

    Ad esempio, si potrebbe avere una colonna che contiene i numeri 0, 1 e 2, ma si sa che i numeri in realtà significano "Fumatore", "Non fumatore" e "Sconosciuto". In tal caso, contrassegnando la colonna come categorica, si garantisce che i valori vengano usati solo per raggruppare i dati e non nei calcoli numerici.

  5. Usare l'opzione Campi se si vuole modificare il modo in cui Azure Machine Learning usa i dati in un modello.

    • Funzionalità: usare questa opzione per contrassegnare una colonna come funzionalità nei componenti che operano solo su colonne di funzionalità. Per impostazione predefinita, tutte le colonne vengono inizialmente considerate come funzionalità.

    • Etichetta: usare questa opzione per contrassegnare l'etichetta, nota anche come attributo stimabile o variabile di destinazione. Molti componenti richiedono che nel set di dati sia presente esattamente una colonna etichetta.

      In molti casi, Azure Machine Learning può dedurre che una colonna contiene un'etichetta di classe. Impostando questi metadati, è possibile assicurarsi che la colonna sia identificata correttamente. L'impostazione di questa opzione non modifica i valori dei dati. Cambia solo il modo in cui alcuni algoritmi di Machine Learning gestiscono i dati.

    Suggerimento

    Si dispone di dati che non rientrano in queste categorie? Ad esempio, il set di dati potrebbe contenere valori come identificatori univoci che non sono utili come variabili. In alcuni casi tali ID possono causare problemi quando vengono usati in un modello.

    Fortunatamente, Azure Machine Learning mantiene tutti i dati, in modo che non sia necessario eliminare tali colonne dal set di dati. Quando è necessario eseguire operazioni su un set speciale di colonne, è sufficiente rimuovere temporaneamente tutte le altre colonne usando il componente Select Columns in Dataset .When you need to perform operations on some special set of columns, just remove all other columnsly by using the Select Columns in Dataset component. In un secondo momento è possibile unire nuovamente le colonne nel set di dati usando il componente Aggiungi colonne .

  6. Usare le opzioni seguenti per cancellare le selezioni precedenti e ripristinare i metadati nei valori predefiniti.

    • Cancella funzionalità: usare questa opzione per rimuovere il flag di funzionalità.

      Tutte le colonne vengono inizialmente considerate come funzionalità. Per i componenti che eseguono operazioni matematiche, potrebbe essere necessario usare questa opzione per evitare che le colonne numeriche vengano considerate come variabili.

    • Cancella etichetta: usare questa opzione per rimuovere i metadati dell'etichetta dalla colonna specificata.

    • Cancella punteggio: usare questa opzione per rimuovere i metadati del punteggio dalla colonna specificata.

      Attualmente non è possibile contrassegnare in modo esplicito una colonna come punteggio in Azure Machine Learning. Tuttavia, alcune operazioni comportano che una colonna venga contrassegnata internamente come punteggio. Inoltre, un componente R personalizzato potrebbe restituire i valori del punteggio.

  7. Per Nuovi nomi di colonna immettere il nuovo nome della colonna o delle colonne selezionate.

    • I nomi di colonna possono usare solo caratteri supportati dalla codifica UTF-8. Non sono consentite stringhe vuote, valori Null o nomi costituiti interamente da spazi.

    • Per rinominare più colonne, immettere i nomi come elenco delimitato da virgole nell'ordine degli indici di colonna.

    • Tutte le colonne selezionate devono essere rinominate. Non è possibile omettere o ignorare le colonne.

  8. Inviare la pipeline.

Passaggi successivi

Vedere il set di componenti disponibili per Azure Machine Learning.