Rimuovere il componente Righe duplicate

Questo articolo descrive un componente nella finestra di progettazione di Azure Machine Learning.

Usare questo componente per rimuovere potenziali duplicati da un set di dati.

Si supponga, ad esempio, che i dati siano simili ai seguenti e rappresentino più record per i pazienti.

PatientID Initials Genere Età Ammesso
1 F.M. M 53 Jan
2 F.A.M. M 53 Jan
3 F.A.M. M 24 Jan
3 F.M. M 24 Feb
4 F.M. M 23 Feb
F.M. M 23
5 F.A.M. M 53
6 F.A.M. M NaN
7 F.A.M. M NaN

In questo esempio sono presenti più colonne con dati potenzialmente duplicati. Il fatto che siano effettivamente duplicati dipende dalla conoscenza dei dati.

  • Ad esempio, si potrebbe sapere che molti pazienti hanno lo stesso nome. Non eliminare i duplicati usando colonne nome, ma solo la colonna ID . In questo modo, vengono filtrate solo le righe con valori ID duplicati, indipendentemente dal fatto che i pazienti abbiano lo stesso nome o meno.

  • In alternativa, è possibile decidere di consentire duplicati nel campo ID e usare altre combinazioni di file per trovare record univoci, ad esempio nome, cognome, età e sesso.

Per impostare i criteri per specificare se una riga è duplicata o meno, specificare una singola colonna o un set di colonne da utilizzare come chiavi. Due righe vengono considerate duplicate solo quando i valori in tutte le colonne chiave sono uguali. Se una riga contiene un valore mancante per le chiavi, non verranno considerate righe duplicate. Ad esempio, se sesso e età sono impostati come chiavi nella tabella precedente, la riga 6 e 7 non sono righe duplicate, dato che non hanno valore mancante in Age.

Quando si esegue il componente, viene creato un set di dati candidato e viene restituito un set di righe senza duplicati nel set di colonne specificato.

Importante

Il set di dati di origine non viene modificato; questo componente crea un nuovo set di dati filtrato per escludere i duplicati, in base ai criteri specificati.

Come usare Rimuovi righe duplicate

  1. Aggiungere il componente alla pipeline. È possibile trovare il componente Rimuovi righe duplicate in Trasformazione dati, Manipolazione.

  2. Connettere il set di dati che si desidera verificare la presenza di righe duplicate.

  3. Nel riquadro Proprietà, in Espressione filtro selezione colonna chiave fare clic su Avvia selettore di colonna per scegliere le colonne da usare per identificare i duplicati.

    In questo contesto, Key non significa un identificatore univoco. Tutte le colonne selezionate usando il selettore di colonna sono designate come colonne chiave. Tutte le colonne non selezionate sono considerate colonne non chiave. La combinazione di colonne selezionate come chiavi determina l'univocità dei record. Si consideri un'istruzione SQL che usa più join di equalità.

    Esempi:

    • "Voglio assicurarsi che gli ID siano univoci": scegliere solo la colonna ID.
    • "Voglio assicurarsi che la combinazione di nome, cognome e ID sia univoca": selezionare tutte e tre le colonne.
  4. Utilizzare la casella di controllo Mantieni prima riga duplicata per indicare quale riga restituire quando vengono trovati duplicati:

    • Se questa opzione è selezionata, viene restituita la prima riga e altre vengono rimosse.
    • Se si deseleziona questa opzione, l'ultima riga duplicata viene mantenuta nei risultati e altre vengono rimosse.
  5. Inviare la pipeline.

  6. Per esaminare i risultati, fare clic con il pulsante destro del mouse sul componente e selezionare Visualizza.

Suggerimento

Se i risultati sono difficili da comprendere o se si desidera escludere alcune colonne dalla considerazione, è possibile rimuovere le colonne usando il componente Select Columns in Dataset .If the results are difficile da comprendere, or if you want to exclude some columns from consideration, you can remove columns by using the Select Columns in Dataset component.

Passaggi successivi

Vedere il set di componenti disponibili per Azure Machine Learning.