Summarize Data (Riepiloga dati)

Questo articolo descrive un componente della finestra di progettazione di Azure Machine Learning.

Utilizzare il componente Riepilogo dati per creare un set di misure statistiche standard che descrivono ogni colonna nella tabella di input.

Le statistiche di riepilogo sono utili quando si vogliono comprendere le caratteristiche del set di dati completo. Ad esempio, potrebbe essere necessario conoscere:

  • Quanti valori mancanti sono presenti in ogni colonna?
  • Quanti valori univoci sono presenti in una colonna di funzionalità?
  • Qual è la deviazione media e standard per ogni colonna?

Il componente calcola i punteggi importanti per ogni colonna e restituisce una riga di statistiche di riepilogo per ogni variabile (colonna di dati) fornita come input.

Come configurare Riepiloga dati

  1. Aggiungere il componente Summarize Data (Riepiloga dati ) alla pipeline. È possibile trovare questo componente nella categoria Funzioni statistiche nella finestra di progettazione.

  2. Connettere il set di dati per il quale si vuole generare un report.

    Se si desidera creare report solo su alcune colonne, utilizzare il componente Select Columns in Dataset per proiettare un subset di colonne da utilizzare.

  3. Non sono necessari parametri aggiuntivi. Per impostazione predefinita, il componente analizza tutte le colonne fornite come input e, a seconda del tipo di valori nelle colonne, restituisce un set pertinente di statistiche come descritto nella sezione Risultati .

  4. Inviare la pipeline.

Risultati

Il report del componente può includere le statistiche seguenti.

Nome colonna Descrizione
Funzionalità Nome della colonna
Conteggio Conteggio di tutte le righe
Conteggio valori univoci Numero di valori univoci nella colonna
Conteggio valori mancanti Numero di valori univoci nella colonna
Min Valore minimo nella colonna
Max Valore massimo nella colonna
Media Media di tutti i valori di colonna
Deviazione media Deviazione media dei valori di colonna
1° Quartile Valore al primo quartile
Median Valore della colonna mediano
Terzo quartile Valore al terzo quartile
Modalità Modalità dei valori di colonna
Intervallo Intero che rappresenta il numero di valori compresi tra i valori massimi e minimi
Varianza di esempio Varianza per la colonna; vedere La nota
Deviazione standard di esempio Deviazione standard per la colonna; vedere La nota
Asimmetria di esempio Asimmetria per la colonna; vedere La nota
Kurtosi di esempio Kurtosi per colonna; vedere La nota
P0.5 Percentile 0,5%
P1 1% percentile
P5 Percentile del 5%
P95 Percentile del 95%
P99.5 Percentile del 99,5%

Note tecniche

  • Per le colonne non numeriche vengono calcolati solo i valori per Count, Unique value count e Missing value count. Per altre statistiche, viene restituito un valore Null.

  • Le colonne che contengono valori booleani vengono elaborate usando queste regole:

    • Quando si calcola Min, viene applicato un and logico.

    • Quando si calcola Max, viene applicato un OR logico

    • Quando si calcola Intervallo, il componente controlla innanzitutto se il numero di valori univoci nella colonna è uguale a 2.

    • Quando si calcola una statistica che richiede calcoli a virgola mobile, i valori true vengono considerati come 1,0 e i valori di False vengono considerati come 0,0.

Passaggi successivi

Vedere il set di componenti disponibili per Azure Machine Learning.