Riepilogare i dati
Importante
Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.
A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).
- Vedere leinformazioni sullo spostamento di progetti di Machine Learning da ML Studio (versione classica) ad Azure Machine Learning.
- Altre informazioni sulle Azure Machine Learning.
La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.
Genera un report di statistiche descrittive di base per le colonne in un set di dati
Categoria: Funzioni statistiche
Nota
Si applica a: Machine Learning Studio (versione classica)
Nella finestra di progettazione sono disponibili moduli simili Azure Machine Learning trascinamento della selezione.
Panoramica del modulo
Questo articolo descrive come usare il modulo Summarize Data (Riepiloga dati) in Machine Learning Studio (versione classica) per creare un set di misure statistiche standard che descrivono ogni colonna nella tabella di input.
Queste statistiche di riepilogo sono utili quando si vogliono comprendere le caratteristiche del set di dati completo. Ad esempio, potrebbe essere necessario sapere:
- Quanti valori mancanti sono presenti in ogni colonna?
- Quanti valori univoci sono presenti in una colonna delle caratteristiche?
- Qual è la deviazione media e standard per ogni colonna?
Il modulo calcola i punteggi importanti per ogni colonna e restituisce una riga di statistiche di riepilogo per ogni variabile (colonna di dati) fornita come input.
Suggerimento
Si potrebbe già sapere che è possibile ottenere un breve elenco di statistiche usando l'opzione Visualizza in Studio (versione classica). Tuttavia, questa visualizzazione viene creata in base a un numero superiore di righe. Al contrario, il modulo Summarize Data calcola le statistiche su tutte le righe di dati.
Come usare Riepiloga dati
Aggiungere il modulo Summarize Data (Riepiloga dati) all'esperimento. È possibile trovare questo modulo nella categoria Funzioni statistiche in Studio (versione classica).
Connessione set di dati per il quale si desidera generare un report.
Se si vuole creare un report solo su alcune colonne, usare il modulo Select Columns in Dataset (Seleziona colonne nel set di dati) per proiettare un subset di colonne da usare.
Non sono necessari parametri aggiuntivi. Per impostazione predefinita, il modulo analizza tutte le colonne fornite come input e, a seconda del tipo di valori nelle colonne, restituisce un set pertinente di statistiche, come descritto nella sezione Risultati.
Eseguire l'esperimento oppure fare clic con il pulsante destro del mouse sul modulo e scegliere Esegui selezionato.
Risultati
Il report del modulo può includere le statistiche seguenti.
Le statistiche esatte generate dipendono dal tipo di dati della colonna. Per informazioni dettagliate, vedere la sezione Note tecniche.
Si presuppone che le istanze appartengano a un campione rappresentativo di una popolazione. Se è necessario calcolare le statistiche su una popolazione, usare le opzioni del modulo Compute Elementary Statistics (Statistiche elementari di calcolo), in grado di calcolare statistiche di esempio o di popolazione.
Nome colonna | Descrizione |
---|---|
Funzionalità | Nome della colonna |
Count | Count of all rows |
Conteggio valori univoci | Numero di valori univoci nella colonna |
Conteggio valori mancanti | Numero di valori univoci nella colonna |
Min | Valore più basso nella colonna |
Max | Valore massimo nella colonna |
Media | Media di tutti i valori di colonna |
Deviazione media | Deviazione media dei valori di colonna |
1st Quartile | Valore al primo quartile |
Mediana | Valore della colonna mediana |
3rd Quartile | Valore al terzo quartile |
Modalità | Modalità dei valori di colonna |
Range | Intero che rappresenta il numero di valori compresi tra i valori massimo e minimo |
Varianza di esempio | Varianza per la colonna; vedere Nota |
Deviazione standard di esempio | Deviazione standard per la colonna; vedere Nota |
A inclinazione di esempio | A inclinazione per la colonna; vedere Nota |
Curtosi di esempio | Curtosi per la colonna; vedere Nota |
P0.5 | 0,5% percentile |
P1 | 1% percentile |
P5 | 5% percentile |
P95 | 95% percentile |
P99.5 | 99,5% percentile |
Suggerimento
Restituisce il report delle statistiche come set di dati tabulari, in modo che sia possibile usare i dati negli strumenti di creazione di report di Business Intelligence o usare i valori come input per un'altra operazione nell'esperimento.
Esempio
Per esempi su come usare il modulo Summarize Data in un esperimento, vedere il Azure AI Gallery:
Scaricare il set di dati dall'UCI: legge un set di dati in formato CSV usando il relativo URL nel repository UCI Machine Learning e genera alcune statistiche di base sul set di dati.
Elaborazione e analisi del set di dati: carica il set di dati nell'area di lavoro, modifica i nomi delle colonne e aggiunge metadati.
Stima delle prestazioni degli studenti: legge i dati archiviati in formato TSV dall'archivio BLOB di Azure.
Note tecniche
Per le colonne numeriche e booleane, è possibile ottenere la media, la mediana, la modalità e la deviazione standard.
Per le colonne non numeriche, vengono calcolati solo i valori di Count, Unique value count e Missing value count. Per altre statistiche, viene restituito un valore Null.
Le colonne che contengono valori booleani vengono elaborate usando le regole seguenti:
Per il calcolo di Min, viene applicato un AND logico.
Quando si calcola Max, viene applicato un OR logico
Per il calcolo di Range, il modulo controlla innanzitutto se il numero di valori univoci nella colonna è uguale a 2.
Per il calcolo di qualsiasi statistica che richieda calcoli a virgola mobile, i valori True vengono considerati come 1,0 e i valori False come 0,0.
Input previsti
Nome | Tipo | Descrizione |
---|---|---|
Set di dati | Tabella dati | Set di dati di input |
Output
Nome | Tipo | Descrizione |
---|---|---|
Set di dati di risultati | Tabella dati | Profilo del set di dati di input contenente statistiche descrittive |
Eccezioni
Eccezione | Descrizione |
---|---|
Errore 0003 | Si verifica un'eccezione se uno o più input sono Null o vuoti. |
Errore 0020 | Si verifica un'eccezione se il numero di colonne in alcuni set di dati passati al modulo è troppo piccolo. |
Errore 0021 | Si verifica un'eccezione se il numero di righe in alcuni set di dati passati al modulo è troppo piccolo. |
Per un elenco degli errori specifici dei moduli di Studio (versione classica), vedere Machine Learning codici di errore.
Per un elenco delle eccezioni API, vedere Machine Learning di errore dell'API REST.