Riepilogare i dati

Importante

Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.

A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).

La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.

Genera un report di statistiche descrittive di base per le colonne in un set di dati

Categoria: Funzioni statistiche

Nota

Si applica a: Machine Learning Studio (versione classica)

Nella finestra di progettazione sono disponibili moduli simili Azure Machine Learning trascinamento della selezione.

Panoramica del modulo

Questo articolo descrive come usare il modulo Summarize Data (Riepiloga dati) in Machine Learning Studio (versione classica) per creare un set di misure statistiche standard che descrivono ogni colonna nella tabella di input.

Queste statistiche di riepilogo sono utili quando si vogliono comprendere le caratteristiche del set di dati completo. Ad esempio, potrebbe essere necessario sapere:

  • Quanti valori mancanti sono presenti in ogni colonna?
  • Quanti valori univoci sono presenti in una colonna delle caratteristiche?
  • Qual è la deviazione media e standard per ogni colonna?

Il modulo calcola i punteggi importanti per ogni colonna e restituisce una riga di statistiche di riepilogo per ogni variabile (colonna di dati) fornita come input.

Suggerimento

Si potrebbe già sapere che è possibile ottenere un breve elenco di statistiche usando l'opzione Visualizza in Studio (versione classica). Tuttavia, questa visualizzazione viene creata in base a un numero superiore di righe. Al contrario, il modulo Summarize Data calcola le statistiche su tutte le righe di dati.

Come usare Riepiloga dati

  1. Aggiungere il modulo Summarize Data (Riepiloga dati) all'esperimento. È possibile trovare questo modulo nella categoria Funzioni statistiche in Studio (versione classica).

  2. Connessione set di dati per il quale si desidera generare un report.

    Se si vuole creare un report solo su alcune colonne, usare il modulo Select Columns in Dataset (Seleziona colonne nel set di dati) per proiettare un subset di colonne da usare.

  3. Non sono necessari parametri aggiuntivi. Per impostazione predefinita, il modulo analizza tutte le colonne fornite come input e, a seconda del tipo di valori nelle colonne, restituisce un set pertinente di statistiche, come descritto nella sezione Risultati.

  4. Eseguire l'esperimento oppure fare clic con il pulsante destro del mouse sul modulo e scegliere Esegui selezionato.

Risultati

Il report del modulo può includere le statistiche seguenti.

  • Le statistiche esatte generate dipendono dal tipo di dati della colonna. Per informazioni dettagliate, vedere la sezione Note tecniche.

  • Si presuppone che le istanze appartengano a un campione rappresentativo di una popolazione. Se è necessario calcolare le statistiche su una popolazione, usare le opzioni del modulo Compute Elementary Statistics (Statistiche elementari di calcolo), in grado di calcolare statistiche di esempio o di popolazione.

Nome colonna Descrizione
Funzionalità Nome della colonna
Count Count of all rows
Conteggio valori univoci Numero di valori univoci nella colonna
Conteggio valori mancanti Numero di valori univoci nella colonna
Min Valore più basso nella colonna
Max Valore massimo nella colonna
Media Media di tutti i valori di colonna
Deviazione media Deviazione media dei valori di colonna
1st Quartile Valore al primo quartile
Mediana Valore della colonna mediana
3rd Quartile Valore al terzo quartile
Modalità Modalità dei valori di colonna
Range Intero che rappresenta il numero di valori compresi tra i valori massimo e minimo
Varianza di esempio Varianza per la colonna; vedere Nota
Deviazione standard di esempio Deviazione standard per la colonna; vedere Nota
A inclinazione di esempio A inclinazione per la colonna; vedere Nota
Curtosi di esempio Curtosi per la colonna; vedere Nota
P0.5 0,5% percentile
P1 1% percentile
P5 5% percentile
P95 95% percentile
P99.5 99,5% percentile

Suggerimento

Restituisce il report delle statistiche come set di dati tabulari, in modo che sia possibile usare i dati negli strumenti di creazione di report di Business Intelligence o usare i valori come input per un'altra operazione nell'esperimento.

Esempio

Per esempi su come usare il modulo Summarize Data in un esperimento, vedere il Azure AI Gallery:

Note tecniche

  • Per le colonne numeriche e booleane, è possibile ottenere la media, la mediana, la modalità e la deviazione standard.

  • Per le colonne non numeriche, vengono calcolati solo i valori di Count, Unique value count e Missing value count. Per altre statistiche, viene restituito un valore Null.

  • Le colonne che contengono valori booleani vengono elaborate usando le regole seguenti:

    • Per il calcolo di Min, viene applicato un AND logico.

    • Quando si calcola Max, viene applicato un OR logico

    • Per il calcolo di Range, il modulo controlla innanzitutto se il numero di valori univoci nella colonna è uguale a 2.

    • Per il calcolo di qualsiasi statistica che richieda calcoli a virgola mobile, i valori True vengono considerati come 1,0 e i valori False come 0,0.

Input previsti

Nome Tipo Descrizione
Set di dati Tabella dati Set di dati di input

Output

Nome Tipo Descrizione
Set di dati di risultati Tabella dati Profilo del set di dati di input contenente statistiche descrittive

Eccezioni

Eccezione Descrizione
Errore 0003 Si verifica un'eccezione se uno o più input sono Null o vuoti.
Errore 0020 Si verifica un'eccezione se il numero di colonne in alcuni set di dati passati al modulo è troppo piccolo.
Errore 0021 Si verifica un'eccezione se il numero di righe in alcuni set di dati passati al modulo è troppo piccolo.

Per un elenco degli errori specifici dei moduli di Studio (versione classica), vedere Machine Learning codici di errore.

Per un elenco delle eccezioni API, vedere Machine Learning di errore dell'API REST.

Vedi anche

Funzioni statistiche
Statistiche elementari di calcolo