Calcolo delle statistiche elementari

Importante

Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.

A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).

La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.

Calcola le statistiche di riepilogo specificate per le colonne selezionate del set di dati

Categoria: Funzioni statistiche

Nota

Si applica a: Machine Learning Studio (versione classica)

Nella finestra di progettazione sono disponibili moduli simili Azure Machine Learning trascinamento della selezione.

Panoramica del modulo

Questo articolo descrive come usare il modulo Compute Elementary Statistics (Statistiche elementari di calcolo) in Machine Learning Studio (versione classica) per generare un report di riepilogo per il set di dati in cui sono elencate le statistiche chiave, ad esempio media, deviazione standard e l'intervallo di valori per ognuna delle colonne selezionate.

Questo report è utile per analizzare la tendenza centrale, la dispersione e la forma dei dati.

Come configurare le statistiche elementari di calcolo

  1. Aggiungere il modulo Compute Elementary Statistics all'esperimento. È possibile trovare questo modulo nella categoria Funzioni statistiche in Machine Learning Studio (versione classica).

  2. Connessione un set di dati che contiene le colonne da analizzare.

  3. Fare clic sull'elenco a discesa Metodo e scegliere il tipo di valore da calcolare per ogni colonna.

    Vedere la sezione Supported Statistics (Statistiche supportate) per un elenco completo delle statistiche disponibili e del loro significato.

  4. Per impostazione predefinita, il valore selezionato nell'elenco a discesa Metodo verrà calcolato per tutte le colonne del set di dati con tipo di dati numerico. Se una colonna contiene valori che impediscono il calcolo del valore, verrà generato un errore e il report non verrà creato.

    Per evitare questo errore, usare il selettore di colonna per selezionare le colonne numeriche per cui si desidera un report. Tutte le colonne selezionate devono essere numeriche.

  5. Eseguire l'esperimento.

Risultati

Il report generato include il nome di ogni colonna e la statistica calcolata. Ad esempio, la tabella seguente mostra le statistiche generate per la colonna mpg .

DeviationSquared(mpg) Max(mpg) Min(mpg)
9674.312 25.21951 13

Suggerimento

Ogni volta che si eseguono le statistiche elementari di calcolo, può generare una sola statistica di riepilogo per ogni colonna selezionata. È tuttavia possibile usare i moduli Aggiungi colonne o Aggiungi righe per unire i risultati in una singola tabella, come nell'esempio precedente.

Statistiche supportate

Questo modulo supporta le statistiche descrittive standard seguenti.

Deviation squared

Calcola la deviazione al quadrato dei valori della colonna. Nota anche come somma dei quadrati.

La deviazione al quadrato è una misura della distanza tra i valori e la media.

Geometric mean

Calcola la media geometrica dei valori di colonna.

La media geometrica può essere usata per misurare la tendenza centrale di un set di numeri. Rispetto alla media aritmetica, è meno influenzata da un numero ridotto di valori estremi. Può anche essere usato per confrontare le misurazioni su scale diverse, perché normalizza in modo efficace le scale dei numeri confrontati. I mezzi geometrici vengono talvolta usati per stimare i tassi di crescita annuali composti.

La funzione equivalente in Excel è GEOMEAN.

Harmonic mean

Calcola la media ar arica dei valori di colonna.

Per calcolare la media arica, tutti i valori vengono convertiti nei rispettivi reciproci e quindi la media viene presa da tali valori. La media ardirezionale è il reciproco di tale media. Se i valori della colonna sono positivi, i numeri più grandi vengono ponderati meno di numeri più piccoli.

La media arritmetica è sempre minore della media geometrica, che è sempre minore della media aritmetica. La media arbolica è utile per la media delle variabili che rappresentano i tassi, ad esempio la velocità (distanza nel tempo) o le vendite per trimestre.

La funzione equivalente in Excel è HARMEAN.

Interquartile distance

Calcola la differenza interquartile per il primo e l'ultimo quartile dei valori di colonna. Detto anche intervallo di quartile. Quando il quartile è compreso tra due numeri, il valore del quartile è la media dei due valori su entrambi i lati del taglio.

Il valore quartile divide la colonna di valori in quattro gruppi con un numero uguale di valori. Pertanto, un quarto dei valori è minore o uguale al 25° percentile. Tre trimestri dei valori sono minori o uguali al 75° percentile. Esaminando l'intervallo di quartile è possibile avere un'idea della diffusione dei valori dei dati.

K-th central moment

Calcola il K-esimo momento centrale per i valori della colonna.

Quando si calcola K-th Central Moment, è necessario specificare anche l'ordine, ovvero il valore di k. Il valore di k può variare da 0 a qualsiasi valore intero consentito, anche se i valori di ordine più elevati non sono in genere significativi.

In genere, nelle statistiche descrittive, un momento è una misura che descrive la forma di un set di punti. I momenti centrali sono momenti relativi alla media, che vengono in genere usati perché forniscono informazioni migliori sulla forma della distribuzione. Un ordine di 2 rappresenta in genere la varianza. Per la curtosi viene usato un ordine di 4. Il momento del primo ordine è la media. Di conseguenza, la raccolta di tutti i momenti descrive in modo univoco la distribuzione dei valori nella colonna.

Max

Trova il valore massimo nella colonna.

Media

Calcola la media aritmetica dei valori di colonna.

La funzione equivalente in Excel è AVERAGE.

Mean deviation

Calcola la deviazione media assoluta per i valori della colonna.

Ciò significa che la media viene calcolata per la colonna e la deviazione calcolata per ogni valore nella colonna. La media dei valori assoluti dei singoli valori di deviazione è la deviazione media.

Questa statistica indica la diffusione dalla media della colonna di numeri.

Mediana

Restituisce la mediana dei valori della colonna.

La mediana è il numero al centro di una colonna di numeri. Se nella colonna è presente un numero pari di numeri, la mediana è la media dei due numeri al centro.

La mediana, insieme alla media e alla modalità, è una delle tre statistiche che misurano la tendenza centrale. Se i valori sono simmetrici intorno alla media, i tre numeri saranno circa uguali. Tuttavia, la mediana è più solida per gli outlier rispetto alla media.

Median deviation

Calcola la deviazione mediana per la colonna.

Ciò significa che la mediana viene calcolata per la colonna e la deviazione calcolata per ogni valore nella colonna. Viene utilizzato il valore mediano dei valori assoluti dei singoli valori di deviazione.

La deviazione assoluta mediana è nota anche come MAD e viene usata per descrivere la variabilità di un campione di numeri. MAD indica la diffusione dalla media della colonna di numeri.

Min

Restituisce il valore minimo dei valori di colonna.

Modalità

Trova tutte le modalità per la colonna.

La modalità è il valore più visualizzato nella colonna. Se più valori vengono visualizzati nello stesso numero di volte, la colonna può avere più modalità.

Come misura della tendenza centrale, la modalità è più affidabile per gli outlier rispetto alla media e può essere usata anche con dati nominali.

Population standard deviation

Calcola la deviazione standard della popolazione per i valori di colonna.

Questa statistica presuppone che i valori della colonna rappresentino l'intera popolazione. Se i dati sono solo un campione della popolazione, è necessario calcolare la deviazione standard usando Deviazione standard di esempio. Tuttavia, nei set di dati di grandi dimensioni, le due statistiche restituiscono valori approssimativamente uguali.

La deviazione standard viene calcolata come radice quadrata della varianza della colonna. Questa statistica acquisisce la quantità di variabilità nella colonna.

Population variance

Calcola la varianza della popolazione per i valori di colonna.

La varianza misura la quantità di una serie di numeri distribuiti. Se la varianza è zero, tutti i numeri sono uguali.

Questa statistica presuppone che la colonna di valori rappresenti l'intera popolazione. Se i dati contengono solo un campione dei valori, è necessario calcolare la varianza usando Varianza di esempio.

La funzione Excel equivalente è VAR.P.

Prodotto

Calcola il prodotto degli elementi della colonna.

Per ottenere il prodotto, è necessario più numeri nella colonna. Il risultato non è di per sé utile come statistica descrittiva, ma la funzione è utile per un'ampia gamma di altri calcoli.

Intervallo

Calcola l'intervallo dei valori di colonna. L'intervallo è definito come valore massimo meno il valore minimo

Sample kurtosis

Calcola la curtosi di esempio per i valori di colonna.

Curtosi descrive la forma della distribuzione dei valori, ad esempio il picco o la distribuzione flat dei valori rispetto alla distribuzione normale.

  • La distribuzione normale ha una curtosi di 0.

  • I valori elevati di curtosi indicano che la massa di probabilità è concentrata intorno a un picco o nella parte finale della distribuzione.

  • I valori negativi della curtosi indicano una distribuzione relativamente semplice.

Sample skewness

Calcola l'aassenza di esempio per i valori di colonna.

Skew indica se la maggior parte dei valori è al centro, spostata a sinistra o spostata a destra. Due distribuzioni possono avere la stessa deviazione media e standard, ma hanno una forma molto diversa. Per caratterizzare la forma, è possibile usare aassenza e curtosi.

  • I valori di aaser negativo significano che la distribuzione è a sinistra.

  • 0 indica la distribuzione normale.

  • I valori di aasità positivi significano che la distribuzione viene azzerata a destra.

Sample standard deviation

Calcola la deviazione standard di esempio per i valori di colonna.

La deviazione standard del campione misura la diffusione dei valori nella colonna rispetto alla media. Rappresenta la distanza media tra i valori dei dati nel set e la media.

Questa statistica presuppone che i valori di colonna rappresentino un campione della popolazione. Se i dati rappresentano l'intera popolazione, è necessario calcolare la deviazione standard usando deviazione standard della popolazione.

La funzione Excel equivalente è ST. DEV.S.

Sample variance

Calcola la varianza di esempio per i valori di colonna.

Questo metodo presuppone che i valori di colonna rappresentino un campione della popolazione. Se la colonna contiene l'intera popolazione, è consigliabile usare varianza standard del popolamento.

La funzione Excel equivalente è VAR.S.

Sum

Calcola la somma dei valori della colonna.

Esempio

Gli esperimenti seguenti nel Azure AI Gallery illustrano come creare un report di riepilogo contenente statistiche descrittive per un intero set di dati. Il report di riepilogo contiene solo statistiche generali. È tuttavia possibile salvarlo come set di dati e quindi aggiungere statistiche più dettagliate usando le opzioni disponibili in Calcolo statistiche elementari.

Note tecniche

Questa sezione contiene informazioni dettagliate sull'implementazione, suggerimenti e risposte alle domande frequenti.

Suggerimento

Quando si usa il modulo Compute Elementary Statistics , è necessario che siano soddisfatte le condizioni seguenti:

  • Deve essere presente un numero sufficiente di punti dati (righe) per calcolare la statistica selezionata. Ad esempio, per calcolare la deviazione standard di esempio sono necessari almeno due punti dati. in caso contrario, il risultato è NaN.
  • Le colonne di input devono essere numeriche o booleane.

Per impostazione predefinita, vengono selezionate tutte le colonne numeriche. Tuttavia, se le colonne numeriche sono contrassegnate come categoriche, è possibile che venga visualizzato l'errore seguente: "Errore 0056: La <> colonna con il nome del nome non è in una categoria consentita". Per correggere l'errore, aggiungere un'istanza del modulo Modifica metadati, selezionare la colonna con il problema e usare l'opzione Rimuovi categoria.

Dettagli dell'implementazione

Le colonne booleane vengono elaborate come segue:

  • MIN viene calcolata come AND logico.

  • MAX viene calcolata come OR logico.

  • RANGE controlla se il numero di valori univoci nella colonna è uguale a 2.

  • I valori mancanti vengono ignorati.

  • Per le statistiche che richiedono calcoli a virgola mobile, True = 1,0 e False = 0,0

Input previsti

Nome Tipo Descrizione
Set di dati Tabella dati Set di dati di input

Parametri del modulo

Nome Intervallo Type Predefinito Descrizione
Metodo Elenco Elementary statistics method Seleziona un metodo statistico da usare nei calcoli. Vedere la sezione Come usare per un elenco di valori.
Column set any ColumnSelection NumericAll Seleziona le colonne per cui calcolare la statistica
JSON >=1 Integer 3 Specifica un valore per l'ordine del momento centrale (usato solo per il kth central moment)

Output

Nome Tipo Descrizione
Set di dati di risultati Tabella dati Set di dati di output

Eccezioni

Eccezione Descrizione
Errore 0017 Si verifica un'eccezione se il tipo di una o più colonne specificate non è supportato dal modulo attuale.

Per un elenco di errori specifici dei moduli di Studio (versione classica), vedere l'Machine Learning codici di errore.

Per un elenco delle eccezioni API, vedere l'Machine Learning di errore dell'API REST.

Vedi anche

Funzioni statistiche
elementari
Summarize Data (Riepiloga dati)
Elenco moduli A-Z