Calcolo delle statistiche elementari
Importante
Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.
A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).
- Vedere leinformazioni sullo spostamento di progetti di Machine Learning da ML Studio (versione classica) ad Azure Machine Learning.
- Altre informazioni sulle Azure Machine Learning.
La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.
Calcola le statistiche di riepilogo specificate per le colonne selezionate del set di dati
Categoria: Funzioni statistiche
Nota
Si applica a: Machine Learning Studio (versione classica)
Nella finestra di progettazione sono disponibili moduli simili Azure Machine Learning trascinamento della selezione.
Panoramica del modulo
Questo articolo descrive come usare il modulo Compute Elementary Statistics (Statistiche elementari di calcolo) in Machine Learning Studio (versione classica) per generare un report di riepilogo per il set di dati in cui sono elencate le statistiche chiave, ad esempio media, deviazione standard e l'intervallo di valori per ognuna delle colonne selezionate.
Questo report è utile per analizzare la tendenza centrale, la dispersione e la forma dei dati.
Come configurare le statistiche elementari di calcolo
Aggiungere il modulo Compute Elementary Statistics all'esperimento. È possibile trovare questo modulo nella categoria Funzioni statistiche in Machine Learning Studio (versione classica).
Connessione un set di dati che contiene le colonne da analizzare.
Fare clic sull'elenco a discesa Metodo e scegliere il tipo di valore da calcolare per ogni colonna.
Vedere la sezione Supported Statistics (Statistiche supportate) per un elenco completo delle statistiche disponibili e del loro significato.
Per impostazione predefinita, il valore selezionato nell'elenco a discesa Metodo verrà calcolato per tutte le colonne del set di dati con tipo di dati numerico. Se una colonna contiene valori che impediscono il calcolo del valore, verrà generato un errore e il report non verrà creato.
Per evitare questo errore, usare il selettore di colonna per selezionare le colonne numeriche per cui si desidera un report. Tutte le colonne selezionate devono essere numeriche.
Eseguire l'esperimento.
Risultati
Il report generato include il nome di ogni colonna e la statistica calcolata. Ad esempio, la tabella seguente mostra le statistiche generate per la colonna mpg .
DeviationSquared(mpg) | Max(mpg) | Min(mpg) |
---|---|---|
9674.312 | 25.21951 | 13 |
Suggerimento
Ogni volta che si eseguono le statistiche elementari di calcolo, può generare una sola statistica di riepilogo per ogni colonna selezionata. È tuttavia possibile usare i moduli Aggiungi colonne o Aggiungi righe per unire i risultati in una singola tabella, come nell'esempio precedente.
Statistiche supportate
Questo modulo supporta le statistiche descrittive standard seguenti.
Deviation squared
Calcola la deviazione al quadrato dei valori della colonna. Nota anche come somma dei quadrati.
La deviazione al quadrato è una misura della distanza tra i valori e la media.
Geometric mean
Calcola la media geometrica dei valori di colonna.
La media geometrica può essere usata per misurare la tendenza centrale di un set di numeri. Rispetto alla media aritmetica, è meno influenzata da un numero ridotto di valori estremi. Può anche essere usato per confrontare le misurazioni su scale diverse, perché normalizza in modo efficace le scale dei numeri confrontati. I mezzi geometrici vengono talvolta usati per stimare i tassi di crescita annuali composti.
La funzione equivalente in Excel è GEOMEAN.
Harmonic mean
Calcola la media ar arica dei valori di colonna.
Per calcolare la media arica, tutti i valori vengono convertiti nei rispettivi reciproci e quindi la media viene presa da tali valori. La media ardirezionale è il reciproco di tale media. Se i valori della colonna sono positivi, i numeri più grandi vengono ponderati meno di numeri più piccoli.
La media arritmetica è sempre minore della media geometrica, che è sempre minore della media aritmetica. La media arbolica è utile per la media delle variabili che rappresentano i tassi, ad esempio la velocità (distanza nel tempo) o le vendite per trimestre.
La funzione equivalente in Excel è HARMEAN.
Interquartile distance
Calcola la differenza interquartile per il primo e l'ultimo quartile dei valori di colonna. Detto anche intervallo di quartile. Quando il quartile è compreso tra due numeri, il valore del quartile è la media dei due valori su entrambi i lati del taglio.
Il valore quartile divide la colonna di valori in quattro gruppi con un numero uguale di valori. Pertanto, un quarto dei valori è minore o uguale al 25° percentile. Tre trimestri dei valori sono minori o uguali al 75° percentile. Esaminando l'intervallo di quartile è possibile avere un'idea della diffusione dei valori dei dati.
K-th central moment
Calcola il K-esimo momento centrale per i valori della colonna.
Quando si calcola K-th Central Moment, è necessario specificare anche l'ordine, ovvero il valore di k. Il valore di k può variare da 0 a qualsiasi valore intero consentito, anche se i valori di ordine più elevati non sono in genere significativi.
In genere, nelle statistiche descrittive, un momento è una misura che descrive la forma di un set di punti. I momenti centrali sono momenti relativi alla media, che vengono in genere usati perché forniscono informazioni migliori sulla forma della distribuzione. Un ordine di 2 rappresenta in genere la varianza. Per la curtosi viene usato un ordine di 4. Il momento del primo ordine è la media. Di conseguenza, la raccolta di tutti i momenti descrive in modo univoco la distribuzione dei valori nella colonna.
Max
Trova il valore massimo nella colonna.
Media
Calcola la media aritmetica dei valori di colonna.
La funzione equivalente in Excel è AVERAGE.
Mean deviation
Calcola la deviazione media assoluta per i valori della colonna.
Ciò significa che la media viene calcolata per la colonna e la deviazione calcolata per ogni valore nella colonna. La media dei valori assoluti dei singoli valori di deviazione è la deviazione media.
Questa statistica indica la diffusione dalla media della colonna di numeri.
Mediana
Restituisce la mediana dei valori della colonna.
La mediana è il numero al centro di una colonna di numeri. Se nella colonna è presente un numero pari di numeri, la mediana è la media dei due numeri al centro.
La mediana, insieme alla media e alla modalità, è una delle tre statistiche che misurano la tendenza centrale. Se i valori sono simmetrici intorno alla media, i tre numeri saranno circa uguali. Tuttavia, la mediana è più solida per gli outlier rispetto alla media.
Median deviation
Calcola la deviazione mediana per la colonna.
Ciò significa che la mediana viene calcolata per la colonna e la deviazione calcolata per ogni valore nella colonna. Viene utilizzato il valore mediano dei valori assoluti dei singoli valori di deviazione.
La deviazione assoluta mediana è nota anche come MAD e viene usata per descrivere la variabilità di un campione di numeri. MAD indica la diffusione dalla media della colonna di numeri.
Min
Restituisce il valore minimo dei valori di colonna.
Modalità
Trova tutte le modalità per la colonna.
La modalità è il valore più visualizzato nella colonna. Se più valori vengono visualizzati nello stesso numero di volte, la colonna può avere più modalità.
Come misura della tendenza centrale, la modalità è più affidabile per gli outlier rispetto alla media e può essere usata anche con dati nominali.
Population standard deviation
Calcola la deviazione standard della popolazione per i valori di colonna.
Questa statistica presuppone che i valori della colonna rappresentino l'intera popolazione. Se i dati sono solo un campione della popolazione, è necessario calcolare la deviazione standard usando Deviazione standard di esempio. Tuttavia, nei set di dati di grandi dimensioni, le due statistiche restituiscono valori approssimativamente uguali.
La deviazione standard viene calcolata come radice quadrata della varianza della colonna. Questa statistica acquisisce la quantità di variabilità nella colonna.
Population variance
Calcola la varianza della popolazione per i valori di colonna.
La varianza misura la quantità di una serie di numeri distribuiti. Se la varianza è zero, tutti i numeri sono uguali.
Questa statistica presuppone che la colonna di valori rappresenti l'intera popolazione. Se i dati contengono solo un campione dei valori, è necessario calcolare la varianza usando Varianza di esempio.
La funzione Excel equivalente è VAR.P
.
Prodotto
Calcola il prodotto degli elementi della colonna.
Per ottenere il prodotto, è necessario più numeri nella colonna. Il risultato non è di per sé utile come statistica descrittiva, ma la funzione è utile per un'ampia gamma di altri calcoli.
Intervallo
Calcola l'intervallo dei valori di colonna. L'intervallo è definito come valore massimo meno il valore minimo
Sample kurtosis
Calcola la curtosi di esempio per i valori di colonna.
Curtosi descrive la forma della distribuzione dei valori, ad esempio il picco o la distribuzione flat dei valori rispetto alla distribuzione normale.
La distribuzione normale ha una curtosi di 0.
I valori elevati di curtosi indicano che la massa di probabilità è concentrata intorno a un picco o nella parte finale della distribuzione.
I valori negativi della curtosi indicano una distribuzione relativamente semplice.
Sample skewness
Calcola l'aassenza di esempio per i valori di colonna.
Skew indica se la maggior parte dei valori è al centro, spostata a sinistra o spostata a destra. Due distribuzioni possono avere la stessa deviazione media e standard, ma hanno una forma molto diversa. Per caratterizzare la forma, è possibile usare aassenza e curtosi.
I valori di aaser negativo significano che la distribuzione è a sinistra.
0 indica la distribuzione normale.
I valori di aasità positivi significano che la distribuzione viene azzerata a destra.
Sample standard deviation
Calcola la deviazione standard di esempio per i valori di colonna.
La deviazione standard del campione misura la diffusione dei valori nella colonna rispetto alla media. Rappresenta la distanza media tra i valori dei dati nel set e la media.
Questa statistica presuppone che i valori di colonna rappresentino un campione della popolazione. Se i dati rappresentano l'intera popolazione, è necessario calcolare la deviazione standard usando deviazione standard della popolazione.
La funzione Excel equivalente è ST. DEV.S.
Sample variance
Calcola la varianza di esempio per i valori di colonna.
Questo metodo presuppone che i valori di colonna rappresentino un campione della popolazione. Se la colonna contiene l'intera popolazione, è consigliabile usare varianza standard del popolamento.
La funzione Excel equivalente è VAR.S.
Sum
Calcola la somma dei valori della colonna.
Esempio
Gli esperimenti seguenti nel Azure AI Gallery illustrano come creare un report di riepilogo contenente statistiche descrittive per un intero set di dati. Il report di riepilogo contiene solo statistiche generali. È tuttavia possibile salvarlo come set di dati e quindi aggiungere statistiche più dettagliate usando le opzioni disponibili in Calcolo statistiche elementari.
Scaricare il set di dati da UCI: il modulo Summarize Data (Riepiloga dati) viene usato per generare un report di riepilogo su tutte le colonne del set di dati.
Elaborazione e analisi dei set di dati: il modulo Riepiloga dati viene usato per generare un report di riepilogo su tutte le colonne del set di dati.
Note tecniche
Questa sezione contiene informazioni dettagliate sull'implementazione, suggerimenti e risposte alle domande frequenti.
Suggerimento
Quando si usa il modulo Compute Elementary Statistics , è necessario che siano soddisfatte le condizioni seguenti:
- Deve essere presente un numero sufficiente di punti dati (righe) per calcolare la statistica selezionata. Ad esempio, per calcolare la deviazione standard di esempio sono necessari almeno due punti dati. in caso contrario, il risultato è NaN.
- Le colonne di input devono essere numeriche o booleane.
Per impostazione predefinita, vengono selezionate tutte le colonne numeriche. Tuttavia, se le colonne numeriche sono contrassegnate come categoriche, è possibile che venga visualizzato l'errore seguente: "Errore 0056: La <> colonna con il nome del nome non è in una categoria consentita". Per correggere l'errore, aggiungere un'istanza del modulo Modifica metadati, selezionare la colonna con il problema e usare l'opzione Rimuovi categoria.
Dettagli dell'implementazione
Le colonne booleane vengono elaborate come segue:
MIN viene calcolata come AND logico.
MAX viene calcolata come OR logico.
RANGE controlla se il numero di valori univoci nella colonna è uguale a 2.
I valori mancanti vengono ignorati.
Per le statistiche che richiedono calcoli a virgola mobile, True = 1,0 e False = 0,0
Input previsti
Nome | Tipo | Descrizione |
---|---|---|
Set di dati | Tabella dati | Set di dati di input |
Parametri del modulo
Nome | Intervallo | Type | Predefinito | Descrizione |
---|---|---|---|---|
Metodo | Elenco | Elementary statistics method | Seleziona un metodo statistico da usare nei calcoli. Vedere la sezione Come usare per un elenco di valori. | |
Column set | any | ColumnSelection | NumericAll | Seleziona le colonne per cui calcolare la statistica |
JSON | >=1 | Integer | 3 | Specifica un valore per l'ordine del momento centrale (usato solo per il kth central moment) |
Output
Nome | Tipo | Descrizione |
---|---|---|
Set di dati di risultati | Tabella dati | Set di dati di output |
Eccezioni
Eccezione | Descrizione |
---|---|
Errore 0017 | Si verifica un'eccezione se il tipo di una o più colonne specificate non è supportato dal modulo attuale. |
Per un elenco di errori specifici dei moduli di Studio (versione classica), vedere l'Machine Learning codici di errore.
Per un elenco delle eccezioni API, vedere l'Machine Learning di errore dell'API REST.
Vedi anche
Funzioni statistiche
elementari
Summarize Data (Riepiloga dati)
Elenco moduli A-Z