Identificare gli outlier con gli oggetti visivi di Power BI

Completato

Un outlier è un tipo di anomalia nei dati, qualcosa di imprevisto o sorprendente, in base alle medie o ai risultati cronologici. È utile identificare gli outlier per isolare i punti dati che differiscono significativamente dagli altri punti dati e quindi cercare di capire i motivi delle differenze. I risultati di questa analisi possono avere un impatto significativo sul processo decisionale aziendale.

Si consideri lo scenario in cui si stanno analizzando i dati per un magazzino di spedizioni. Si nota che il numero di ordini è aumentato rispetto alla media per una categoria di prodotto specifica. Per prima cosa si vuole identificare la categoria di prodotto. È quindi necessario formulare alcune domande sull'outlier:

  • Le spedizioni sopra la media sono avvenute in quel giorno?

  • Questa anomalia si verifica in un magazzino specifico?

  • Un singolo evento ha causato il picco negli ordini per la categoria specifica?

  • Questo evento si è verificato in altri giorni nell'ultimo mese, trimestre, anno o nell'anno precedente?

Power BI consente di identificare gli outlier nei dati, ma è necessario prima di tutto determinare la logica alla base della natura di un outlier. È possibile usare i punti di attivazione, ad esempio i calcoli, per definire l'outlier.

Il processo di identificazione degli outlier implica la segmentazione dei dati in due gruppi: un gruppo corrisponde ai dati degli outlier, l'altro gruppo no. È possibile usare le colonne calcolate per identificare gli outlier, ma i risultati saranno statici fino a quando non si aggiornano i dati. Un modo migliore per identificare gli outlier consiste nell'usare una visualizzazione o una formula DAX, perché questi metodi garantiscono la dinamicità dei risultati.

Dopo aver identificato gli outlier nei dati, è possibile usare filtri dei dati o altri filtri per evidenziare tali outlier. È anche possibile aggiungere una legenda agli oggetti visivi, per consentire l'identificazione degli outlier tra gli altri dati. È quindi possibile eseguire il drill-down dei dati degli outlier per un'analisi più dettagliata.

Usare un oggetto visivo per identificare gli outlier

L'oggetto visivo più adatto per identificare gli outlier è il grafico a dispersione, che mostra la relazione tra due valori numerici. I grafici a dispersione visualizzano i modelli nei set di dati di grandi dimensioni e sono quindi ideali per mostrare gli outlier.

Quando si aggiunge un grafico a dispersione nel report di Power BI, si inseriscono i campi di interesse nelle sezioni Asse X e Asse Y, rispettivamente. In questo caso, il campo Orders Shipped è sull'asse x e il campo Qty Orders sull'asse y.

L'oggetto visivo verrà aggiornato per visualizzare i dati in base ai campi selezionati e sarà possibile identificare chiaramente gli outlier in tali dati, ovvero gli elementi isolati che sono lontani dal blocco principale dei dati.

Ora che è possibile identificare gli outlier nei dati, è possibile capire a che cosa sono dovuti e intraprendere un'azione correttiva.

Usare DAX per identificare gli outlier

È possibile usare DAX per creare una misura che identifichi gli outlier nei dati, ad esempio con la formula seguente:

Outliers =
CALCULATE (
    [Order Qty],
    FILTER (
        VALUES ( Product[Product Name] ),
        COUNTROWS ( FILTER ( Sales, [Order Qty] >= [Min Qty] ) ) > 0
    )
)

Order Qty è una misura della tabella Vendite e Min Qty fa riferimento alla quantità di ordini più bassa nella tabella Vendite

Dopo aver creato una nuova misura per gli outlier, è possibile raggruppare i prodotti in categorie usando la funzionalità di raggruppamento, come è stato fatto in precedenza in occasione della creazione di un istogramma. È quindi necessario aggiungere un oggetto visivo Grafico a dispersione, come nella sezione precedente, che rappresenta l'opzione migliore per mostrare gli outlier. Dopo aver aggiunto il grafico a dispersione, popolarlo con i campi associati alla formula DAX e alla misura degli outlier.

Nel grafico a dispersione sarà possibile identificare gli outlier nei dati. È quindi possibile analizzare i motivi della loro esistenza e intraprendere un'azione correttiva.