Definire criteri basati sui dati e influenzare il processo decisionale

I modelli di apprendimento automatico sono potenti nell'identificare modelli nei dati e nel fare previsioni. Ma offrono poco supporto per stimare come cambia il risultato del mondo reale in presenza di un intervento.

I professionisti sono sempre più concentrati sull'uso dei dati cronologici per informare le decisioni future e gli interventi aziendali. Ad esempio, che impatto avrebbe il fatturato se un'azienda adottasse una nuova strategia di prezzo? A parità di condizioni, un nuovo farmaco migliorerebbe le condizioni di un paziente?

Il componente inferenza causale del dashboard di intelligenza artificiale responsabile risponde a queste domande stimando l'effetto di una caratteristica su un risultato di interesse in media, in una popolazione o in una coorte e a livello individuale. Aiuta anche a costruire interventi promettenti simulando risposte di caratteristiche a vari interventi e creando regole per determinare quali coorti della popolazione trarrebbero vantaggio da un intervento. Nel complesso, queste funzionalità consentono ai decision maker di applicare nuovi criteri e promuovere cambiamenti nel mondo reale.

Le funzionalità di questo componente provengono dal pacchetto EconML. Stima gli effetti eterogenei del trattamento da dati osservazionali attraverso la tecnica del doppio apprendimento automatico.

Usare l'inferenza causale quando è necessario:

  • Identificare le caratteristiche che hanno l'effetto più diretto sul risultato di interesse.
  • Decidere quali criteri di trattamento generali adottare per massimizzare l'impatto reale su un risultato di interesse.
  • Comprendere in che modo gli individui con determinati valori delle caratteristiche risponderebbero a un determinato criterio di trattamento.

In che modo vengono generate le informazioni dettagliate sull'inferenza causale?

Nota

Per generare informazioni dettagliate causali, sono necessari solo i dati cronologici. Gli effetti causali calcolati in base alle caratteristiche di trattamento sono puramente una proprietà dei dati. Pertanto, un modello con training è facoltativo quando si calcolano gli effetti causali.

Il doppio apprendimento automatico è un metodo per stimare gli effetti eterogenei del trattamento quando vengono osservati tutti i potenziali confondenti/controlli (fattori che hanno avuto contemporaneamente un effetto diretto sulla decisione di trattamento nei dati raccolti e sul risultato osservato), ma esiste uno dei problemi seguenti:

  • Ce ne sono troppi perché gli approcci statistici classici siano applicabili. Ovvero, sono altamente dimensionali.
  • Il loro effetto sul trattamento e sul risultato non può essere modellato in modo soddisfacente da funzioni parametriche. Ovvero, non sono parametrici.

È possibile usare tecniche di apprendimento automatico per risolvere entrambi i problemi. Per un esempio, vedere Chernozhukov2016.

Il doppio apprendimento automatico riduce il problema stimando prima due attività predittive:

  • Previsione del risultato dai controlli
  • Previsione del trattamento dai controlli

Il metodo combina quindi questi due modelli predittivi in una stima finale per creare un modello dell'effetto eterogeneo del trattamento. Questo approccio consente l'uso di algoritmi di apprendimento automatico arbitrari per le due attività predittive mantenendo molte proprietà statistiche favorevoli correlate al modello finale. Queste proprietà includono un piccolo errore quadratico medio, la normalità asintotica e la costruzione di intervalli di confidenza.

Quali altri strumenti Microsoft fornisce per l'inferenza causale?

  • Project Azua fornisce un nuovo framework incentrato sull'inferenza causale end-to-end.

    La tecnologia DECI (deep end-to-end causal inference) di Azua è un singolo modello che può eseguire simultaneamente l'individuazione causale e l'inferenza causale. L'utente fornisce i dati e il modello può restituire le relazioni causali tra tutte le variabili.

    Di per sé, questo approccio può fornire informazioni dettagliate sui dati. Consente di calcolare metriche quali l'effetto individuale del trattamento (ITE), l'effetto medio del trattamento (ATE) e l'effetto medio condizionale del trattamento (CATE). È quindi possibile usare questi calcoli per prendere decisioni ottimali.

    Il framework è scalabile per dati di grandi dimensioni, sia in termini di numero di variabili che di numero di punti dati. Può anche gestire voci di dati mancanti con tipi statistici misti.

  • EconML supporta il back-end del componente di inferenza causale del dashboard di intelligenza artificiale responsabile. Si tratta di un pacchetto Python che applica tecniche di apprendimento automatico per stimare le risposte causali personalizzate da dati osservazionali o sperimentali.

    La suite di metodi di stima in EconML rappresenta i progressi più recenti nell'apprendimento automatico causale. Incorporando singoli passaggi di apprendimento automatico in modelli causali interpretabili, questi metodi migliorano l'affidabilità delle previsioni di simulazione e rendono l'analisi causale più rapida e semplice per un ampio set di utenti.

  • DoWhy è una libreria Python che mira a stimolare il pensiero e l'analisi causale. DoWhy fornisce un'interfaccia in quattro passaggi basata su principi per l'inferenza causale incentrata sulla modellazione esplicita delle ipotesi causali e sulla relativa convalida per quanto possibile.

    La caratteristica chiave di DoWhy è un'API di confutazione all'avanguardia in grado di testare automaticamente le ipotesi causali per qualsiasi metodo di stima. Rende l'inferenza più solida e accessibile ai non esperti.

    DoWhy supporta la stima dell'effetto causale medio per backdoor, frontdoor, variabile strumentale e altri metodi di identificazione. Supporta anche la stima del CATE tramite un'integrazione con la libreria EconML.

Passaggi successivi