Questa architettura offre un framework predittivo di analisi dell'integrità nel cloud per accelerare il percorso di sviluppo, distribuzione e utilizzo del modello.
Architettura
Questo framework usa servizi di analisi nativi di Azure per l'inserimento dati, l'archiviazione, l'elaborazione dati, l'analisi e la distribuzione modello.
Scaricare un file di Visio di questa architettura.
Workflow
Il flusso di lavoro di uesta architettura è descritto in termini di ruoli dei partecipanti.
Ingegnere dei dati: responsabile dell'inserimento dei dati dai sistemi di origine e dell'orchestrazione delle pipeline di dati per spostare i dati dall'origine alla destinazione. Può anche essere responsabile dell'esecuzione di trasformazioni dei dati sui dati non elaborati.
- In questo scenario, i dati cronologici relativi ai ricoveri ripetuti in ospedale vengono archiviati in un database SQL Server locale.
- L'output previsto sono dati relativi ai ricoveri ripetuti archiviati in un account di archiviazione basato sul cloud.
Scienziato dei dati: responsabile dell'esecuzione di varie attività sui dati a livello di archiviazione di destinazione, per prepararli per la previsione del modello. Le attività includono pulizia, definizione delle funzionalità e standardizzazione dei dati.
- Pulizia: pre-elaborare i dati, rimuovendo i valori Null, eliminando le colonne non necessarie e così via. In questo scenario, eliminare le colonne con troppi valori mancanti.
- Definizione delle funzionalità:
- Determinare gli input necessari per prevedere l'output desiderato.
- Determinare i possibili indicatori per il ricovero ripetuto, ad esempio attraverso il confronto con professionisti come medici e infermieri. Le evidenze reali possono, ad esempio, suggerire che un paziente diabetico in sovrappeso sia un indicatore per il ricovero ripetuto in ospedale.
- Standardizzazione dei dati:
- Caratterizzare la posizione e la variabilità dei dati per prepararli per le attività di Machine Learning. Le caratterizzazioni devono includere la distribuzione dei dati, l'indice di asimmetria e la curtosi.
- L'indice di asimmetria risponde alla domanda: qual è la forma della distribuzione?
- La curtosi risponde alla domanda: qual è la misura dello spessore o della pesantezza della distribuzione?
- Identificare e correggere le anomalie nel set di dati. Il modello di previsione deve essere eseguito su un set di dati con una distribuzione normale.
- L'output previsto sono i set di dati di training seguenti:
- Uno da usare per creare un modello di previsione soddisfacente pronto per la distribuzione.
- Uno assegnabile a un Citizen Data Scientist per la previsione automatica del modello (AutoML).
- Caratterizzare la posizione e la variabilità dei dati per prepararli per le attività di Machine Learning. Le caratterizzazioni devono includere la distribuzione dei dati, l'indice di asimmetria e la curtosi.
Citizen Data Scientist: responsabile della compilazione di un modello di previsione basato sui dati di training dello Scienziato dei dati. Un Citizen Data Scientist usa molto probabilmente una funzionalità di Machine Learning automatizzato che non richiede competenze di codifica pesanti per creare modelli di previsione.
L'output previsto è un modello di previsione soddisfacente pronto per la distribuzione.
Analista di business intelligence: responsabile dell'esecuzione dell'analisi operativa sui dati non elaborati prodotti dall'Ingegnere dei dati. L'Analista di business intelligence può essere coinvolto nella creazione di dati relazionali a partire da dati non strutturati, nella scrittura di script SQL e nella creazione di dashboard.
L'output previsto sono query relazionali, report di business intelligence e dashboard.
Tecnico MLOps: responsabile della produzione di modelli forniti dallo Scienziato dei dati o dal Citizen Data Scientist.
L'output previsto sono modelli pronti per la produzione e riproducibili.
Anche se questo elenco offre una visualizzazione completa di tutti i potenziali ruoli che possono interagire con i dati sanitari in qualsiasi punto del flusso di lavoro, i ruoli possono essere consolidati o espansi in base alle esigenze.
Componenti
- Azure Data Factory è un servizio di orchestrazione in grado di spostare i dati dai sistemi locali ad Azure per operare con altri servizi dati di Azure. Le pipeline vengono usate per lo spostamento dei dati e i flussi di dati di mapping vengono usati per eseguire varie attività di trasformazione, ad esempio estrazione, trasformazione, caricamento (ETL) ed estrazione, caricamento, trasformazione (ELT). In questa architettura, l'Ingegnere dei dati usa Data Factory per eseguire una pipeline che copia i dati cronologici relativi ai ricoveri ripetuti in ospedale da un'istanza SQL Server locale all'archiviazione cloud.
- Azure Databricks è un servizio di analisi e Machine Learning basato su Spark usato per la progettazione dei dati e per i carichi di lavoro di Machine Learning. In questa architettura, l'Ingegnere dei dati usa Databricks per chiamare una pipeline Data Factory per eseguire un notebook di Databricks. Il notebook viene sviluppato dallo Scienziato dei dati per gestire le attività iniziali di pulizia dei dati e di definizione delle funzionalità. Lo Scienziato dei dati può scrivere codice in notebook aggiuntivi per standardizzare i dati e compilare e distribuire modelli di previsione.
- Azure Data Lake Storage è un servizio di archiviazione altamente scalabile e sicuro per carichi di lavoro di analisi a elevate prestazioni. In questa architettura, l'Ingegnere dei dati usa Data Lake Storage per definire la zona di destinazione iniziale per i dati locali caricati in Azure e la zona di destinazione finale per i dati di training. I dati, in formato non elaborato o finale, sono pronti per l'utilizzo da parte di vari sistemi downstream.
- Azure Machine Learning è un ambiente collaborativo usato per sottoporre a training, distribuire, automatizzare, gestire e monitorare i modelli di Machine Learning. Machine Learning automatizzato (AutoML) è una funzionalità che automatizza le attività iterative e dispendiose in termini di tempo coinvolte nello sviluppo di modelli di Machine Learning. Lo Scienziato dei dati usa Machine Learning per tenere traccia delle esecuzioni di Machine Learning da Databricks e per creare modelli di AutoML da utilizzare come benchmark delle prestazioni per i modelli di Machine Learning dello Scienziato dei dati. Un Citizen Data Scientist usa questo servizio per eseguire rapidamente i dati di training tramite AutoML per generare modelli, senza la necessità di una conoscenza dettagliata degli algoritmi di Machine Learning.
- Azure Synapse Analytics è un servizio di analisi che riunisce integrazione dei dati, data warehousing aziendale e analisi di Big Data. Gli utenti hanno la libertà di eseguire query sui dati usando risorse serverless o dedicate, su larga scala. In questa architettura:
- L'Ingegnere dei dati usa Azure Synapse Analytics per creare facilmente tabelle relazionali dai dati nel data lake, in modo che rappresentino la base per l'analisi operativa.
- Lo Scienziato dei dati usa questo servizio per eseguire rapidamente query sui dati nel data lake e sviluppare modelli di previsione usando notebook Spark.
- L'Analista di business intelligence usa questo servizio per eseguire query tramite una sintassi SQL nota.
- Microsoft Power BI è una raccolta di servizi software, app e connettori che interagiscono per trasformare le origini dati non correlate in informazioni dettagliate coerenti, visivamente accattivanti e interattive. L'Analista di business intelligence usa Power BI per sviluppare visualizzazioni a partire dai dati, ad esempio una mappa con la posizione dell'abitazione di ogni paziente e dell'ospedale più vicino.
- Microsoft Entra ID è un servizio per la gestione delle identità e degli accessi basato sul cloud. In questa architettura, controlla l'accesso ai servizi di Azure.
- Azure Key Vault è un servizio cloud che offre un archivio sicuro per i segreti, ad esempio chiavi, password, certificati e così via. Key Vault contiene i segreti che Databricks usa per ottenere l'accesso in scrittura al data lake.
- Microsoft Defender for Cloud è un sistema di gestione della sicurezza dell'infrastruttura unificato che rafforza il ruolo di sicurezza dei data center e offre una protezione avanzata dalle minacce nei carichi di lavoro ibridi nel cloud e in locale. È possibile usarlo per monitorare le minacce alla sicurezza contro l'ambiente di Azure.
- Il servizio Azure Kubernetes è il servizio completamente gestito di Kubernetes per la distribuzione e la gestione di applicazioni in contenitori. Il servizio Azure Kubernetes semplifica la distribuzione di un cluster del servizio Azure Kubernetes gestito tramite l'offload del sovraccarico operativo in Azure.
Alternative
Spostamento dei dati: è possibile usare Databricks per copiare dati da un sistema locale al data lake. In genere, Databricks è appropriato per i dati con un requisito di flusso o in tempo reale, ad esempio i dati di telemetria provenienti da un dispositivo medicale.
Machine Learning: H2O.ai, DataRobot, Dataiku e altri fornitori offrono funzionalità di Machine Learning automatizzate simili ad AutoML di Machine Learning. È possibile usare queste piattaforme per integrare le attività di ingegneria dei dati e Machine Learning di Azure.
Dettagli dello scenario
Questa architettura rappresenta un flusso di lavoro end-to-end di esempio per la previsione del rischio di ricoveri ripetuti in ospedale per i pazienti con diabete, usando dati disponibili pubblicamente provenienti da 130 ospedali statunitensi nei 10 anni dal 1999 al 2008. Valuta innanzitutto un algoritmo di classificazione binaria per la potenza predittiva e quindi lo confronta con i modelli predittivi generati dall'uso di Machine Learning automatizzato. Nelle situazioni in cui Machine Learning automatizzato non è in grado di correggere i dati sbilanciati, è necessario applicare tecniche alternative. Viene selezionato un modello finale per la distribuzione e l'utilizzo.
Poiché le organizzazioni che si occupano di assistenza sanitaria e life science cercano di offrire un'esperienza sempre più personalizzata per pazienti e caregiver, è necessario che usino i dati dei sistemi legacy per fornire informazioni predittive rilevanti, accurate e rapide. La raccolta dei dati ha fatto passi in avanti rispetto ai sistemi operativi tradizionali e alle cartelle cliniche elettroniche per arrivare sempre più a forme non strutturate come app per il benessere di livello consumer, dispositivi indossabili per il fitness e dispositivi medicali intelligenti. Le organizzazioni devono poter centralizzare rapidamente questi dati e sfruttare la potenza di data science e Machine Learning per rimanere al passo con i clienti.
Per raggiungere questi obiettivi, le organizzazioni che si occupano di assistenza sanitaria e life science devono mirare a:
- Creare un'origine dati da cui l'analisi predittiva possa fornire valore in tempo reale a provider di servizi sanitari, amministratori di ospedali, produttori di farmaci e altri attori.
- Soddisfare le esigenze degli esperti di dominio del settore che non hanno competenze in data science e Machine Learning.
- Fornire agli esperti di dominio in data science e Machine Learning gli strumenti flessibili necessari per creare e distribuire modelli predittivi in modo efficiente, accurato e su larga scala.
Potenziali casi d'uso
- Prevedere il rischio di ricoveri ripetuti in ospedale
- Accelerare la diagnosi dei pazienti tramite imaging basato su Machine Learning
- Eseguire analisi del testo in base agli appunti del medico
- Prevedere gli eventi avversi analizzando i dati di monitoraggio dei pazienti da remoto tramite dispositivi IoMT (Internet of Medical Things)
Considerazioni
Queste considerazioni implementano i pilastri di Azure Well-Architected Framework, che è un set di principi guida che possono essere usati per migliorare la qualità di un carico di lavoro. Per altre informazioni, vedere Microsoft Azure Well-Architected Framework.
Affidabilità
L'affidabilità garantisce che l'applicazione possa soddisfare gli impegni che l'utente ha preso con i clienti. Per maggiori informazioni, consultare la sezione Elenco di controllo per la revisione della progettazione per l'affidabilità.
Fornire dati e informazioni cliniche in tempo reale è fondamentale per molte organizzazioni sanitarie. Ecco alcuni modi per ridurre al minimo i tempi di inattività e mantenere i dati al sicuro:
- Data Lake Storage viene sempre replicato tre volte nell'area primaria, con la possibilità di scegliere l'archiviazione con ridondanza locale o l'archiviazione con ridondanza della zona.
- Azure Synapse Analytics offre i punti di ripristino del database e il ripristino di emergenza.
- I dati di Data Factory vengono archiviati e replicati in un'area associata di Azure, per garantire la continuità aziendale e il ripristino di emergenza.
- Databricks fornisce indicazioni sul ripristino di emergenza per la piattaforma di analisi dei dati.
- La distribuzione di Machine Learning può essere multi-regionale.
Sicurezza
La sicurezza offre garanzie contro attacchi intenzionali e l'abuso di dati e sistemi preziosi. Per maggiori informazioni, consultare la sezione Elenco di controllo per la revisione della progettazione per la sicurezza.
I dati sanitari spesso includono informazioni sanitarie protette e informazioni personali riservate. Per proteggere questi dati sono disponibili le risorse seguenti:
- Data Lake Storage usa il controllo degli accessi in base al ruolo di Azure e gli elenchi di controllo di accesso per creare un modello di controllo di accesso.
- Azure Synapse Analytics fornisce una serie di controlli di accesso e sicurezza a livello di database, colonna e riga. I dati possono essere protetti anche a livello di cella e tramite la crittografia dei dati.
- Data Factory offre un'infrastruttura di sicurezza di base per lo spostamento dei dati in scenari ibridi e cloud.
Ottimizzazione dei costi
L'ottimizzazione dei costi riguarda l'analisi dei modi per ridurre le spese non necessarie e migliorare l'efficienza operativa. Per altre informazioni, vedere Elenco di controllo per la revisione della progettazione per l'ottimizzazione dei costi.
I prezzi per questa soluzione sono basati su:
- Servizi di Azure in uso.
- Volume dei dati.
- Requisiti di capacità e velocità effettiva.
- Trasformazioni ETL/ELT necessarie.
- Risorse di calcolo necessarie per eseguire attività di Machine Learning.
È possibile fare una stima dei costi usando il calcolatore dei prezzi di Azure.
Efficienza delle prestazioni
L'efficienza delle prestazioni è la capacità di dimensionare il carico di lavoro per soddisfare in modo efficiente le richieste poste dagli utenti. Per maggiori informazioni, consultare la sezione Elenco di controllo per la revisione della progettazione per l'efficienza delle prestazioni.
Il runtime di integrazione self-hosted di Data Factory può essere ridimensionato per ottenere disponibilità elevata e scalabilità.
Collaboratori
Questo articolo viene gestito da Microsoft. Originariamente è stato scritto dai seguenti contributori.
Autori principali:
- Matt Hansen | Senior Cloud Solution Architect
- Sandy Su | Cloud Solution Architect
Passaggi successivi
Servizi di Azure
- Che cos'è Azure Data Factory?
- Informazioni su Azure Databricks
- Tenere traccia dei modelli di Machine Learning con MLflow e Azure Machine Learning
- Introduzione ad Azure Data Lake Storage Gen2
- Cos'è Azure Machine Learning?
- Informazioni su Machine Learning automatizzato
- Che cos'è Azure Synapse Analytics?
- Che cos'è Power BI?
- Cos'è Microsoft Entra ID?
- Informazioni su Azure Key Vault
- Che cos'è Microsoft Defender for Cloud?
Soluzioni per il settore sanitario
- Microsoft Cloud for Healthcare
- Azure per il settore sanitario
- API di Azure per FHIR
- Connettore FHIR di IoMT per Azure
- Monitoraggio remoto dei pazienti con IoMT (Internet of Medical Things)