Preveja readmissões hospitalares com técnicas tradicionais e automatizadas de aprendizado de máquina

Azure Machine Learning
Azure Synapse Analytics
Azure Data Factory

Essa arquitetura fornece uma estrutura de análise de integridade preditiva na nuvem para acelerar o caminho de desenvolvimento, implantação e consumo de modelos.

Arquitetura

Essa estrutura usa serviços de análise nativos do Azure para ingestão, armazenamento, processamento de dados, análise e implantação de modelos.

Diagrama demonstra a arquitetura de um aplicativo de várias camadas.

Transfira um ficheiro do Visio desta arquitetura.

Fluxo de Trabalho

O fluxo de trabalho desta arquitetura é descrito em termos das funções dos participantes.

  1. Engenheiro de Dados: Responsável por ingerir os dados dos sistemas de origem e orquestrar pipelines de dados para mover dados da origem para o destino. Também pode ser responsável por realizar transformações de dados nos dados brutos.

    • Nesse cenário, os dados históricos de readmissões hospitalares são armazenados em um banco de dados SQL Server local.
    • A saída esperada são dados de readmissões armazenados em uma conta de armazenamento baseada em nuvem.
  2. Cientista de Dados: Responsável por executar várias tarefas nos dados na camada de armazenamento de destino, para prepará-los para a previsão do modelo. As tarefas incluem limpeza, engenharia de recursos e padronização de dados.

    • Limpeza: pré-processe os dados, remova valores nulos, remova colunas desnecessárias e assim por diante. Nesse cenário, solte colunas com muitos valores ausentes.
    • Engenharia de recursos:
      1. Determine as entradas necessárias para prever a saída desejada.
      2. Determinar possíveis preditores para a readmissão, talvez conversando com profissionais como médicos e enfermeiros. Por exemplo, evidências do mundo real podem sugerir que um paciente diabético com sobrepeso é um preditor para readmissão hospitalar.
    • Padronização de dados:
      1. Caracterize a localização e a variabilidade dos dados para prepará-los para tarefas de aprendizado de máquina. As caracterizações devem incluir distribuição de dados, assimetria e curtose.
        • A assimetria responde à pergunta: Qual é a forma da distribuição?
        • Kurtosis responde à pergunta: Qual é a medida de espessura ou peso da distribuição?
      2. Identificar e corrigir anomalias no conjunto de dados — o modelo de previsão deve ser executado em um conjunto de dados com uma distribuição normal.
      3. O resultado esperado são estes conjuntos de dados de treinamento:
        • Um para usar para criar um modelo de previsão satisfatório que esteja pronto para implantação.
        • Um que pode ser dado a um Cientista de Dados Cidadão para previsão de modelo automatizado (AutoML).
  3. Citizen Data Scientist: Responsável pela construção de um modelo de previsão baseado em dados de treinamento do Data Scientist. Um cientista de dados cidadão provavelmente usa um recurso AutoML que não requer habilidades pesadas de codificação para criar modelos de previsão.

    A saída esperada é um modelo de previsão satisfatório que está pronto para implantação.

  4. Analista de Business Intelligence (BI): Responsável por realizar análises operacionais sobre dados brutos que o Engenheiro de Dados produz. O analista de BI pode estar envolvido na criação de dados relacionais a partir de dados não estruturados, na escrita de scripts SQL e na criação de painéis.

    A saída esperada são consultas relacionais, relatórios de BI e painéis.

  5. Engenheiro MLOps: Responsável por colocar em produção modelos que o Cientista de Dados ou Cientista de Dados Cidadão fornece.

    A saída esperada são modelos prontos para produção e reproduzíveis.

Embora essa lista forneça uma visão abrangente de todas as funções potenciais que podem estar interagindo com dados de saúde em qualquer ponto do fluxo de trabalho, as funções podem ser consolidadas ou expandidas conforme necessário.

Componentes

  • O Azure Data Factory é um serviço de orquestração que pode mover dados de sistemas locais para o Azure, para trabalhar com outros serviços de dados do Azure. Os pipelines são usados para movimentação de dados, e os fluxos de dados de mapeamento são usados para executar várias tarefas de transformação, como extrair, transformar, carregar (ETL) e extrair, carregar, transformar (ELT). Nessa arquitetura, o Data Engineer usa o Data Factory para executar um pipeline que copia dados históricos de readmissão hospitalar de um SQL Server local para o armazenamento em nuvem.
  • O Azure Databricks é um serviço de análise e aprendizagem automática baseado no Spark que é utilizado para engenharia de dados e cargas de trabalho de ML. Nessa arquitetura, o Engenheiro de Dados usa o Databricks para chamar um pipeline do Data Factory para executar um notebook Databricks. O notebook é desenvolvido pelo Cientista de Dados para lidar com as tarefas iniciais de limpeza de dados e engenharia de recursos. O Cientista de Dados pode escrever código em blocos de anotações adicionais para padronizar os dados e criar e implantar modelos de previsão.
  • O Armazenamento Azure Data Lake é um serviço de armazenamento massivamente escalável e seguro para cargas de trabalho de análise de alto desempenho. Nessa arquitetura, o Engenheiro de Dados usa o Armazenamento Data Lakes para definir a zona de aterrissagem inicial para os dados locais carregados no Azure e a zona de aterrissagem final para os dados de treinamento. Os dados, em formato bruto ou final, estão prontos para consumo por vários sistemas a jusante.
  • O Azure Machine Learning é um ambiente colaborativo usado para treinar, implantar, automatizar, gerenciar e rastrear modelos de aprendizado de máquina. O aprendizado de máquina automatizado (AutoML) é um recurso que automatiza as tarefas demoradas e iterativas envolvidas no desenvolvimento do modelo de ML. O Cientista de Dados usa o Machine Learning para rastrear execuções de ML a partir de Databricks e para criar modelos AutoML para servir como uma referência de desempenho para os modelos de ML do Cientista de Dados. Um Cientista de Dados Cidadão usa esse serviço para executar rapidamente dados de treinamento através do AutoML para gerar modelos, sem precisar de conhecimento detalhado de algoritmos de aprendizado de máquina.
  • O Azure Synapse Analytics é um serviço de análise que unifica a integração de dados, o armazenamento de dados corporativos e a análise de big data. Os usuários têm a liberdade de consultar dados usando recursos sem servidor ou dedicados, em escala. Nesta arquitetura:
    • O engenheiro de dados usa o Synapse Analytics para criar facilmente tabelas relacionais a partir de dados no data lake para ser a base para a análise operacional.
    • O Cientista de Dados o usa para consultar rapidamente dados no data lake e desenvolver modelos de previsão usando blocos de anotações do Spark.
    • O analista de BI usa-o para executar consultas usando a sintaxe SQL familiar.
  • O Microsoft Power BI é uma coleção de serviços de software, aplicativos e conectores que trabalham juntos para transformar fontes de dados não relacionadas em insights coerentes, visualmente imersivos e interativos. O Analista de BI usa o Power BI para desenvolver visualizações a partir dos dados, como um mapa da localização da casa de cada paciente e do hospital mais próximo.
  • O Microsoft Entra ID é um serviço de gerenciamento de identidade e acesso baseado em nuvem. Nessa arquitetura, ele controla o acesso aos serviços do Azure.
  • O Azure Key Vault é um serviço de nuvem que fornece um armazenamento seguro para segredos como chaves, senhas e certificados. O Key Vault guarda os segredos que o Databricks usa para obter acesso de gravação ao data lake.
  • O Microsoft Defender for Cloud é um sistema unificado de gerenciamento de segurança de infraestrutura que fortalece a postura de segurança dos data centers e fornece proteção avançada contra ameaças em cargas de trabalho híbridas na nuvem e no local. Você pode usá-lo para monitorar ameaças de segurança contra o ambiente do Azure.
  • O Serviço Kubernetes do Azure (AKS) é um serviço Kubernetes totalmente gerenciado para implantar e gerenciar aplicativos em contêineres. O AKS simplifica a implantação de um cluster AKS gerenciado no Azure descarregando a sobrecarga operacional para o Azure.

Alternativas

  • Movimentação de dados: você pode usar o Databricks para copiar dados de um sistema local para o data lake. Normalmente, o Databricks é apropriado para dados que têm um requisito de streaming ou em tempo real, como telemetria de um dispositivo médico.

  • Machine Learning: H2O.ai, DataRobot, Dataiku e outros fornecedores oferecem recursos de aprendizado de máquina automatizados que são semelhantes ao AutoML de Machine Learning. Você pode usar essas plataformas para complementar as atividades de engenharia de dados e aprendizado de máquina do Azure.

Detalhes do cenário

Esta arquitetura representa um fluxo de trabalho de amostra de ponta a ponta para prever readmissões hospitalares para pacientes com diabetes, usando dados publicamente disponíveis de 130 hospitais dos EUA ao longo dos 10 anos de 1999 a 2008. Primeiro, ele avalia um algoritmo de classificação binária para poder preditivo e, em seguida, o compara com modelos preditivos que são gerados usando aprendizado de máquina automatizado. Em situações em que o aprendizado de máquina automatizado não pode corrigir dados desequilibrados, técnicas alternativas devem ser aplicadas. Um modelo final é selecionado para implantação e consumo.

À medida que as organizações de saúde e ciências da vida se esforçam para fornecer uma experiência mais personalizada para pacientes e cuidadores, elas são desafiadas a usar dados de sistemas legados para fornecer insights preditivos que sejam relevantes, precisos e oportunos. A recolha de dados ultrapassou os sistemas operacionais tradicionais e os registos de saúde eletrónicos (RSE) e, cada vez mais, tornou-se uma forma não estruturada a partir de aplicações de saúde dos consumidores, dispositivos vestíveis de fitness e dispositivos médicos inteligentes. As organizações precisam da capacidade de centralizar rapidamente esses dados e aproveitar o poder da ciência de dados e do aprendizado de máquina para se manterem relevantes para seus clientes.

Para alcançar estes objetivos, as organizações de saúde e ciências da vida devem procurar:

  • Crie uma fonte de dados a partir da qual a análise preditiva possa fornecer valor em tempo real para prestadores de cuidados de saúde, administradores hospitalares, fabricantes de medicamentos e outros.
  • Acomode seus especialistas no assunto do setor (PMEs) que não têm habilidades em ciência de dados e aprendizado de máquina.
  • Forneça às PMEs de ciência de dados e aprendizado de máquina (ML) as ferramentas flexíveis de que precisam para criar e implantar modelos preditivos de forma eficiente, precisa e em escala.

Potenciais casos de utilização

  • Prever readmissões hospitalares
  • Acelere o diagnóstico do paciente por meio de imagens alimentadas por ML
  • Execute análises de texto em anotações médicas
  • Preveja eventos adversos analisando dados de monitoramento remoto de pacientes da Internet das Coisas Médicas (IoMT)

Considerações

Essas considerações implementam os pilares do Azure Well-Architected Framework, que é um conjunto de princípios orientadores que podem ser usados para melhorar a qualidade de uma carga de trabalho. Para obter mais informações, consulte Microsoft Azure Well-Architected Framework.

Disponibilidade

Fornecer dados clínicos e insights em tempo real é fundamental para muitas organizações de saúde. Eis algumas formas de minimizar o tempo de inatividade e manter os dados seguros:

  • O armazenamento Data Lake é sempre replicado três vezes na região principal, com a opção de escolher LRS (armazenamento com redundância local) ou ZRS (armazenamento com redundância de zona).
  • O Synapse Analytics fornece pontos de restauração de banco de dados e recuperação de desastres.
  • Os dados do Data Factory são armazenados e replicados em uma região emparelhada do Azure para garantir a continuidade de negócios e a recuperação de desastres.
  • A Databricks fornece orientação de recuperação de desastres para sua plataforma de análise de dados.
  • A implantação do Machine Learning pode ser multirregional.

Desempenho

O tempo de execução de integração auto-hospedado do Data Factory pode ser ampliado para alta disponibilidade e escalabilidade.

Segurança

A segurança oferece garantias contra ataques deliberados e o abuso de seus valiosos dados e sistemas. Para obter mais informações, consulte Visão geral do pilar de segurança.

Os dados de cuidados de saúde incluem frequentemente informações de saúde protegidas (PHI) sensíveis e informações pessoais. Os seguintes recursos estão disponíveis para proteger esses dados:

  • O Armazenamento Data Lake usa o controle de acesso baseado em função (RBAC) e as listas de controle de acesso (ACLs) do Azure para criar um modelo de controle de acesso.
  • O Synapse Analytics fornece vários controles de acesso e segurança nos níveis de banco de dados, coluna e linha. Os dados também podem ser protegidos ao nível da célula e através da encriptação de dados.
  • O Data Factory fornece uma infraestrutura de segurança básica para a movimentação de dados em cenários híbridos e em nuvem.

Otimização de custos

A otimização de custos consiste em procurar formas de reduzir despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, consulte Visão geral do pilar de otimização de custos.

Os preços desta solução baseiam-se em:

  • Os serviços do Azure que são usados.
  • Volume de dados.
  • Requisitos de capacidade e rendimento.
  • Transformações ETL/ELT necessárias.
  • Recursos de computação necessários para executar tarefas de aprendizado de máquina.

Você pode estimar custos usando a calculadora de preços do Azure.

Contribuidores

Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.

Principais autores:

  • Matt Hansen - Brasil | Arquiteto de Soluções Cloud Sênior
  • Sandy Su - Brasil | Arquiteto de Soluções Cloud

Próximos passos

Serviços do Azure

Soluções para cuidados de saúde