Consórcio de dados de integridade no Azure

Fábrica de dados do Azure
Armazenamento do Azure Data Lake
Azure Data Share
Azure Databricks
Banco de Dados SQL do Azure

Esta solução para consórcio de dados usa componentes do Azure. Ela atende a essas metas:

  • Uma maneira de diversas organizações compartilharem dados.
  • Centralização dos esforços de orquestração de dados.
  • Garantia da segurança dos dados.
  • Garantia da privacidade do paciente.
  • Suporte à interoperabilidade de dados.
  • Opções de personalização para atender aos requisitos específicos das organizações.

Arquitetura

Diagrama de arquitetura mostrando como os membros de um consórcio compartilham dados.

Baixe um Arquivo Visio dessa arquitetura.

Fluxo de dados

  1. Os dados brutos se originam em fontes locais e de terceiros. Os membros do consórcio carregam esses dados em qualquer um destes serviços de armazenamento no Azure Data Share:

  2. O consórcio solicita que os membros compartilhem dados. Como produtores de dados, os membros podem compartilhar instantâneos ou usar o compartilhamento no local.

  3. Como consumidor de dados, o consórcio recebe os dados compartilhados pelos membros. Esses dados entram no Data Lake Storage no Data Share do consórcio para a realização de outras transformações.

  4. O Azure Data Factory e Azure Databricks limpam os dados do membro e os transformam em um formato comum.

  5. O consórcio combina os dados do membro e os armazena em um serviço. A estrutura e o volume de dados determinam o tipo de serviço de armazenamento mais adequado. Algumas possibilidades incluem:

    • Azure Synapse Analytics
    • Banco de Dados SQL do Azure
    • Armazenamento do Azure Data Lake
    • Azure Data Explorer
  6. Como produtor de compartilhamento de dados, o consórcio convida os membros a receber dados. Os membros podem aceitar dados de instantâneos ou dados de compartilhamento no local.

  7. Como consumidores de dados, os membros recebem os dados compartilhados. Os dados entram nos armazenamentos de dados dos membros para pesquisa e análise.

Em todo o sistema:

Componentes

Esta solução usa os seguintes componentes:

Plataformas de saúde

  • Os EHRs (Registros Eletrônicos de Saúde) são versões digitais de informações dos pacientes em tempo real.

  • O FHIR (Fast Healthcare Interoperability Resources) é um padrão para a troca de dados de saúde publicados pelo HL7 (Health Level Seven International).

  • A IoMT (Internet das Coisas Médicas) é a coleção de dispositivos e aplicativos médicos que se conectam a sistemas de TI por meio de redes de computadores online.

  • Os dados genômicos fornecem informações sobre como os genes interagem uns com os outros e com o ambiente.

  • Os dados de imagem incluem as imagens que a radiologia, a cardiologia, a radioterapia e outros dispositivos produzem.

  • O CRM (gerenciamento de relacionamento com o cliente), o faturamento e os sistemas de terceiros fornecem dados sobre os pacientes.

Componentes do Azure

  • O Azure Data Share permite que muitas organizações compartilharem dados com segurança. Com ele, os provedores de dados mantêm o controle dos dados que compartilham. É simples gerenciar e monitorar quem compartilhou quais dados e quando. O Data Share também facilita o enriquecimento de cenários de análise e IA combinando dados de diferentes membros.

  • O Azure Synapse Analytics é um serviço de análise para data warehouses e sistemas de big data. Com ele, é possível consultar dados com recursos sob demanda e sem servidor ou recursos provisionados. O Azure Synapse Analytics funciona bem com um alto volume de dados estruturados.

  • O Banco de Dados SQL do Azure é um mecanismo de banco de dados de PaaS (plataforma como serviço) totalmente gerenciado. Com recursos automatizados e desenvolvidos com IA, o Banco de Dados SQL lida com funções de gerenciamento de banco de dados como atualização, aplicação de patches, backups e monitoramento. Este serviço é adequado para dados estruturados.

  • O Data Lake Storage é um data lake massivamente escalonável e seguro para cargas de trabalho de análise de alto desempenho. Este serviço pode gerenciar vários petabytes de informações enquanto mantém centenas de gigabits de taxa de transferência. O Data Lake Storage permite armazenar dados estruturados e não estruturados de vários membros em um só local.

  • O Azure Data Explorer é um serviço de análise de dados rápido, totalmente gerenciado. Ele pode ser usado para análises em tempo real de grandes volumes de dados. O Azure Data Explorer pode lidar com diversos fluxos de dados de aplicativos, sites, dispositivos IoT e outras fontes. Ele é uma boa opção para o compartilhamento no local de dados de log e telemetria de streaming.

  • O Azure Data Factory é um serviço híbrido de integração de dados. E possível usar esta solução sem servidor e totalmente gerenciada para a integração de dados e fluxos de trabalho de transformação. O Data Factory oferece uma interface do usuário sem código e um painel de monitoramento fácil de usar. Nesta solução, os pipelines do Data Factory ingerem dados de compartilhamentos de dados de membros diferentes.

  • O Azure Databricks é uma plataforma de análise de dados. Com base no sistema de processamento distribuído Apache Spark mais recente, o Azure Databricks fornece suporte à integração perfeita com bibliotecas de código aberto. Esta solução usa notebooks do Azure Databricks para transformar todos os dados de membros em um formato comum.

  • Microsoft Entra ID é um serviço de gerenciamento de identidade e acesso baseado em nuvem.

  • O Azure Key Vault armazena e controla com segurança o acesso a segredos como chaves de API, senhas, certificados e chaves de criptografia. Este serviço em nuvem também gerencia certificados de segurança.

  • O Azure Pipelines cria e testa automaticamente projetos de código. Este serviço Azure DevOps combina CI (integração contínua) e CD (entrega contínua). Com essas práticas, o Azure Pipelines testa e cria códigos de forma constante/consistente e os envia para qualquer destino.

  • O Defender para Nuvem fornece gerenciamento unificado de segurança e proteção avançada contra ameaças para cargas de trabalho de nuvem híbrida.

Alternativas

Com o Data Share, há muitas alternativas para o armazenamento de dados. Sua opção de serviço depende de seu método de compartilhamento, volume e tipo de dados:

  • Para o compartilhamento de instantâneos de dados em lote, use qualquer um destes serviços:

    • Azure Synapse Analytics
    • Banco de Dados SQL
    • Data Lake Storage
    • Armazenamento do Blobs do Azure
  • Para o compartilhamento de dados de log e telemetria de streaming no local, use o Azure Data Explorer. Para obter mais informações sobre como analisar dados de várias fontes, consulte [Análise interativa do Azure Data Explorer][Análise interativa do Azure Data Explorer].

  • Alguns conjuntos de dados são grandes ou não relacionais. Alguns não contêm dados em formatos padronizados. Para esses tipos de conjuntos de dados, o Armazenamento de Blobs ou o Azure Data Lake Storage funcionam melhor que o Azure Synapse Analytics e o Banco de Dados SQL para a troca de dados com o Data Share. Para saber como armazenar dados médicos com eficiência, confira Soluções de armazenamento de dados médicos.

Se o Data Share não for uma opção, considere uma VPN (rede privada virtual). É possível usar uma VPN site a site para transferir dados entre os armazenamentos de dados de membro e de consórcio.

Detalhes do cenário

Os ensaios clínicos tradicionais podem ser complexos, demorados e caros. Para resolver esses problemas, um número crescente de organizações de saúde está fazendo parcerias para construir consórcios de dados e realizar ensaios clínicos.

Os consórcios de dados ajudam no atendimento às pessoas de diversas maneiras:

  • Disponibilização de dados de pesquisa.
  • Fornecimento de novos fluxos de receita.
  • Promoção de decisões regulatórias econômicas através de um acesso rápido aos dados.
  • Aceleração da inovação para manter os pacientes mais seguros e saudáveis.

Possíveis casos de uso

Muitos tipos de profissionais de saúde podem se beneficiar desta solução:

  • Organizações que usam dados observacionais reais, como resultados de pacientes, para determinar tratamentos.
  • Médicos especializados em medicina personalizada ou de precisão.
  • Provedores de telemedicina que precisam de acesso fácil aos dados do paciente.
  • Pesquisadores que trabalham com dados de genoma.

Considerações

Estas considerações implementam os pilares do Azure Well-Architected Framework, que é um conjunto de princípios de orientação que podem ser usados para aprimorar a qualidade de uma carga de trabalho. Para obter mais informações, confira Microsoft Azure Well-Architected Framework.

As tecnologias desta solução atendem aos requisitos de segurança, escalabilidade e disponibilidade da maioria das empresas.

Segurança

A segurança fornece garantias contra ataques deliberados e o abuso de seus dados e sistemas valiosos. Para saber mais, confira Visão geral do pilar de segurança.

Devido à sensibilidade das informações médicas, vários componentes desempenham um papel na segurança dos dados:

  • Os recursos de segurança no Data Share protegem os dados das seguintes maneiras:

    • Criptografando dados em repouso, quando o armazenamento de dados subjacente fornece suporte à criptografia em repouso.
    • Criptografando dados em trânsito com TLS (Transport Layer Security) 1.2.
    • Criptografando metadados sobre um compartilhamento de dados em repouso e em trânsito.
    • Não armazenando o conteúdo dos dados do cliente compartilhados.
  • O Azure Synapse Analytics oferece um modelo de segurança abrangente. É possível usar seus controles refinados para proteger seus dados em todos os níveis, de células únicas a bancos de dados inteiros.

  • O Banco de Dados SQL usa uma abordagem em camadas para proteger os dados do consumidor. A estratégia cobre estas áreas:

    • Segurança de rede
    • Gerenciamento de acesso
    • Proteção contra ameaças
    • Proteção das informações
  • O Data Lake Storage fornece controle de acesso. O modelo fornece suporte a esses tipos de controles:

    • Controle de acesso baseado em função (RBAC) do Azure
    • ACLs (listas de controle de acesso) do POSIX (Portable Operating System Interface)
  • O Azure Data Explorer protege os dados das seguintes maneiras:

    • Usa Identidades gerenciadas do Microsoft Entra ID para recursos do Azure.
    • Usa o RBAC para segregar tarefas e limitar o acesso.
    • Bloqueia o tráfego originado de segmentos de rede fora do Azure Data Explorer.
    • Protege os dados e ajuda a cumprir os compromissos usando criptografia de disco do Azure. Este serviço fornece criptografia de volume para discos de dados de máquina virtual e o sistema operacional. A criptografia de disco do Azure também se integra ao Key Vault, que criptografa segredos com chaves gerenciadas pela Microsoft ou pelo cliente.

Disponibilidade

Esta solução usa uma implantação de região única. Alguns cenários exigem uma implantação multirregional para alta disponibilidade, recuperação de desastres ou proximidade. Para esses casos, os seguintes serviços oferecem regiões do Azure emparelhadas para alta disponibilidade:

Otimização de custo

A otimização de custos é a análise de maneiras de reduzir as despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, confira Visão geral do pilar de otimização de custo.

O preço desta solução depende de diversos fatores:

  • Os serviços escolhidos
  • A capacidade e a taxa de transferência do sistema
  • As transformações usadas nos dados
  • Seu nível de continuidade de negócios
  • Seu nível de recuperação de desastre

Para obter mais informações, confira Detalhes de preços.

Colaboradores

Esse artigo é mantido pela Microsoft. Ele foi originalmente escrito pelos colaboradores a seguir.

Principais autores:

Para ver perfis não públicos do LinkedIn, entre no LinkedIn.

Próximas etapas

Determine como personalizar a solução esclarecendo estes pontos:

  • As fontes de dados disponíveis
  • A localização de cada fonte de dados
  • Quais serviços do Azure os membros podem usar para receber dados de origem
  • Quais dados os membros podem compartilhar com o consórcio
  • Como os membros podem compartilhar dados: em lotes como instantâneos ou como fluxos de dados com compartilhamento no local
  • Quais serviços do Azure o consórcio pode usar para receber dados compartilhados
  • O formato dos dados dos membros e se eles precisam de limpeza ou transformação
  • Quais dados o consórcio pode compartilhar com os membros

Documentação do produto: