Análise de dados de sala limpa e de vários participantes

Artigo
10/26/2023

A computação confidencial do Azure (ACC) fornece uma base para soluções que permitem que várias partes colaborem em dados. Há várias abordagens para soluções e um ecossistema crescente de parceiros para ajudar a permitir que clientes, pesquisadores, cientistas de dados e provedores de dados do Azure colaborem em dados, preservando a privacidade. Esta visão geral abrange algumas das abordagens e soluções existentes que podem ser usadas, todas executadas no ACC.

Quais são as proteções de dados e modelos?

As soluções de sala limpa de dados geralmente oferecem um meio para um ou mais provedores de dados combinarem dados para processamento. Normalmente, há código, consultas ou modelos acordados que são criados por um dos provedores ou outro participante, como um pesquisador ou provedor de soluções. Em muitos casos, os dados podem ser considerados confidenciais e indesejados para compartilhar diretamente com outros participantes – seja outro provedor de dados, um pesquisador ou fornecedor de soluções. Para ajudar a garantir a segurança e a privacidade dos dados e modelos usados nas salas limpas de dados, a computação confidencial pode ser usada para verificar criptograficamente se os participantes não têm acesso aos dados ou modelos, inclusive durante o processamento. Usando o ACC, as soluções podem trazer proteções sobre os dados e o IP do modelo do operador de nuvem, do provedor de soluções e dos participantes da colaboração de dados.

Quais são os exemplos de casos de uso da indústria?

Com a ACC, clientes e parceiros criam soluções de análise de dados de várias partes preservando a privacidade, às vezes chamadas de "salas limpas confidenciais" – tanto as novas soluções são exclusivamente confidenciais quanto as soluções de salas limpas existentes tornadas confidenciais com a ACC.

Solução de sala limpa virtual do Royal Bank of Canada - combinando dados de comerciantes com dados bancários para fornecer ofertas personalizadas, usando VMs de computação confidencial do Azure e SQL AE do Azure em enclaves seguros.
Scotiabank – Provou o uso de IA em fluxos de dinheiro entre bancos para identificar lavagem de dinheiro para sinalizar instâncias de tráfico humano, usando computação confidencial do Azure e um parceiro de solução, Opaque.
Novartis Biome – usou uma solução parceira da BeeKeeperAI rodando no ACC para encontrar candidatos para testes clínicos de doenças raras.
Os principais provedores de pagamento conectam dados entre bancos para detecção de fraudes e anomalias.
Serviços de análise de dados e soluções de sala limpa usando ACC para aumentar a proteção de dados e atender às necessidades de conformidade do cliente da UE e à regulamentação de privacidade.

Por que computação confidencial?

As salas limpas de dados não são um conceito totalmente novo, no entanto, com os avanços na computação confidencial, há mais oportunidades de aproveitar a escala da nuvem com conjuntos de dados mais amplos, protegendo o IP de modelos de IA e a capacidade de atender melhor às regulamentações de privacidade de dados. Em casos anteriores, certos dados podem estar inacessíveis por motivos como

Desvantagens competitivas ou regulamentação que impede o compartilhamento de dados entre empresas do setor.
Anonimização reduzindo a qualidade dos insights sobre os dados, ou sendo muito caro e demorado.
Os dados estão vinculados a determinados locais e se abstêm de ser processados na nuvem devido a preocupações de segurança.
Processos judiciais caros ou demorados cobrem a responsabilidade se os dados forem expostos ou abusados

Essas realidades podem levar a conjuntos de dados incompletos ou ineficazes que resultam em insights mais fracos ou mais tempo necessário no treinamento e no uso de modelos de IA.

Quais são as considerações ao construir uma solução de sala limpa?

Análise em lote versus pipelines de dados em tempo real: o tamanho dos conjuntos de dados e a velocidade dos insights devem ser considerados ao projetar ou usar uma solução de sala limpa. Quando os dados estão disponíveis "offline", eles podem ser carregados em um ambiente de computação verificado e seguro para processamento analítico de dados em grandes partes de dados, se não em todo o conjunto de dados. Essa análise em lote permite que grandes conjuntos de dados sejam avaliados com modelos e algoritmos que não devem fornecer um resultado imediato. Por exemplo, a análise em lote funciona bem ao fazer inferência de ML em milhões de registros de saúde para encontrar os melhores candidatos para um ensaio clínico. Outras soluções exigem insights em tempo real sobre os dados, como quando algoritmos e modelos visam identificar fraudes em transações quase em tempo real entre várias entidades.

Participação de confiança zero: Um grande diferencial em salas limpas confidenciais é a capacidade de não ter nenhuma parte envolvida confiável – de todos os provedores de dados, desenvolvedores de código e modelo, provedores de soluções e administradores de operadores de infraestrutura. As soluções podem ser fornecidas onde os dados e o IP do modelo podem ser protegidos de todas as partes. Ao integrar ou criar uma solução, os participantes devem considerar o que se deseja proteger e de quem proteger cada um dos códigos, modelos e dados.

Aprendizado federado: o aprendizado federado envolve a criação ou o uso de uma solução, enquanto os modelos são processados no locatário do proprietário dos dados e os insights são agregados em um locatário central. Em alguns casos, os modelos podem até ser executados em dados fora do Azure, com a agregação de modelo ainda ocorrendo no Azure. Muitas vezes, o aprendizado federado itera nos dados muitas vezes à medida que os parâmetros do modelo melhoram depois que os insights são agregados. Os custos de iteração e a qualidade do modelo devem ser considerados na solução e nos resultados esperados.

Residência e fontes de dados: os clientes têm dados armazenados em várias nuvens e no local. A colaboração pode incluir dados e modelos de diferentes fontes. As soluções de sala limpa podem facilitar os dados e modelos que chegam ao Azure a partir desses outros locais. Quando os dados não podem ser movidos de um armazenamento de dados local para o Azure, algumas soluções de sala limpa podem ser executadas no local onde os dados residem. O gerenciamento e as políticas podem ser alimentados por um provedor de soluções comum, quando disponível.

Integridade do código e livros contábeis confidenciais: com a tecnologia de razão distribuída (DLT) em execução na computação confidencial do Azure, é possível criar soluções que são executadas em uma rede entre organizações. A lógica de código e as regras analíticas podem ser adicionadas somente quando houver consenso entre os vários participantes. Todas as atualizações do código são registradas para auditoria por meio de log à prova de violação habilitado com a computação confidencial do Azure.

Quais são as opções para começar?

Ofertas da plataforma ACC que ajudam a habilitar salas limpas confidenciais

Arregace as mangas e crie uma solução de sala limpa de dados diretamente nessas ofertas de serviços de computação confidenciais.

Contêineres confidenciais em instâncias de contêiner do Azure (ACI) e VMs Intel SGX com enclaves de aplicativos fornecem uma solução de contêiner para criar soluções confidenciais de sala limpa.

As Máquinas Virtuais (VMs) confidenciais fornecem uma plataforma VM para soluções confidenciais de sala limpa.

O Azure SQL AE em enclaves seguros fornece um serviço de plataforma para criptografar dados e consultas no SQL que pode ser usado em análises de dados de vários participantes e salas limpas confidenciais.

O Confidential Consortium Framework é uma estrutura de código aberto para a criação de serviços stateful altamente disponíveis que usam computação centralizada para facilitar o uso e o desempenho, ao mesmo tempo em que fornecem confiança descentralizada. Ele permite que várias partes executem computação auditável sobre dados confidenciais sem confiar umas nas outras ou em um operador privilegiado.

Soluções de parceiros ACC que permitem salas limpas confidenciais

Use um parceiro que tenha criado uma solução de análise de dados com vários participantes sobre a plataforma de computação confidencial do Azure.

A Anjuna fornece uma plataforma de computação confidencial para permitir vários casos de uso, incluindo salas limpas seguras, para que as organizações compartilhem dados para análise conjunta, como calcular pontuações de risco de crédito ou desenvolver modelos de aprendizado de máquina, sem expor informações confidenciais.
O BeeKeeperAI habilita a IA de saúde por meio de uma plataforma de colaboração segura para proprietários de algoritmos e administradores de dados. O BeeKeeperAI™ usa análises de preservação da privacidade em fontes multi-institucionais de dados protegidos em um ambiente de computação confidencial. A solução suporta criptografia de ponta a ponta, enclaves de computação segura e os mais recentes processadores habilitados para SGX da Intel para proteger os dados e o IP do algoritmo.
A Decentriq fornece salas limpas de dados SaaS baseadas em computação confidencial que permitem a colaboração segura de dados sem compartilhar dados. As salas limpas de ciência de dados permitem análises flexíveis de várias partes e as salas limpas sem código para mídia e publicidade permitem a ativação e a análise de público compatíveis com base em dados de usuários primários. Salas limpas confidenciais são descritas em mais detalhes neste artigo no blog da Microsoft.
A Fortanix fornece uma plataforma de computação confidencial que pode permitir IA confidencial, incluindo várias organizações colaborando juntas para análises de várias partes.
A Habu oferece uma plataforma de sala limpa de dados interoperável que permite que as empresas desbloqueiem inteligência colaborativa de forma inteligente, segura, escalável e simples. A Habu conecta dados descentralizados entre departamentos, parceiros, clientes e provedores para uma melhor colaboração, tomada de decisões e resultados.
A Mithril Security fornece ferramentas para ajudar os fornecedores de SaaS a atender modelos de IA dentro de enclaves seguros e fornecer um nível local de segurança e controle aos proprietários de dados. Os proprietários de dados podem usar suas soluções de IA SaaS enquanto permanecem em conformidade e no controle de seus dados.
A Opaque fornece uma plataforma de computação confidencial para análise colaborativa e IA, dando a capacidade de realizar análises colaborativas escalonáveis enquanto protege os dados de ponta a ponta e permite que as organizações cumpram as determinações legais e regulamentares.
O SafeLiShare fornece salas limpas de dados criptografados orientadas por políticas, onde o acesso aos dados é auditável, rastreável e visível, mantendo os dados protegidos durante o compartilhamento de dados de vários participantes.

Compartilhar via