Ofuscação de dados no Azure com Delphix e Azure Data Factory

Azure Data Factory
Azure Synapse Analytics

A arquitetura a seguir descreve o uso da Conformidade Contínua Delphix em um pipeline ETL (extrair, transformar, carregar) da fábrica de dados do Azure para identificar e mascarar dados confidenciais.

Arquitetura

Diagrama mostrando a arquitetura de conformidade contínua Delphix.

Transfira um ficheiro do Visio desta arquitetura.

Fluxo de dados

Os dados fluem através do cenário da seguinte maneira:

  1. O Azure Data Factory extrai dados de armazenamentos de dados de origem para um contêiner nos Arquivos do Azure usando a atividade Copiar Dados. Esse contêiner é conhecido como Contêiner de Dados de Origem e os dados estão no formato CSV.
  2. O Data Factory inicia um iterador (atividade ForEach) que percorre uma lista de trabalhos de mascaramento configurados no Delphix. Esses trabalhos de mascaramento serão pré-configurados e mascararão dados confidenciais presentes no Contêiner de Dados de Origem.
  3. Para cada trabalho na lista, a atividade Iniciar mascaramento autentica e inicia o trabalho de mascaramento chamando os pontos de extremidade da API REST no mecanismo Delphix CC.
  4. O mecanismo Delphix CC lê dados do contêiner de dados de origem e executa o processo de mascaramento.
  5. Nesse processo de mascaramento, o Delphix mascara dados na memória e grava os dados mascarados resultantes em um contêiner de Arquivos do Azure de destino (conhecido como Contêiner de Dados de Destino).
  6. O Data Factory agora inicia um segundo iterador (atividade ForEach) que monitora as execuções.
  7. Para cada execução (Trabalho de mascaramento) iniciada, a atividade Verificar Status verifica o resultado do mascaramento.
  8. Depois que todos os trabalhos de mascaramento forem concluídos com êxito, o Data Factory carregará os dados mascarados do Target Data Container para o destino especificado.

Componentes

  • O Azure Data Factory é um serviço de extração, transformação, carregamento (ETL) para integração de dados sem servidor em expansão e transformação de dados. Este serviço oferece uma IU sem código para criação intuitiva e monitorização e gestão num único painel de transparência.
  • O Azure Synapse Analytics é um serviço de análise que reúne integração de dados, armazenamento de dados corporativos e análise de big data. Inclui pipelines do Azure Data Factory para fornecer integração de dados.
  • O Armazenamento do Azure armazena os dados extraídos dos armazenamentos de dados de origem e os dados mascarados que serão carregados nos armazenamentos de dados de destino.
  • Opcional: a Rede Virtual do Azure fornece recursos de rede privada para recursos do Azure que não fazem parte do espaço de trabalho do Azure Synapse. Ele permite que você gerencie o acesso, a segurança e o roteamento entre recursos.
  • Outros componentes: Com base nos armazenamentos de dados usados como origem e destino, outros componentes podem precisar ser adicionados. Esses armazenamentos de dados podem variar dependendo de suas necessidades.

Alternativas

Você também pode executar ofuscação de dados usando o Microsoft Presidio. Saiba mais sobre esta opção em Presidio - Data Protection and De-identification SDK.

Detalhes do cenário

Houve uma explosão de dados nos últimos anos. Para desbloquear o valor estratégico dos dados, eles precisam ser dinâmicos e portáteis. Os dados presentes em silos limitam o seu valor estratégico e são difíceis de utilizar para fins analíticos.

Quebrar silos de dados é difícil:

  • Os dados devem ser manipulados para se ajustarem a um formato comum. Os pipelines de ETL devem ser adaptados a cada sistema de registro e devem ser dimensionados para suportar os conjuntos de dados massivos das empresas modernas.
  • A conformidade com os regulamentos relativos a informações sensíveis deve ser mantida quando os dados são movidos de sistemas de registro. O conteúdo do cliente e outros elementos confidenciais devem ser obscurecidos sem afetar o valor comercial do conjunto de dados.

O que é o Azure Data Factory?

O Azure Data Factory é um serviço de integração de dados totalmente gerenciado e sem servidor. Ele fornece uma experiência visual rica para integrar fontes de dados com mais de 100 conectores integrados e isentos de manutenção sem custo adicional. Construa facilmente ETL e extraia, carregue, transforme (ELT) processos sem código em um ambiente intuitivo ou escreva seu próprio código. Em seguida, forneça dados integrados ao Azure Synapse Analytics para desbloquear o poder dos seus dados através de insights de negócios. Os pipelines de fábrica de dados também estão disponíveis no Azure Synapse Analytics.

O que é Delphix Continuous Compliance (Delphix CC)?

O Delphix Continuous Compliance identifica informações confidenciais e automatiza o mascaramento de dados. Ele oferece uma maneira rápida, automatizada e orientada por API para fornecer dados seguros onde eles são necessários nas organizações.

Como o Delphix CC e o Data Factory resolvem a automação de dados compatíveis?

A movimentação de dados seguros é um desafio para todas as organizações. O Delphix facilita a obtenção de conformidade consistente de dados, enquanto o Data Factory permite conectar e mover dados sem problemas. Juntas, a Delphix e a Data Factory estão combinando ofertas de conformidade e automação líderes do setor para tornar a entrega de dados sob demanda e compatíveis fácil para todos.

Usando os conectores de fonte de dados oferecidos pelo Data Factory, criamos dois pipelines ETL que automatizam as seguintes etapas:

  • Leia dados do sistema de registro e grave-os em arquivos CSV no Armazenamento de Blobs do Azure.

  • Forneça ao Delphix Continuous Compliance o que ele requer para identificar colunas que possam conter dados confidenciais e atribuir algoritmos de mascaramento apropriados.

  • Execute um trabalho de mascaramento Delphix contra os arquivos para substituir elementos de dados confidenciais por valores semelhantes, mas fictícios.

  • Carregue os dados compatíveis em qualquer armazenamento de dados suportado pelo Data Factory.

Potenciais casos de utilização

Ativar com segurança os Serviços de Dados do Azure para soluções específicas do setor

  • Identifique e mascare dados confidenciais em aplicativos grandes e complexos, onde o conteúdo do cliente seria difícil de identificar. O Delphix permite que os usuários finais movam automaticamente dados compatíveis de fontes como SAP, Salesforce e Oracle EBS para camadas de serviço de alto valor, como o Microsoft Synapse.
  • Use os conectores poderosos e abrangentes fornecidos pelo Microsoft Azure para desbloquear, mascarar e migrar seus dados com segurança, não importa de onde eles se originam.

Resolva a complexa conformidade regulatória de dados

  • Coloque automaticamente a estrutura exaustiva do algoritmo Delphix para trabalhar atendendo a quaisquer requisitos regulatórios para seus dados.
  • Aplique regras prontas para dados para necessidades regulatórias como CCPA, LGPD, HIPAA e outras.

Acelere o deslocamento "DevSecOps" para a esquerda

  • Equipe seus pipelines de desenvolvedor e análise (Azure DevOps, Jenkins, Harness) e outros fluxos de trabalho de automação com dados de nível de produção mascarando sistemática e deterministicamente dados confidenciais em pipelines centrais do Data Factory.
  • Mascare dados de forma consistente entre fontes de dados, mantendo a integridade referencial para testes integrados de aplicativos. Por exemplo, o nome George deve ser sempre mascarado para Elliot ou um determinado número de segurança social (SSN) deve ser sempre mascarado para o mesmo SSN, quer George e o seu SSN apareçam no Oracle, Salesforce ou SAP.

Reduza o tempo de treinamento do algoritmo de IA/ML com análises compatíveis

  • Mascare os dados de uma forma que não aumente os ciclos de treinamento.
  • Mantenha a integridade dos dados enquanto mascara para evitar afetar a precisão do modelo/previsão.

Qualquer fábrica de dados do Azure ou conector do Azure Synapse Analytics pode ser usado para facilitar um determinado caso de uso.

Principais benefícios

  • Conectividade universal
  • Mascaramento realista e determinista que mantém a integridade referencial
  • Identificação preventiva de dados confidenciais para as principais aplicações empresariais
  • Execução nativa na nuvem
  • Implantação baseada em modelo
  • Dimensionável

Exemplo de arquitetura

O exemplo a seguir foi fornecido por um cliente anônimo. Destina-se apenas como uma amostra de como se pode arquitetar um ambiente para este caso de uso de mascaramento.

Diagrama de uma arquitetura de exemplo fornecida por um cliente anônimo.

No exemplo de arquitetura acima:

  • O Azure Data Factory ou o Azure Synapse Analytics ingere/conecta-se à produção, dados não mascarados na zona de aterrissagem
  • Os dados são movidos para o Preparo de Dados no Armazenamento do Azure
  • A montagem NFS de dados de produção para PODs Delphix CC permite que o pipeline chame o serviço Delphix CC
  • Os dados mascarados são retornados para distribuição dentro do Data Factory e ambientes inferiores

Considerações

Essas considerações implementam os pilares do Azure Well-Architected Framework, que é um conjunto de princípios orientadores que podem ser usados para melhorar a qualidade de uma carga de trabalho. Para obter mais informações, consulte Microsoft Azure Well-Architected Framework.

Segurança

A segurança oferece garantias contra ataques deliberados e o abuso de seus valiosos dados e sistemas. Para obter mais informações, consulte Visão geral do pilar de segurança.

O Delphix CC mascara irreversivelmente os valores dos dados com dados realistas que permanecem totalmente funcionais, permitindo o desenvolvimento de código de maior qualidade. Entre o rico conjunto de algoritmos disponíveis para transformar dados de acordo com as especificações do usuário, o Delphix CC tem um algoritmo patenteado que produz intencionalmente colisões de dados, ao mesmo tempo em que permite salgar dados com valores específicos necessários para possíveis rotinas de validação executadas no conjunto de dados mascarado. Do ponto de vista do Zero Trust, os operadores não precisam acessar os dados reais para mascará-los. Além disso, toda a entrega de dados mascarados do ponto A ao ponto B pode ser automatizada por meio de APIs.

Otimização de custos

A otimização de custos consiste em procurar formas de reduzir despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, consulte Visão geral do pilar de otimização de custos.

Ao ajustar os valores na calculadora de preços do Azure, você pode ver como seus requisitos específicos afetam o custo. Sinapse do Azure: você pode dimensionar os níveis de computação e armazenamento de forma independente. Os recursos de computação são cobrados por hora, e você pode dimensionar ou pausar esses recursos sob demanda. Os recursos de armazenamento são cobrados por terabyte, portanto, seus custos aumentarão à medida que você ingerir mais dados.

Data Factory ou Azure Synapse Analytics: os custos são baseados no número de operações de leitura/gravação, operações de monitoramento e atividades de orquestração executadas em uma carga de trabalho. Os seus custos aumentarão com cada fluxo de dados adicional e a quantidade de dados processados por cada um.

Delphix CC: Ao contrário de outros produtos de conformidade de dados no mercado, o mascaramento não requer uma cópia física completa do ambiente que está sendo mascarado. A redundância de ambiente pode ser extremamente cara devido ao tempo para configurar e manter a infraestrutura, o custo da própria infraestrutura e o tempo gasto repetidamente carregando dados físicos no ambiente de mascaramento.

Eficiência de desempenho

Eficiência de desempenho é a capacidade da sua carga de trabalho para dimensionar para satisfazer as exigências que os utilizadores lhe colocam de forma eficiente. Para obter mais informações, consulte Visão geral do pilar de eficiência de desempenho.

O Delphix CC é escalável horizontal e verticalmente. As transformações ocorrem na memória e podem ser paralelizadas. O produto é executado como um serviço e como um dispositivo de vários nós, permitindo arquiteturas de solução de todos os tamanhos, dependendo da aplicação. A Delphix é líder de mercado no fornecimento de conjuntos de dados mascarados extremamente grandes.

Os fluxos de mascaramento podem ser aumentados para envolver vários núcleos de CPU em um trabalho. (Recomendações de configuração e detalhes sobre como alterar a alocação de memória podem ser encontrados aqui: https://maskingdocs.delphix.com/Securing_Sensitive_Data/Creating_Masking_Job/).

Para um desempenho ideal para conjuntos de dados maiores que 1 TB de tamanho, o Delphix Hyperscale Masking divide os conjuntos de dados grandes e complexos em vários módulos e, em seguida, orquestra os trabalhos de mascaramento em vários mecanismos de conformidade contínua.

Implementar este cenário

  1. Implantar o mecanismo Delphix CC no Azure
  2. No Data Factory, implante os modelos Delphix Continuous Compliance: Profiling (Delphix CC Profiling) e Delphix Continuous Compliance: Masking (Delphix CC Masking) Data Factory. Esses modelos funcionam para pipelines do Azure Synapse Analytics e do Azure Data Factory.
  3. Nos componentes Copiar dados, configure os armazenamentos de dados de origem e de destino desejados. Nos componentes de atividade da Web, insira o endereço IP do aplicativo Delphix / nome do host e as credenciais para autenticar com APIs Delphix CC.
  4. Execute o modelo Delphix CC Profiling Data Factory para configuração inicial e sempre que quiser reidentificar dados confidenciais (por exemplo, se houve uma alteração de esquema). Este modelo fornece ao Delphix CC a configuração inicial necessária para procurar colunas que possam conter dados confidenciais.
  5. Crie um conjunto de regras indicando a coleção de dados que você gostaria de criar um perfil. Execute um trabalho de criação de perfil na interface do usuário do Delphix para identificar e classificar campos confidenciais para esse conjunto de regras e atribuir algoritmos de mascaramento apropriados.
  6. Revise e modifique os resultados da tela Inventário conforme desejado. Quando estiver satisfeito com os resultados e quiser mascarar de acordo, crie um trabalho de mascaramento.
  7. De volta à interface do usuário do Data Factory, abra o modelo Delphix CC Masking Data Factory. Forneça o ID do trabalho de mascaramento da etapa acima e execute o modelo.
  8. No final desta etapa, você terá dados mascarados no armazenamento de dados de destino de sua escolha.

Nota

Você precisará do endereço IP do aplicativo Delphix e do nome do host com credenciais para se autenticar nas APIs Delphix.

Contribuidores

Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.

Principais autores:

  • Tess Maggio - Brasil | Gerente de Produto 2
  • Arun Saju - Brasil | Engenheiro de Pessoal Sénior
  • David Wells - Brasil | Diretor Sênior, Líder de Produto de Conformidade Contínua

Outros contribuidores:

Para ver perfis não públicos do LinkedIn, inicie sessão no LinkedIn.

Próximos passos

Consulte os seguintes recursos da Delphix:

Saiba mais sobre os principais serviços do Azure nesta solução: