O que é o Link do Azure Synapse para Azure Cosmos DB?

APLICA-SE AO: NoSQL MongoDB Gremlin

O Link do Azure Synapse para Azure Cosmos DB é uma funcionalidade de HTAP (processamento analítico e transacional) híbrido nativo de nuvem que permite análises quase em tempo real dos dados operacionais no Azure Cosmos DB. O Link do Azure Synapse cria uma integração perfeita entre o Azure Cosmos DB e o Azure Synapse Analytics.

Importante

O espelhamento do Azure Cosmos DB no Microsoft Fabric agora está disponível para a API NoSql. Esse recurso fornece todos os recursos do Link do Azure Synapse com melhor desempenho analítico, capacidade de unificar seu patrimônio de dados com o Fabric OneLake e acesso aberto aos seus dados com formato Delta Parquet. Se estiver a considerar o Link do Azure Synapse, recomendamos que tente espelhar para avaliar a adequação geral à sua organização. Introdução ao espelhamento no Microsoft Fabric.

O repositório analítico do Azure Cosmos DB, um repositório de colunas totalmente isolado, pode ser usado com o Link do Azure Synapse para habilitar a análise de ETL (extração, transformação e carregamento) no Azure Synapse Analytics contra seus dados operacionais em escala. Agora analistas de negócios, engenheiros de dados e cientistas de dados podem usar o Synapse Spark ou o SQL do Synapse de forma intercambiável para executar pipelines de business intelligence, análise e aprendizado de máquina quase em tempo real. Analise dados em tempo real sem afetar o desempenho de suas cargas de trabalho transacionais no Azure Cosmos DB.

A imagem a seguir mostra a integração do Link do Azure Synapse com o Azure Cosmos DB e o Azure Synapse Analytics:

Diagrama de arquitetura par integração do Azure Synapse Analytics com o Azure Cosmos DB

Para analisar grandes conjuntos de dados operacionais e minimizar quaisquer efeitos no desempenho de cargas de trabalho transacionais críticas, os clientes do Azure Cosmos DB tradicionalmente exportam os dados operacionais. Essas operações são executadas por pipelines ETL (Extração, transformação e carregamento), que exigem muitas camadas de gerenciamento de dados e trabalhos, resultando em complexidade operacional e efeitos de desempenho em suas cargas de trabalho transacionais. Eles também aumentam a latência para analisar os dados operacionais do tempo de origem.

Em comparação com as soluções tradicionais baseadas em ETL, o Link do Azure Synapse para Azure Cosmos DB oferece várias vantagens, como:

Complexidade reduzida sem trabalhos de ETL para gerenciar

O Link do Azure Synapse permite que você acesse diretamente o repositório analítico do Azure Cosmos DB usando o Azure Synapse Analytics sem movimentação de dados complexa. Quaisquer atualizações feitas nos dados operacionais são visíveis no repositório analítico quase em tempo real sem ETL ou trabalhos de feed de alterações. Execute análises em grande escala em relação ao repositório analítico, no Azure Synapse Analytics, sem transformação adicional de dados.

Insights quase em tempo real sobre seus dados operacionais

Agora você pode obter insights detalhados sobre seus dados operacionais quase em tempo real, usando o Link do Azure Synapse. Os sistemas baseados em ETL tendem a ter maior latência para analisar seus dados operacionais, o que ocorre devido às muitas camadas necessárias para extrair, transformar e carregar os dados operacionais. Com a integração nativa do repositório analítico de Azure Cosmos DB com o Azure Synapse Analytics, você pode analisar dados operacionais em tempo quase real ao habilitar novos cenários de negócios.

Nenhum comprometimento de desempenho em cargas de trabalho operacionais

Com o Link do Azure Synapse, execute consultas de análise em um repositório analítico do Azure Cosmos DB, uma representação de repositório em colunas de seus dados. Execute as consultas enquanto as operações transacionais são processadas usando a taxa de transferência provisionada para a carga de trabalho transacional, no repositório transacional baseado em linha do Azure Cosmos DB. A carga de trabalho analítica é independente do tráfego da carga de trabalho transacional, não consumindo a taxa de transferência alocada para os dados operacionais.

Otimizado para cargas de trabalho de análise em larga escala

O repositório analítico do Azure Cosmos DB é otimizado para fornecer escalabilidade, elasticidade e desempenho para cargas de trabalho analíticas sem qualquer dependência dos tempos de execução de computação. A tecnologia de armazenamento é autogerenciada para otimizar suas cargas de trabalho de análise. Com o suporte interno no Azure Synapse Analytics, o acesso a essa camada de armazenamento fornece simplicidade e alto desempenho.

Econômico

Com o Link do Azure Synapse, você pode obter uma solução com otimização de custos e totalmente gerenciada para análise operacional. Ele elimina as camadas extras de armazenamento e computação necessárias em pipelines de ETL tradicionais para analisar os dados operacionais.

O repositório analítico do Azure Cosmos DB segue um modelo de preços baseado em consumo, o qual se baseia no armazenamento de dados e nas operações e consultas de leitura/gravação analíticas executadas. Ela não solicita que você aloque nenhuma taxa de transferência, que é o que você faz hoje para as cargas de trabalho transacionais. Acessar seus dados com mecanismos de computação altamente elásticos do Azure Synapse Analytics torna eficiente o custo geral da execução do armazenamento e da computação.

Análise para gravações de várias regiões disponíveis localmente e distribuídas globalmente

Você pode executar consultas analíticas efetivamente na cópia regional mais próxima dos dados no Azure Cosmos DB. O Azure Cosmos DB fornece a funcionalidade de última geração para executar as cargas de trabalho analíticas distribuídas globalmente juntamente com cargas de trabalho transacionais de maneira ativa-ativa.

Habilitar cenários de HTAP para seus dados operacionais

O Link do Azure Synapse reúne o repositório analítico do Azure Cosmos DB com o suporte de runtime do Azure Synapse Analytics. Essa integração permite que você crie soluções HTAP nativas de nuvem que geram insights com base em atualizações em tempo real de seus dados operacionais em grandes conjuntos de dados. Ela desbloqueia novos cenários de negócios para gerar alertas com base em tendências dinâmicas, criar painéis quase em tempo real e experiências de negócios com base no comportamento do usuário.

Repositório analítico do Azure Cosmos DB

O repositório analítico do Azure Cosmos DB é uma representação orientada por coluna de seus dados operacionais no Azure Cosmos DB. Esse repositório analítico é adequado para consultas rápidas e econômicas em grandes conjuntos de dados operacionais. Esse repositório pode consultar dados sem copiá-los e sem afetar o desempenho de suas cargas de trabalho transacionais.

O repositório analítico seleciona automaticamente inserções, atualizações, exclusões de alta frequência em suas cargas de trabalho transacionais quase em tempo real, como um recurso totalmente gerenciado (“sincronização automática”) do Azure Cosmos DB. Não é necessário nenhum feed de alterações ou ETL.

Se você tiver uma conta do Azure Cosmos DB distribuída globalmente, depois de habilitar o repositório analítico para um contêiner, ele ficará disponível em todas as regiões dessa conta. Para obter mais informações sobre o repositório analítico, consulte o artigo Visão geral do repositório analítico do Azure Cosmos DB.

Com o Link do Azure Synapse, agora você pode se conectar diretamente aos seus contêineres do Azure Cosmos DB do Azure Synapse Analytics e acessar o repositório analítico sem conectores separados. Atualmente, o Azure Synapse Analytics tem suporte para o Link do Azure Synapse com o Synapse Apache Spark e os pools de SQL sem servidor.

Você pode consultar os dados do repositório analítico do Azure Cosmos DB simultaneamente com a interoperabilidade entre diferentes tempos de execução de análise suportados pelo Azure Synapse Analytics. Não é necessária nenhuma transformação adicional de dados para analisar os dados operacionais. Você pode consultar e analisar os dados do repositório analítico usando:

  • Synapse Apache Spark com suporte completo para Scala, Python, SparkSQL e C#. O Synapse Spark é fundamental para cenários de engenharia de dados e ciência de dados

  • Pool de SQL sem servidor com linguagem T-SQL e suporte para ferramentas de BI familiares (por exemplo, Power BI Premium etc.)

Observação

No Azure Synapse Analytics, você pode acessar repositórios analíticos e transacionais em seu contêiner do Azure Cosmos DB. No entanto, se você quiser executar análises ou exames em larga escala em seus dados operacionais, recomendamos o uso do repositório analítico para evitar o impacto no desempenho em cargas de trabalho transacionais.

Observação

Você pode executar a análise com baixa latência em uma região do Azure conectando seu contêiner do Azure Cosmos DB ao runtime do Synapse nessa região.

Essa integração habilita os seguintes cenários de HTAP para diferentes usuários:

  • Um Engenheiro de BI, que deseja modelar e publicar um relatório do Power BI para acessar os dados operacionais dinâmicos no Azure Cosmos DB diretamente por meio do SQL do Synapse.

  • Um Analista de Dados, que deseja obter insights a partir dados operacionais em um contêiner do Azure Cosmos DB por meio de consultas com o SQL do Synapse, da leitura dos dados em escala e da combinação dessas descobertas com outras fontes de dados.

  • Um Cientista de Dados, que deseja usar o Synapse Spark para encontrar um recurso para melhorar seu modelo e treinar esse modelo sem fazer uma engenharia de dados complexa. Ele também pode gravar os resultados da inferência de postagem do modelo no Azure Cosmos DB para pontuação em tempo real sobre os dados por meio do Spark Synapse.

  • Um Engenheiro de Dados, que deseja tornar os dados acessíveis para os consumidores por meio da criação de tabelas do SQL ou do Spark em contêineres do Azure Cosmos DB, sem processos de ETL manuais.

Para obter mais informações sobre o suporte ao runtime do Azure Synapse Analytics para Azure Cosmos DB, confira Suporte do Azure Synapse Analytics para Azure Cosmos DB.

O Link do Azure Synapse é recomendado se você for um cliente do Azure Cosmos DB e quiser executar análises, BI e aprendizado de máquina em seus dados operacionais. Por exemplo:

  • Se você estiver executando a análise ou a BI em seus dados operacionais do Azure Cosmos DB diretamente usando conectores separados hoje, ou

  • Se você estiver executando processos de ETL para extrair dados operacionais em um sistema de análise separado.

Nesses casos, o Link do Azure Synapse fornece uma experiência de análise mais integrada sem afetar a taxa de transferência provisionada do repositório transacional.

Link do Azure Synapse não é recomendado se você estiver procurando requisitos tradicionais de data warehouse. Esses requisitos podem incluir alta simultaneidade, gerenciamento de carga de trabalho e persistência de agregações em várias fontes de dados. Para obter mais informações, consulte cenários comuns que podem ser capacitados com o Link do Azure Synapse para Azure Cosmos DB.

Limitações

  • O Azure Synapse Link para o Azure Cosmos DB tem suporte para APIs NoSQL, Gremlin e MongoDB. Não há suporte para as APIs Cassandra ou Table.

  • O Data Explorer nos Workspaces do Synapse não lista os gráficos do Gremlin na exibição em árvore. Mas você ainda pode executar consultas.

  • No momento, não há suporte para o acesso ao armazenamento de análise do Azure Cosmos DB com o pool de SQL dedicado do Azure Synapse.

  • Embora os dados do repositório analítico não estejam em backup e, portanto, não possam ser restaurados, é possível recompilar o repositório analítico, habilitando novamente o Link do Azure Synapse no contêiner restaurado. Confira a documentação sobre repositório analítico para obter mais informações.

  • O Link do Synapse para contas de banco de dados usando o modo de backup contínuo está em disponibilidade geral. O modo de backup contínuo para contas habilitadas para Link do Synapse está em versão prévia pública. Atualmente, os clientes que desabilitam o Link do Synapse de contêineres não podem migrar para o backup contínuo.

  • Não há suporte para o controle de acesso baseado em função granular ao consultar do Synapse. Os usuários que têm acesso ao workspace do Synapse e têm acesso à conta do Azure Cosmos DB podem acessar todos os contêineres nessa conta. Atualmente, não há suporte para acesso mais granular aos contêineres.

  • Atualmente os workspaces do Azure Synapse não dão suporte a serviços vinculados que usam Managed Identity. Sempre use a opção MasterKey.

  • Atualmente não são recomendadas contas de gravação em várias regiões para ambientes de produção.

Segurança

O Link do Azure Synapse permite que você execute análise quase em tempo real em seus dados críticos no Azure Cosmos DB. É importante garantir que dados corporativos críticos sejam armazenados com segurança em repositórios transacionais e analíticos. O Link do Synapse do Azure para o Azure Cosmos DB foi projetado para ajudar a atender a esses requisitos de segurança por meio dos seguintes recursos:

  • Isolamento de rede usando pontos de extremidade privados: você pode controlar o acesso à rede para os dados nos armazenamentos transacionais e analíticos de forma independente. O isolamento de rede é feito usando pontos de extremidade privados gerenciados separados para cada armazenamento, em redes virtuais gerenciadas nos espaços de trabalho do Azure Synapse. Para saber mais, consulte o artigo sobre como Configurar pontos de extremidade privados para o armazenamento analítico.

  • Criptografia de dados com chaves gerenciadas pelo cliente: você pode criptografar diretamente os dados entre os armazenamentos transacional e analítico usando as mesmas chaves gerenciadas pelo cliente de maneira automática e transparente. O Link do Azure Synapse só dá suporte à configuração de chaves gerenciadas pelo cliente usando a identidade gerenciada da sua conta do Azure Cosmos DB. Você deve configurar a identidade gerenciada da sua conta em sua política de acesso do Azure Key Vault antes de habilitar o Link do Azure Synapse em sua conta. Para saber mais, confira o artigo Configurar chaves gerenciadas pelo cliente com identidades gerenciadas de contas do Azure Cosmos DB.

  • Proteger o gerenciamento de chave: acessar os dados no armazenamento analítico de pools SQL sem servidor Synapse Spark e Synapse requer o gerenciamento de chaves do Azure Cosmos DB em espaços de trabalho do Synapse Analytics. Em vez de usar as chaves de conta embutidas do Azure Cosmos DB em trabalhos do Spark ou scripts SQL, o Link do Azure Synapse fornece recursos mais seguros:

Preços

O modelo de cobrança do Link do Synapse inclui os custos incorridos usando o repositório analítico do Azure Cosmos DB e o runtime do Synapse. Para saber mais, confira os artigos Preços do repositório analítico do Azure Cosmos DB e Preços do Azure Synapse Analytics.

Próximas etapas

Para saber mais, consulte a seguinte documentação: