Conexão LakeFlow
Importante
O LakeFlow Connect está em pré-visualização pública fechada. Para participar da visualização, entre em contato com sua equipe de conta Databricks.
Este artigo fornece uma visão geral do Databricks LakeFlow Connect, que oferece conectores integrados para ingestão de dados de aplicativos corporativos e bancos de dados.
O que é LakeFlow Connect?
O Databricks LakeFlow Connect oferece conectores integrados para ingestão de aplicativos corporativos e bancos de dados. O pipeline de ingestão resultante é governado pelo Unity Catalog e é alimentado por computação sem servidor e Delta Live Tables.
O LakeFlow Connect aproveita leituras e gravações incrementais eficientes para tornar a ingestão de dados mais rápida, escalável e econômica, enquanto seus dados permanecem atualizados para consumo downstream.
Componentes do conector SaaS
Um conector SaaS é modelado pelos seguintes componentes:
- Conexão: um objeto protegível do Unity Catalog que armazena detalhes de autenticação para o banco de dados.
- Pipeline de ingestão: ingere os dados em estágios em tabelas Delta. Este componente é modelado como um pipeline DLT sem servidor.
Componentes do conector de banco de dados
Um conector de banco de dados é modelado pelos seguintes componentes:
- Conexão: um objeto protegível do Unity Catalog que armazena detalhes de autenticação para o banco de dados.
- Gateway: extrai dados do banco de dados de origem e mantém a integridade das transações durante a transferência. Para bancos de dados baseados em nuvem, o gateway é configurado como um pipeline DLT com computação clássica.
- Armazenamento de preparo: um volume do Catálogo Unity em que os dados do gateway são preparados antes de serem aplicados a uma tabela Delta. A conta de armazenamento de preparo é criada quando você implanta o gateway e existe dentro do catálogo e esquema especificados.
- Pipeline de ingestão: ingere os dados em estágios em tabelas Delta. Este componente é modelado como um pipeline DLT sem servidor.
LakeFlow Connect vs. Lakehouse Federation vs. Delta Sharing
A Lakehouse Federation permite que você consulte fontes de dados externas sem mover seus dados. O Delta Sharing permite que você compartilhe dados ao vivo com segurança entre plataformas, nuvens e regiões. O Databricks recomenda a ingestão usando o LakeFlow Connect porque ele é dimensionado para acomodar grandes volumes de dados, consultas de baixa latência e limites de API de terceiros. No entanto, convém consultar seus dados sem movê-los.
Quando você tiver uma escolha entre LakeFlow Connect, Lakehouse Federation e Delta Sharing, escolha Delta Sharing para os seguintes cenários:
- Limitar a duplicação de dados.
- Consultando os dados mais recentes possíveis.
Escolha Lakehouse Federation para os seguintes cenários:
- Relatórios ad hoc ou trabalho de prova de conceito em seus pipelines de ETL.
LakeFlow Connect vs. Carregador Automático
O LakeFlow Connect fornece conectores integrados que permitem a ingestão incremental de dados de aplicativos corporativos e bancos de dados. O Auto Loader é um conector para armazenamento de objetos na nuvem que permite ingerir arquivos incrementalmente à medida que eles chegam no S3, ADLS e GCS. É compatível com Structured Streaming e Delta Live Tables, mas não se integra com o LakeFlow Connect.
O LakeFlow Connect pode gravar de volta em aplicativos e bancos de dados de terceiros?
N.º Se você estiver interessado nessa funcionalidade, entre em contato com a equipe da sua conta.
Qual é o custo do LakeFlow Connect?
Por enquanto, os clientes são cobrados apenas pelo uso do Delta Live Tables sem servidor necessário para carregar dados da origem (se estiver se conectando a um aplicativo corporativo, como o Salesforce) ou do volume de preparo (se estiver se conectando a um banco de dados, como o SQL Server). O modelo de preço final para o Lakeflow Connect pode incluir taxas adicionais e será anunciado no futuro.
O preço do Delta Live Tables sem servidor é visível em nossa página de preços.