Melhor juntos: a casa do lago e o armazém

Aplica-se a:✅ ponto de extremidade de análise SQL e Warehouse no Microsoft Fabric

Este artigo explica a carga de trabalho de armazenamento de dados com o ponto de extremidade de análise SQL do Lakehouse e cenários para uso do Lakehouse em data warehousing. Para obter um guia de decisão sobre como desenvolver dados de depósito, consulte Guia de decisão do Microsoft Fabric: Escolha entre Warehouse e Lakehouse.

O que é um ponto de extremidade de análise SQL da Lakehouse?

No Fabric, quando você cria uma lakehouse, um Warehouse é criado automaticamente.

O ponto de extremidade de análise SQL permite que você consulte dados no Lakehouse usando a linguagem T-SQL e o protocolo TDS. Cada Lakehouse tem um ponto de extremidade de análise SQL, e cada espaço de trabalho pode ter mais de um Lakehouse. O número de pontos de extremidade de análise SQL em um espaço de trabalho corresponde ao número de itens do Lakehouse.

  • O ponto de extremidade de análise SQL é gerado automaticamente para cada Lakehouse e expõe tabelas Delta da Lakehouse como tabelas SQL que podem ser consultadas usando a linguagem T-SQL.
  • Cada mesa delta de uma Lakehouse é representada como uma mesa. Os dados devem estar em formato delta.
  • O modelo semântico padrão do Power BI é criado para cada ponto de extremidade de análise SQL e segue a convenção de nomenclatura dos objetos Lakehouse.

Não há necessidade de criar um ponto de extremidade de análise SQL no Microsoft Fabric. Os usuários do Microsoft Fabric não podem criar um ponto de extremidade de análise SQL em um espaço de trabalho. Um ponto de extremidade de análise SQL é criado automaticamente para cada Lakehouse. Para obter um ponto de extremidade de análise SQL, crie um lakehouse e um ponto de extremidade de análise SQL será criado automaticamente para o Lakehouse.

Nota

Nos bastidores, o ponto de extremidade de análise SQL está usando o mesmo mecanismo do Warehouse para atender consultas SQL de alto desempenho e baixa latência.

Descoberta automática de metadados

Um processo contínuo lê os logs delta e da pasta de arquivos e garante que os metadados SQL para tabelas, como estatísticas, estejam sempre atualizados. Não há nenhuma ação do usuário necessária, nem necessidade de importar, copiar dados ou configurar a infraestrutura. Para obter mais informações, consulte Esquema gerado automaticamente no ponto de extremidade de análise SQL.

Cenários que o Lakehouse permite para armazenamento de dados

Na Fabric, oferecemos um armazém.

O Lakehouse, com seu endpoint de análise SQL, alimentado pelo Warehouse, pode simplificar a árvore de decisão tradicional de padrões de arquitetura em lote, streaming ou lambda. Juntamente com um armazém, o lakehouse permite muitos cenários de análise aditiva. Esta seção explora como usar um Lakehouse junto com um Armazém para uma melhor estratégia de análise.

Analise com a camada de ouro do seu Fabric Lakehouse

Uma das estratégias bem conhecidas para a organização de dados do lago é uma arquitetura de medalhão onde os arquivos são organizados em camadas brutas (bronze), consolidadas (prata) e refinadas (ouro). Um ponto de extremidade de análise SQL pode ser usado para analisar dados na camada ouro da arquitetura medallion se os arquivos forem armazenados no Delta Lake formato, mesmo que estejam armazenados fora do Microsoft Fabric OneLake.

Você pode usar os atalhos do OneLake para fazer referência a pastas douradas em contas externas de armazenamento do Azure Data Lake gerenciadas pelos mecanismos Synapse Spark ou Azure Databricks.

Os armazéns também podem ser adicionados como áreas temáticas ou soluções orientadas a domínios para assuntos específicos que podem ter requisitos de análise personalizados.

Se você optar por manter seus dados na malha, eles sempre estarão abertos e acessíveis por meio de APIs, formato Delta e, claro, T-SQL.

Consulta como um serviço sobre suas tabelas delta do Lakehouse e outros itens do hub de dados do OneLake

Há casos de uso em que um analista, cientista de dados ou engenheiro de dados pode precisar consultar dados dentro de um data lake. No Fabric, essa experiência de ponta a ponta é completamente SaaSificado.

O OneLake é um data lake único, unificado e lógico para toda a organização. OneLake é o OneDrive para dados. O OneLake pode conter vários espaços de trabalho, por exemplo, ao longo de suas divisões organizacionais. Cada item no Fabric torna os dados acessíveis via OneLake.

Os dados em um Microsoft Fabric Lakehouse são armazenados fisicamente no OneLake com a seguinte estrutura de pastas:

  • A /Files pasta contém arquivos brutos e não consolidados (bronze) que devem ser processados por engenheiros de dados antes de serem analisados. Os arquivos podem estar em vários formatos, como CSV, Parquet, diferentes tipos de imagens, etc.
  • A /Tables pasta contém dados refinados e consolidados (ouro) que estão prontos para análise de negócios. Os dados consolidados estão no formato Delta Lake.

Um ponto de extremidade de análise SQL pode ler dados na pasta dentro do /tables OneLake. A análise é tão simples quanto consultar o ponto de extremidade de análise SQL do Lakehouse. Juntamente com o Warehouse, você também obtém consultas entre bancos de dados e a capacidade de alternar perfeitamente de consultas somente leitura para a criação de lógica de negócios adicional sobre seus dados OneLake com o Synapse Data Warehouse.

Engenharia de dados com o Spark e servindo com SQL

As empresas orientadas por dados precisam manter seus sistemas de back-end e análise em sincronia quase em tempo real com aplicativos voltados para o cliente. O impacto das transações deve refletir com precisão por meio de processos de ponta a ponta, aplicativos relacionados e sistemas OLTP (processamento de transações online).

No Fabric, você pode usar o Spark Streaming ou a Engenharia de Dados para fazer a curadoria de seus dados. Você pode usar o ponto de extremidade de análise do Lakehouse SQL para validar a qualidade dos dados e para os processos T-SQL existentes. Isso pode ser feito em uma arquitetura medalhão ou dentro de várias camadas de sua Lakehouse, servindo dados de bronze, prata, ouro ou encenação, com curadoria e refinados. Você pode personalizar as pastas e tabelas criadas através do Spark para atender aos seus requisitos de engenharia de dados e de negócios. Quando estiver pronto, um Armazém pode servir todas as suas aplicações de business intelligence downstream e outros casos de uso de análise, sem copiar dados, utilizar Visualizações ou refinar dados utilizando CREATE TABLE AS SELECT (CTAS), procedimentos armazenados e outros comandos DML/DDL.

Integração com a camada de ouro da sua Open Lakehouse

Um ponto de extremidade de análise SQL não tem escopo para análise de dados apenas no Fabric Lakehouse. Um ponto de extremidade de análise SQL permite que você analise dados de lago em qualquer lakehouse, usando Synapse Spark, Azure Databricks ou qualquer outro mecanismo de engenharia de dados centrado no lago. Os dados podem ser armazenados no Azure Data Lake Storage ou no Amazon S3.

Essa integração rígida e bidirecional com o Fabric Lakehouse é sempre acessível por meio de qualquer mecanismo com APIs abertas, o formato Delta e, claro, o T-SQL.

Virtualização de dados de data lakes externos com atalhos

Você pode usar atalhos do OneLake para fazer referência a pastas gold em contas externas de armazenamento do Azure Data Lake gerenciadas pelos mecanismos Synapse Spark ou Azure Databricks, bem como qualquer tabela delta armazenada no Amazon S3.

Qualquer pasta referenciada usando um atalho pode ser analisada a partir de um ponto de extremidade de análise SQL e uma tabela SQL é criada para os dados referenciados. A tabela SQL pode ser usada para expor dados em data lakes gerenciados externamente e habilitar análises sobre eles.

Esse atalho atua como um armazém virtual que pode ser aproveitado de um depósito para requisitos adicionais de análise downstream ou consultado diretamente.

Use as seguintes etapas para analisar dados em contas de armazenamento de data lake externas:

  1. Crie um atalho que faça referência a uma pasta no armazenamento do Azure Data Lake ou na conta do Amazon S3. Depois de inserir detalhes de conexão e credenciais, um atalho é mostrado no Lakehouse.
  2. Alterne para o ponto de extremidade de análise SQL do Lakehouse e encontre uma tabela SQL que tenha um nome que corresponda ao nome do atalho. Esta tabela SQL faz referência à pasta na pasta ADLS/S3.
  3. Consulte a tabela SQL que faz referência a dados no ADLS/S3. A tabela pode ser usada como qualquer outra tabela no ponto de extremidade da análise SQL. Você pode unir tabelas que fazem referência a dados em diferentes contas de armazenamento.

Nota

Se a tabela SQL não for mostrada imediatamente no ponto de extremidade da análise SQL, talvez seja necessário aguardar alguns minutos. A tabela SQL que faz referência a dados na conta de armazenamento externo é criada com um atraso.

Analisar dados arquivados ou históricos em um data lake

O particionamento de dados é uma técnica bem conhecida de otimização de acesso a dados em data lakes. Os conjuntos de dados particionados são armazenados nas estruturas de pastas hierárquicas no formato /year=<year>/month=<month>/day=<day>, onde year, monthe day são as colunas de particionamento. Isso permite que você armazene dados históricos logicamente separados em um formato que permite que os mecanismos de computação leiam os dados conforme necessário com filtragem de desempenho, em vez de ler todo o diretório e todas as pastas e arquivos contidos nele.

Os dados particionados permitem um acesso mais rápido se as consultas estiverem filtrando os predicados que comparam colunas de predicados com um valor.

Um ponto de extremidade de análise SQL pode ler facilmente esse tipo de dados sem a necessidade de configuração. Por exemplo, você pode usar qualquer aplicativo para arquivar dados em um data lake, incluindo o SQL Server 2022 ou a Instância Gerenciada SQL do Azure. Depois de particionar dados e colocá-los em um lago para fins de arquivamento com tabelas externas, um ponto de extremidade de análise SQL pode ler tabelas Delta Lake particionadas como tabelas SQL e permitir que sua organização as analise. Isso reduz o custo total de propriedade, reduz a duplicação de dados e ilumina cenários de big data, IA e outras análises.

Virtualização de dados de malha com atalhos

No Fabric, os espaços de trabalho permitem segregar dados com base em requisitos complexos de negócios, geográficos ou regulamentares.

Um ponto de extremidade de análise SQL permite que você deixe os dados no lugar e ainda analise dados no Warehouse ou Lakehouse, mesmo em outros espaços de trabalho do Microsoft Fabric, por meio de uma virtualização perfeita. Cada Microsoft Fabric Lakehouse armazena dados no OneLake.

Os atalhos permitem que você faça referência a pastas em qualquer local do OneLake.

Cada Microsoft Fabric Warehouse armazena dados de tabela no OneLake. Se uma tabela for somente acréscimo, os dados da tabela serão expostos como dados Delta Lake no OneLake. Os atalhos permitem que você faça referência a pastas em qualquer OneLake onde as tabelas do Warehouse estejam expostas.

Compartilhamento e consulta entre espaços de trabalho

Embora os espaços de trabalho permitam segregar dados com base em requisitos complexos de negócios, geográficos ou regulamentares, às vezes você precisa facilitar o compartilhamento entre essas linhas para necessidades específicas de análise.

Um ponto de extremidade de análise SQL da Lakehouse pode permitir o compartilhamento fácil de dados entre departamentos e usuários, onde um usuário pode trazer sua própria capacidade e depósito. Os espaços de trabalho organizam departamentos, unidades de negócios ou domínios analíticos. Usando atalhos, os usuários podem encontrar quaisquer dados do Warehouse ou Lakehouse. Os usuários podem executar instantaneamente suas próprias análises personalizadas a partir dos mesmos dados compartilhados. Além de ajudar com estornos departamentais e alocação de uso, esta é uma versão de cópia zero dos dados também.

O ponto de extremidade de análise SQL permite consultar qualquer tabela e facilitar o compartilhamento. Os controles adicionados de funções de espaço de trabalho e funções de segurança que podem ser colocadas em camadas adicionais para atender a requisitos de negócios adicionais.

Use as seguintes etapas para habilitar a análise de dados entre espaços de trabalho:

  1. Crie um atalho do OneLake que faça referência a uma tabela ou pasta em um espaço de trabalho que você possa acessar.
  2. Escolha uma Lakehouse ou Warehouse que contenha uma tabela ou pasta Delta Lake que você deseja analisar. Depois de selecionar uma tabela/pasta, um atalho é mostrado no Lakehouse.
  3. Alterne para o ponto de extremidade de análise SQL do Lakehouse e localize a tabela SQL que tem um nome que corresponde ao nome do atalho. Esta tabela SQL faz referência à pasta em outro espaço de trabalho.
  4. Consulte a tabela SQL que faz referência a dados em outro espaço de trabalho. A tabela pode ser usada como qualquer outra tabela no ponto de extremidade da análise SQL. Você pode unir as tabelas que fazem referência a dados em espaços de trabalho diferentes.

Nota

Se a tabela SQL não for mostrada imediatamente no ponto de extremidade da análise SQL, talvez seja necessário aguardar alguns minutos. A tabela SQL que faz referência a dados em outro espaço de trabalho é criada com um atraso.

Analise dados particionados

O particionamento de dados é uma técnica bem conhecida de otimização de acesso a dados em data lakes. Os conjuntos de dados particionados são armazenados nas estruturas de pastas hierárquicas no formato /year=<year>/month=<month>/day=<day>, onde year, monthe day são as colunas de particionamento. Os conjuntos de dados particionados permitem um acesso mais rápido aos dados se as consultas estiverem filtrando dados usando os predicados que filtram dados comparando colunas de predicados com um valor.

Um ponto de extremidade de análise SQL pode representar conjuntos de dados Delta Lake particionados como tabelas SQL e permitir que você os analise.