O que é o Azure Databricks?
O Azure Databricks é uma plataforma unificada de open analytics para criar, implantar, compartilhar e manter soluções de dados de nível empresarial, analytics e IA em escala. A Databricks Data Intelligence Platform se integra ao armazenamento em nuvem e à segurança em sua conta de nuvem, além de gerenciar e implantar a infraestrutura de nuvem em seu nome.
Como funciona uma plataforma de inteligência de dados?
O Azure Databricks usa a IA generativa com o data lakehouse para entender a semântica única dos seus dados. Em seguida, otimiza automaticamente o desempenho e gerencia a infraestrutura para atender às necessidades dos seus negócios.
O processamento de linguagem natural aprende a linguagem dos seus negócios. Dessa forma, você pode pesquisar e descobrir dados fazendo perguntas com suas próprias palavras. A assistência à linguagem natural ajuda você a programar, solucionar erros e encontrar respostas na documentação.
Por fim, seus dados e aplicativos de IA podem contar com governança e segurança robustas. Você pode integrar APIs como a OpenAI sem comprometer a privacidade dos dados e o controle IP.
Qual é a finalidade de uso do Azure Databricks?
O Azure Databricks fornece ferramentas que ajudam você a conectar suas fontes de dados a uma plataforma para processar, armazenar, compartilhar, analisar, modelar e monetizar conjuntos de dados com soluções de BI e IA generativa.
O workspace do Azure Databricks fornece uma interface unificada e ferramentas para a maioria das tarefas de dados, incluindo:
- Gerenciamento e agendamento de processamento de dados, especialmente no contexto de ETL
- Geração de painéis e visualizações
- Gerenciamento de segurança, governança, alta disponibilidade e recuperação de desastres
- Descoberta, anotação e exploração de dados
- Modelagem, acompanhamento e fornecimento de modelos de aprendizado de máquina (ML)
- Soluções de IA generativa
Integração gerenciada com software livre
O Databricks tem um forte compromisso com a comunidade de software livre. O Databricks gerencia atualizações de integrações de código aberto nas versões do Databricks Runtime. As seguintes tecnologias são projetos de software livre originalmente criados por funcionários do Databricks:
Ferramentas e acesso programático
O Azure Databricks mantém várias ferramentas proprietárias que integram e expandem essas tecnologias para adicionar desempenho otimizado e facilidade de uso, como o seguinte:
Além da interface do usuário do workspace, você pode interagir com o Azure Databricks programaticamente com as seguintes ferramentas:
- API REST
- CLI
- Terraform
Como o Azure Databricks funciona com o Azure?
A arquitetura da plataforma Azure Databricks é composta por duas partes principais:
- A infraestrutura usada pelo Azure Databricks para implantar, configurar e gerenciar a plataforma e os serviços.
- A infraestrutura de propriedade do cliente gerenciada em colaboração pelo Azure Databricks e sua empresa.
Ao contrário de muitas empresas de dados corporativos, o Azure Databricks não força você a migrar seus dados para sistemas de armazenamento proprietários para uso da plataforma. Em vez disso, você configura um workspace do Azure Databricks configurando integrações seguras entre a plataforma do Azure Databricks e a conta de nuvem e, em seguida, o Azure Databricks implanta clusters de computação usando recursos de nuvem na conta para processar e armazenar dados no armazenamento de objetos e outros serviços integrados controlados por você.
O Catálogo do Unity estende ainda mais essa relação, permitindo que você gerencie permissões para acessar dados usando a sintaxe SQL familiar no Azure Databricks.
Os workspaces do Azure Databricks atendem aos requisitos de segurança e rede de algumas das maiores e mais importantes empresas de segurança do mundo. O Azure Databricks facilita a introdução de novos usuários à plataforma. Ele remove muitos dos encargos e preocupações de trabalhar com a infraestrutura de nuvem, sem limitar as personalizações e controlar dados, operações e equipes de segurança experientes necessários.
Quais são os casos de uso comuns para o Azure Databricks?
Os casos de uso no Azure Databricks são tão variados quanto os dados processados na plataforma e as diversas personas de funcionários que trabalham com dados como parte central de seu trabalho. Os casos de uso a seguir destacam como os usuários de toda a sua organização podem aproveitar o Azure Databricks para realizar tarefas essenciais para processar, armazenar e analisar os dados que impulsionam as funções e as decisões comerciais críticas.
Criar um data lakehouse corporativo
O data lakehouse combina as vantagens de data warehouses corporativos e data lakes para acelerar, simplificar e unificar soluções de dados corporativos. Engenheiros de dados, cientistas de dados, analistas e sistemas de produção podem usar o data lakehouse como uma única fonte da verdade, permitindo acesso oportuno a dados consistentes e reduzindo as complexidades de criação, manutenção e sincronização de diversos sistemas de dados distribuídos. Confira O que é um data lakehouse?.
ETL e engenharia de dados
Seja gerando painéis ou alimentando aplicativos de inteligência artificial, a engenharia de dados fornece o backbone para empresas centradas em dados, garantindo que os dados estejam disponíveis, limpos e armazenados em modelos de dados que permitam a descoberta e o uso eficientes. O Azure Databricks combina o poder do Apache Spark com o Delta Lake e ferramentas personalizadas para fornecer uma experiência ETL (extração, transformação e carregamento) incomparável. Você pode usar o SQL, Python e Scala para redigir a lógica ETL e, em seguida, orquestrar a implantação de trabalho agendada com apenas alguns cliques.
O Delta Live Tables simplifica ainda mais o ETL, gerenciando de forma inteligente as dependências entre conjuntos de dados e implantando e dimensionando automaticamente a infraestrutura de produção para garantir a entrega oportuna e precisa dos dados de acordo com suas especificações.
O Azure Databricks fornece várias ferramentas personalizadas para ingestão de dados, incluindo o Carregador Automático, uma ferramenta eficiente e escalonável para carregar dados de maneira incremental e idempotente do armazenamento de objetos na nuvem e data lakes para o data lakehouse.
Aprendizado de máquina, IA e ciência de dados
O aprendizado de máquina do Azure Databricks expande a funcionalidade principal da plataforma com um conjunto de ferramentas adaptadas às necessidades de cientistas de dados e engenheiros de ML, incluindo o MLflow e o Databricks Runtime for Machine Learning.
Modelos de linguagem grandes e IA generativa
O Databricks Runtime para Machine Learning inclui bibliotecas como Hugging Face Transformers que permitem integrar modelos pré-treinados existentes ou outras bibliotecas de código aberto ao seu fluxo de trabalho. A integração do Databricks MLflow facilita o uso do serviço de acompanhamento do MLflow com pipelines, modelos e componentes de processamento do transformador. Além disso, você pode integrar modelos ou soluções de OpenAI de parceiros como John Snow Labs em seus fluxos de trabalho do Databricks.
Com o Azure Databricks, você pode personalizar um LLM em seus dados para sua tarefa específica. Com o suporte de ferramentas de código aberto, como o Hugging Face e o DeepSpeed, você pode usar um LLM de base com eficiência e começar a treinar com seus próprios dados para ter mais precisão em seu domínio e carga de trabalho.
Além disso, o Azure Databricks fornece funções de IA que os analistas de dados do SQL podem usar para acessar modelos LLM, incluindo do OpenAI, diretamente em seus pipelines de dados e fluxos de trabalho. Confira Funções de IA no Azure Databricks.
Armazenamento de dados, análise e BI
O Azure Databricks combina UIs amigáveis ao usuário com recursos de computação econômicos e armazenamento infinitamente escalonável e acessível para fornecer uma plataforma avançada para executar consultas analíticas. Os administradores configuram clusters de computação escalonáveis como SQL Warehouses, permitindo que os usuários finais executem consultas sem se preocupar com as complexidades do trabalho na nuvem. Os usuários do SQL podem consultar os dados no lakehouse usando o editor de consultas SQL ou em notebooks. Os notebooks dão suporte a Python, R e Scala, além do SQL, e permitem que os usuários insiram as mesmas visualizações disponíveis em painéis herdados juntamente com links, imagens e comentários gravados no markdown.
Governança de dados e compartilhamento seguro de dados
O Catálogo do Unity fornece um modelo de governança de dados unificado para o data lakehouse. Os administradores de nuvem configuram e integram permissões de controle de acesso grosseiras para o Catálogo do Unity e, em seguida, os administradores do Azure Databricks podem gerenciar permissões para equipes e indivíduos. Os privilégios são gerenciados com ACLs (listas de controle de acesso) por meio de UIs amigáveis para o usuário ou sintaxe SQL, facilitando para os administradores de banco de dados o acesso aos dados sem a necessidade de dimensionar o IAM (gerenciamento de acesso de identidade) nativo de nuvem e a rede.
O Catálogo do Unity simplifica a execução da análise segura na nuvem e fornece uma divisão de responsabilidade que ajuda a limitar a requalificação ou o treinamento necessário para administradores e usuários finais da plataforma. Veja O que é o Catálogo do Unity?.
O lakehouse torna o compartilhamento de dados em sua organização tão simples quanto a concessão de acesso à consulta a uma tabela ou exibição. Para compartilhar fora do seu ambiente seguro, o Catálogo do Unity apresenta uma versão gerenciada do Compartilhamento Delta.
DevOps, CI/CD e orquestração de tarefas
Os ciclos de vida de desenvolvimento para pipelines de ETL, modelos de ML e painéis de análise apresentam seus próprios desafios exclusivos. O Azure Databricks permite que todos os usuários aproveitem uma única fonte de dados, o que reduz esforços duplicados e relatórios fora de sincronia. Além de fornecer um conjunto de ferramentas comuns para controle de versão, automatização, agendamento, implantação de recursos de código e produção, você pode simplificar sua sobrecarga de monitoramento, orquestração e operações. Os trabalhos agendam notebooks do Azure Databricks, consultas SQL e outros códigos arbitrários. As pastas Git permitem sincronizar projetos do Azure Databricks com vários provedores Git populares. Para obter uma visão geral completa das ferramentas, consulte Ferramentas para desenvolvedores.
Análise de streaming e em tempo real
O Azure Databricks aproveita o Streaming estruturado do Apache Spark para trabalhar com dados de streaming e alterações de dados incrementais. O Streaming estruturado integra-se ao Delta Lake e essas tecnologias fornecem as bases para o Delta Live Tables e o Carregador Automático. Confira Streaming no Azure Databricks.