IA e aprendizado de máquina no Databricks

Este artigo descreve as ferramentas que o Mosaic AI (anteriormente Databricks Machine Learning) fornece para ajudar você a criar sistemas de IA e de ML. O diagrama mostra como vários produtos na plataforma Databricks ajudam você a implementar seus fluxos de trabalho de ponta a ponta para criar e implantar sistemas de IA e de ML

Diagrama do Machine learning: desenvolvimento e implantação do modelo no Databricks

IA generativa no Databricks

A Ia do Mosaic unifica o ciclo de vida de IA da coleta e da preparação de dados ao desenvolvimento de modelos, ao LLMOps, ao serviço e ao monitoramento. Os seguintes recursos são especificamente otimizados para facilitar o desenvolvimento de aplicativos de IA generativa:

O que é a IA generativa?

A IA generativa é um tipo de inteligência artificial focada na capacidade dos computadores de usar modelos para criar conteúdo como imagens, texto, código e dados sintéticos.

Os aplicativos de IA generativos são criados com base em modelos de IA generativos: LLMs (modelos de linguagem grandes) e modelos de base.

  • LLMs são modelos de aprendizagem profunda que consomem e treinam conjuntos de dados massivos para se destacarem em tarefas de processamento de linguagem. Eles criam novas combinações de texto que imitam a linguagem natural com base nos seus dados de treinamento.
  • Modelos de IA generativa ou modelos de base são grandes modelos de ML pré-treinados com a intenção de serem ajustados para tarefas de compreensão e geração de linguagem mais específicas. Esses modelos são usados para discernir padrões dentro dos dados de entrada.

Depois que esses modelos concluírem seus processos de aprendizagem, juntos eles geram resultados estatisticamente prováveis quando solicitados e podem ser empregados para realizar várias tarefas, incluindo:

  • Geração de imagens com base nas existentes ou utilizando o estilo de uma imagem para modificar ou criar uma nova.
  • Tarefas de fala como transcrição, tradução, geração de perguntas/respostas e interpretação da intenção ou significado do texto.

Importante

Embora muitos LLMs ou outros modelos de IA generativos tenham proteções, eles ainda podem gerar informações prejudiciais ou imprecisas.

A IA Generativa tem os seguintes padrões de design:

  • Engenharia de prompt: criar prompts especializados para orientar o comportamento de LLM
  • RAG (Geração Aumentada de Recuperação): combinar um LLM com recuperação de conhecimento externo
  • Ajuste fino: adaptar um LLM pré-treinado a conjuntos de dados específicos de domínios
  • Pré-treinamento: treinar um LLM do zero

Aprendizado de máquina no Databricks

Com a IA do Mosaic, uma única plataforma atende a todas as etapas do desenvolvimento e da implantação de ML, de dados brutos a tabelas de inferência que salvam todas as solicitações e respostas de um modelo servido. Cientistas de dados, engenheiros de dados, engenheiros de ML e DevOps podem fazer seu trabalho usando o mesmo conjunto de ferramentas e uma única fonte de verdade para os dados.

O Mosaic IA unifica a camada de dados e a plataforma de ML. Todos os ativos e artefatos de dados, como modelos e funções, podem ser descobertos e controlados em um único catálogo. O uso de uma única plataforma para dados e modelos possibilita o acompanhamento da linhagem, desde os dados brutos até o modelo de produção. O monitoramento integrado de dados e modelos salva métricas de qualidade em tabelas que também são armazenadas na plataforma, facilitando a identificação da causa raiz dos problemas de desempenho do modelo. Para obter mais informações sobre como o Databricks oferece suporte a todo o ciclo de vida de ML e MLOps, consulte Fluxos de trabalho de MLOps no Azure Databricks e MLOps Stacks: processo de desenvolvimento de modelos como código.

Alguns dos principais componentes da plataforma de inteligência de dados são:

Tarefas Componente
Administrar e gerenciar dados, recursos, modelos e funções. Além disso, descoberta, controle de versão e linhagem. Catálogo do Unity
Rastrear alterações nos dados, na qualidade dos dados e na qualidade da previsão do modelo Monitoramento do lakehouse, Tabelas de inferência
Desenvolvimento e gerenciamento de recursos Engenharia de recursos e serviço.
Treinar modelos Mosaic AutoML, notebooks do Databricks
Acompanhar o desenvolvimento de modelos Acompanhamento do MLflow
Servir modelos personalizados Serviço de Modelos de IA do Mosaic.
Crie fluxos de trabalho automatizados e pipelines ETL prontos para produção Trabalhos do Databricks
Integração do Git Pastas Git do Databricks

Aprendizado profundo no Databricks

Configurar a infraestrutura para aplicativos de aprendizado profundo pode ser difícil. O Databricks Runtime para aprendizado de máquina cuida disso para você, com clusters que têm versões internas compatíveis das bibliotecas de aprendizado profundo mais comuns, como TensorFlow, PyTorch e Keras.

Os clusters de ML do Databricks Runtime também incluem suporte de GPU pré-configurado com drivers e bibliotecas de suporte. Ele também oferece suporte a bibliotecas, como Ray, para paralelizar o processamento de computação para dimensionar fluxos de trabalho e aplicativos de ML.

Os clusters de ML do Databricks Runtime também incluem suporte de GPU pré-configurado com drivers e bibliotecas de suporte. O Serviço de Modelo do Mosaic AI permite a criação de pontos de extremidade de GPU escalonáveis para modelos de aprendizado profundo sem nenhuma configuração extra.

Para aplicativos de aprendizado de máquina, a recomendação do Databricks é usar um cluster que execute o Databricks Runtime para Machine Learning. Confira Criar um cluster usando o Databricks Runtime ML.

Para começar a usar o aprendizado profundo no Databricks, confira:

Próximas etapas

Para começar. confira:

Para obter um fluxo de trabalho de MLOps recomendado no Databricks Mosaic AI, confira:

Para saber mais sobre os principais recursos do Databricks Mosaic AI, confira: