APIs de modelo do Databricks Foundation
Este artigo fornece uma visão geral das APIs do Foundation Model no Azure Databricks. Ele inclui requisitos de uso, modelos com suporte e limitações.
O que são APIs de Modelo do Databricks Foundation?
O Mosaic AI Model Serving agora dá suporte a APIs do modelo de base, que permitem acessar e consultar modelos abertos de última geração a partir de um ponto de extremidade de serviço. Esses modelos são hospedados pelo Databricks e você pode criar aplicativos com rapidez e facilidade que os usam sem manter sua própria implantação de modelo. As APIs do modelo de base são um Databricks Designated Service, o que significa que elas usam os Databricks Geos para gerenciar a residência de dados ao processar o conteúdo do cliente.
As APIs do Modelo de Fundação são fornecidas nos seguintes modos de preço:
- Pagamento por token: essa é a maneira mais fácil de começar a acessar modelos de base no Databricks e é recomendada para iniciar seu percurso com APIs do Modelo de Fundação. Esse modo não foi projetado para aplicativos de alta taxa de transferência ou cargas de trabalho de produção de alto desempenho.
- Taxa de transferência provisionada: esse modo é recomendado para todas as cargas de trabalho de produção, especialmente aquelas que exigem alta taxa de transferência, garantias de desempenho, modelos ajustados ou têm requisitos de segurança adicionais. Os pontos de extremidade de taxa de transferência provisionados estão disponíveis com certificações de conformidade como HIPAA.
Confira APIs do modelo de base para obter diretrizes sobre como usar esses modos e os modelos com suporte.
Usando as APIs do Modelo de Fundação, você pode fazer o seguinte
- Consulte uma LLM generalizada para verificar a validade de um projeto antes de investir mais recursos.
- Consulte uma LLM generalizada para criar uma prova de conceito rápida para um aplicativo baseado em LLM antes de investir em treinamento e implantação de um modelo personalizado.
- Use um modelo de base, juntamente com um banco de dados vetor, para criar um chatbot usando RAG (geração aumentada de recuperação).
- Substitua modelos proprietários por alternativas abertas para otimizar o custo e o desempenho.
- Compare LLMs com eficiência para ver o melhor candidato para seu caso de uso ou substitua um modelo de produção por um que tenha melhor desempenho.
- Crie um aplicativo LLM para desenvolvimento ou produção com base em uma solução de serviço LLM escalonável, com suporte para SLA, que pode dar suporte aos picos de tráfego de produção.
Requisitos
- Token de API do Databricks para autenticar solicitações do ponto de extremidade.
- Computação sem servidor (para modelos de taxa de transferência provisionadas).
- Um workspace em uma das seguintes regiões com suporte:
Usar APIs do modelo de base
Você tem várias opções para usar as APIs do Modelo de Fundação.
As APIs são compatíveis com o OpenAI, para que você possa usar o cliente OpenAI para consulta. Você também pode usar a interface do usuário, o SDK do Python das APIs do Foundation Models, o SDK de Implantações do MLflow ou a API REST para consultar modelos com suporte. O Databricks recomenda usar o SDK do cliente OpenAI ou a API para interações estendidas e a interface do usuário para experimentar o recurso.
Confira Consultar modelos de fundação para obter exemplos de pontuação.
APIs de modelos de fundação com pagamento por token
Os pontos de extremidade pré-configurados que atendem aos modelos de pagamento por token estão acessíveis no espaço de trabalho do Azure Databricks. Esses modelos de pagamento por token são recomendados para começar. Para acessá-los em seu workspace, navegue até a guia Servindo na barra lateral esquerda. As APIs do modelo de fundação estão localizadas na parte superior da lista de Endpoints.
- Modelos com suporte de pagamento por token.
- Confira Foundation models de consulta para obter diretrizes sobre como consultar APIs de foundation models.
- Consulte a referência da API REST do modelo do Foundation para obter parâmetros e sintaxe necessários.
APIs do modelo de fundação de taxa de transferência provisionada
A taxa de transferência provisionada fornece aos pontos de extremidade inferência otimizada para cargas de trabalho de modelos fundamentais que exigem garantias de desempenho. O Databricks recomenda a taxa de transferência provisionada para cargas de trabalho de produção.
- Arquiteturas de modelo com suporte para taxa de transferência provisionada.
- Confira APIs do Foundation Model de taxa de transferência provisionada para obter orientação passo a passo sobre como implantar APIs do Foundation Model no modo de taxa de transferência provisionada.
O suporte à taxa de transferência provisionada inclui:
- Modelos base de todos os tamanhos. Os modelos base podem ser acessados usando o Databricks Marketplace ou você pode baixá-los de Abraçando o Rosto ou outra fonte externa e registrá-los no Catálogo do Unity. A última abordagem funciona com qualquer variante ajustada dos modelos com suporte.
- Variantes ajustadas de modelos de base, como aqueles ajustados com os dados proprietários.
- Pesos e tokenizadores totalmente personalizados, como aqueles treinados do zero ou pré-treinados ou outras variações usando a arquitetura de modelo de base (por exemplo, CodeLlama).
Limitações
Confira limites de APIs do modelo de base.