Implantar modelos para inferência e previsão em lote
Este artigo descreve o que o Databricks recomenda para inferência em lote e streaming.
Para obter o serviço de modelo em tempo real no Azure Databricks, consulte Serviço de modelo com o Azure Databricks.
Usar ai_query para inferência em lote
Importante
Esse recurso está em uma versão prévia.
O Databricks recomenda usar ai_query
com o Serviço de Modelo para inferência em lote. ai_query
é uma função SQL interna do Databricks que permite consultar pontos de extremidade de serviço de modelo existentes usando SQL. Foi verificado que processa de forma confiável e consistente conjuntos de dados na faixa de bilhões de tokens. Consulte ai_query função para obter mais detalhes sobre essa função de IA.
Para experimentação rápida, pode ser usado com pontos de extremidade de pagamento por token, ai_query
pois esses pontos de extremidade são pré-configurados em seu workspace.
Quando você estiver pronto para executar a inferência em lote em dados grandes ou de produção, o Databricks recomenda o uso de pontos de extremidade de taxa de transferência provisionados para um desempenho mais rápido. Consulte APIs do Modelo de Base de Taxa de Transferência Provisionada para criar um ponto de extremidade de taxa de transferência provisionada.
- Consulte Executar inferência em lote usando ai_query.
- Para começar a usar a inferência em lote com LLMs em tabelas do Catálogo do Unity, consulte os exemplos de notebook em Inferência em lote usando a taxa de transferência provisionada de APIs do Foundation Model.