Implantar modelos para inferência e previsão em lote

Este artigo descreve o que o Databricks recomenda para inferência em lote e streaming.

Para obter o serviço de modelo em tempo real no Azure Databricks, consulte Serviço de modelo com o Azure Databricks.

Usar ai_query para inferência em lote

Importante

Esse recurso está em uma versão prévia.

O Databricks recomenda usar ai_query com o Serviço de Modelo para inferência em lote. ai_query é uma função SQL interna do Databricks que permite consultar pontos de extremidade de serviço de modelo existentes usando SQL. Foi verificado que processa de forma confiável e consistente conjuntos de dados na faixa de bilhões de tokens. Consulte ai_query função para obter mais detalhes sobre essa função de IA.

Para experimentação rápida, pode ser usado com pontos de extremidade de pagamento por token, ai_query pois esses pontos de extremidade são pré-configurados em seu workspace.

Quando você estiver pronto para executar a inferência em lote em dados grandes ou de produção, o Databricks recomenda o uso de pontos de extremidade de taxa de transferência provisionados para um desempenho mais rápido. Consulte APIs do Modelo de Base de Taxa de Transferência Provisionada para criar um ponto de extremidade de taxa de transferência provisionada.