evento
Obtenha a certificação no Microsoft Fabric — gratuitamente!
19/11, 23 - 10/12, 23
Por um tempo limitado, a equipe da Comunidade do Microsoft Fabric está oferecendo vouchers de exame DP-600 gratuitos.
Prepare-se agoraEste browser já não é suportado.
Atualize para o Microsoft Edge para tirar partido das mais recentes funcionalidades, atualizações de segurança e de suporte técnico.
Este artigo descreve como começar a usar APIs do Modelo de Base para servir e consultar LLMs no Databricks.
A maneira mais fácil de começar a servir e consultar modelos LLM no Databricks é usando APIs do Foundation Model em uma base de pagamento por token. As APIs fornecem acesso a modelos básicos populares a partir de pontos de extremidade de pagamento por token que estão automaticamente disponíveis na interface do usuário de serviço do seu espaço de trabalho Databricks. Consulte Modelos suportados para pagamento por token.
Você também pode testar e conversar com modelos de pagamento por token usando o AI Playground. Veja Bate-papo com LLMs e protótipos de aplicativos GenAI usando o AI Playground.
Para cargas de trabalho de produção, particularmente aquelas com um modelo ajustado ou que exigem garantias de desempenho, o Databricks recomenda o uso de APIs do Modelo de Base em um ponto de extremidade de taxa de transferência provisionado.
Importante
Como prática recomendada de segurança para cenários de produção, o Databricks recomenda que você use tokens OAuth máquina a máquina para autenticação durante a produção.
Para teste e desenvolvimento, o Databricks recomenda o uso de um token de acesso pessoal pertencente a entidades de serviço em vez de usuários do espaço de trabalho. Para criar tokens para entidades de serviço, consulte Gerenciar tokens para uma entidade de serviço.
O exemplo a seguir deve ser executado em um bloco de anotações Databricks. O exemplo de código consulta o modelo Meta Llama 3.1 405B Instruct que é servido no ponto de extremidade databricks-meta-llama-3-1-405b-instruct
pay-per-token.
Neste exemplo, você usa o cliente OpenAI para consultar o modelo preenchendo o model
campo com o nome do ponto de extremidade de serviço do modelo que hospeda o modelo que você deseja consultar. Use seu token de acesso pessoal para preencher a instância do DATABRICKS_TOKEN
espaço de trabalho e seu Databricks para conectar o cliente OpenAI ao Databricks.
from openai import OpenAI
import os
DATABRICKS_TOKEN = os.environ.get("DATABRICKS_TOKEN")
client = OpenAI(
api_key=DATABRICKS_TOKEN, # your personal access token
base_url='https://<workspace_id>.databricks.com/serving-endpoints', # your Databricks workspace instance
)
chat_completion = client.chat.completions.create(
messages=[
{
"role": "system",
"content": "You are an AI assistant",
},
{
"role": "user",
"content": "What is a mixture of experts model?",
}
],
model="databricks-meta-llama-3-1-405b-instruct",
max_tokens=256
)
print(chat_completion.choices[0].message.content)
Nota
Se você encontrar a seguinte mensagem ImportError: cannot import name 'OpenAI' from 'openai'
, atualize sua openai
versão usando !pip install -U openai
o . Depois de instalar o pacote, execute dbutils.library.restartPython()
.
Resultado esperado:
{
"id": "xxxxxxxxxxxxx",
"object": "chat.completion",
"created": "xxxxxxxxx",
"model": "databricks-meta-llama-3-1-405b-instruct",
"choices": [
{
"index": 0,
"message":
{
"role": "assistant",
"content": "A Mixture of Experts (MoE) model is a machine learning technique that combines the predictions of multiple expert models to improve overall performance. Each expert model specializes in a specific subset of the data, and the MoE model uses a gating network to determine which expert to use for a given input."
},
"finish_reason": "stop"
}
],
"usage":
{
"prompt_tokens": 123,
"completion_tokens": 23,
"total_tokens": 146
}
}
evento
Obtenha a certificação no Microsoft Fabric — gratuitamente!
19/11, 23 - 10/12, 23
Por um tempo limitado, a equipe da Comunidade do Microsoft Fabric está oferecendo vouchers de exame DP-600 gratuitos.
Prepare-se agora