Začínáme s dotazováním LLM v Databricks

Tento článek popisuje, jak začít používat rozhraní API základního modelu pro obsluhu a dotazování LLM v Databricks.

Nejjednodušší způsob, jak začít s obsluhou a dotazováním modelů LLM v Databricks, je použití rozhraní API základních modelů na základě plateb za token . Rozhraní API poskytují přístup k oblíbeným základním modelům z koncových bodů s platbami za tokeny, které jsou automaticky dostupné v uživatelském rozhraní obsluhy pracovního prostoru Databricks. Viz Podporované modely pro platby za token.

Pomocí AI Playground můžete také testovat a chatovat s modely s platbami za tokeny. Podívejte se na chat s LLMs a prototypy aplikací GenAI pomocí AI Playground.

V případě produkčních úloh, zejména těch, které mají jemně vyladěný model nebo které vyžadují záruky výkonu, doporučuje Databricks používat rozhraní API základního modelu ve zřízeném koncovém bodu propustnosti .

Požadavky

Důležité

Jako osvědčený postup zabezpečení pro produkční scénáře doporučuje Databricks používat tokeny OAuth počítače pro ověřování během produkčního prostředí.

Pro účely testování a vývoje doporučuje Databricks místo uživatelů pracovního prostoru používat osobní přístupový token patřící instančním objektům . Pokud chcete vytvořit tokeny pro instanční objekty, přečtěte si téma Správa tokenů instančního objektu.

Začínáme používat rozhraní API základního modelu

Následující příklad je určený ke spuštění v poznámkovém bloku Databricks. Příklad kódu se dotazuje Meta Llama 3.1 405B Pokyn modelu, který se obsluhuje v koncovém bodu databricks-meta-llama-3-1-405b-instructs platbami za token .

V tomto příkladu použijete klienta OpenAI k dotazování modelu vyplněním model pole názvem koncového bodu obsluhujícího model, který je hostitelem modelu, který chcete dotazovat. Pomocí osobního přístupového tokenu DATABRICKS_TOKEN naplňte instanci pracovního prostoru Databricks a připojte klienta OpenAI k Databricks.

from openai import OpenAI
import os

DATABRICKS_TOKEN = os.environ.get("DATABRICKS_TOKEN")

client = OpenAI(
  api_key=DATABRICKS_TOKEN, # your personal access token
  base_url='https://<workspace_id>.databricks.com/serving-endpoints', # your Databricks workspace instance
)

chat_completion = client.chat.completions.create(
  messages=[
    {
      "role": "system",
      "content": "You are an AI assistant",
    },
    {
      "role": "user",
      "content": "What is a mixture of experts model?",
    }
  ],
  model="databricks-meta-llama-3-1-405b-instruct",
  max_tokens=256
)

print(chat_completion.choices[0].message.content)

Poznámka:

Pokud se zobrazí následující zpráva ImportError: cannot import name 'OpenAI' from 'openai', upgradujte verzi openai pomocí !pip install -U openai. Po instalaci balíčku spusťte dbutils.library.restartPython()příkaz .

Očekávaný výstup:


{
  "id": "xxxxxxxxxxxxx",
  "object": "chat.completion",
  "created": "xxxxxxxxx",
  "model": "databricks-meta-llama-3-1-405b-instruct",
  "choices": [
    {
      "index": 0,
      "message":
        {
          "role": "assistant",
          "content": "A Mixture of Experts (MoE) model is a machine learning technique that combines the predictions of multiple expert models to improve overall performance. Each expert model specializes in a specific subset of the data, and the MoE model uses a gating network to determine which expert to use for a given input."
        },
      "finish_reason": "stop"
    }
  ],
  "usage":
    {
      "prompt_tokens": 123,
      "completion_tokens": 23,
      "total_tokens": 146
    }
}

Další kroky