Databricks에서 LLM 쿼리 시작

이 문서에서는 파운데이션 모델 API를 사용하여 Databricks에서 LLM을 제공하고 쿼리하는 방법을 설명합니다.

Databricks에서 LLM 모델 제공 및 쿼리를 시작하는 가장 쉬운 방법은 토큰당 종량제파운데이션 모델 API를 사용하는 것입니다. API는 Databricks 작업 영역의 서빙 UI에서 자동으로 사용할 수 있는 토큰당 종량제 엔드포인트에서 인기 있는 파운데이션 모델에 대한 액세스를 제공합니다. 토큰당 종량제에 지원되는 모델을 참조하세요.

AI 플레이그라운드를 사용하여 토큰당 종량제 모델을 테스트하고 채팅할 수도 있습니다. AI 플레이그라운드를 사용하여 LLM과 채팅 및 GenAI 앱 프로토타이핑을 참조하세요.

프로덕션 워크로드, 특히 미세 조정된 모델을 사용하거나 성능 보장이 필요한 워크로드의 경우 Databricks는 프로비전된 처리량 엔드포인트에서 파운데이션 모델 API를 사용하는 것이 좋습니다.

요구 사항

Important

프로덕션 시나리오에 대한 보안 모범 사례로 Databricks는 프로덕션 중에 인증을 위해 컴퓨터-컴퓨터 OAuth 토큰을 사용하는 것이 좋습니다.

테스트 및 개발을 위해 Databricks는 작업 영역 사용자 대신 서비스 주체에 속하는 개인용 액세스 토큰을 사용하는 것이 좋습니다. 서비스 주체에 대한 토큰을 만들려면 서비스 주체에 대한 토큰 관리를 참조하세요.

파운데이션 모델 API 사용 시작

다음 예제는 Databricks Notebook에서 실행하기 위한 것입니다. 코드 예제에서는 토큰당 종량제 엔드포인트 databricks-meta-llama-3-1-405b-instruct에서 제공되는 Meta Llama 3.1 405B Instruct 모델을 쿼리합니다.

이 예제에서는 OpenAI 클라이언트를 사용하여 쿼리하려는 모델을 호스트하는 모델 서빙 엔드포인트의 이름으로 model 필드를 채워 모델을 쿼리합니다. 개인 액세스 토큰을 사용하여 DATABRICKS_TOKENDatabricks 작업 영역 인스턴스를 채우고 OpenAI 클라이언트를 Databricks에 연결합니다.

from openai import OpenAI
import os

DATABRICKS_TOKEN = os.environ.get("DATABRICKS_TOKEN")

client = OpenAI(
  api_key=DATABRICKS_TOKEN, # your personal access token
  base_url='https://<workspace_id>.databricks.com/serving-endpoints', # your Databricks workspace instance
)

chat_completion = client.chat.completions.create(
  messages=[
    {
      "role": "system",
      "content": "You are an AI assistant",
    },
    {
      "role": "user",
      "content": "What is a mixture of experts model?",
    }
  ],
  model="databricks-meta-llama-3-1-405b-instruct",
  max_tokens=256
)

print(chat_completion.choices[0].message.content)

참고 항목

ImportError: cannot import name 'OpenAI' from 'openai' 메시지가 표시되면 !pip install -U openai를 사용하여 openai 버전을 업그레이드합니다. 패키지를 설치한 후 dbutils.library.restartPython()을 실행합니다 .

예상 출력:


{
  "id": "xxxxxxxxxxxxx",
  "object": "chat.completion",
  "created": "xxxxxxxxx",
  "model": "databricks-meta-llama-3-1-405b-instruct",
  "choices": [
    {
      "index": 0,
      "message":
        {
          "role": "assistant",
          "content": "A Mixture of Experts (MoE) model is a machine learning technique that combines the predictions of multiple expert models to improve overall performance. Each expert model specializes in a specific subset of the data, and the MoE model uses a gating network to determine which expert to use for a given input."
        },
      "finish_reason": "stop"
    }
  ],
  "usage":
    {
      "prompt_tokens": 123,
      "completion_tokens": 23,
      "total_tokens": 146
    }
}

다음 단계