LlamaIndex와 Azure AI 스튜디오를 사용하여 애플리케이션 개발

이 문서에서는 Azure AI 스튜디오의 Azure AI 모델 카탈로그에서 배포된 모델에 LlamaIndex를 사용하는 방법을 알아봅니다.

Azure AI 스튜디오에 배포된 모델은 두 가지 방법으로 LlamaIndex와 함께 사용할 수 있습니다.

  • Azure AI 모델 유추 API 사용: Azure AI 스튜디오에 배포된 모든 모델은 카탈로그의 대부분 모델에 사용할 수 있는 공통 기능 집합을 제공하는 Azure AI 모델 유추 API를 지원합니다. 이 API의 이점은 모든 모델에 동일하므로 사용 중인 모델 배포를 변경하는 것만큼 간단하게 한 모델에서 다른 모델로 변경할 수 있다는 것입니다. 더 이상 코드를 변경할 필요는 없습니다. LlamaIndex를 사용할 때 확장 llama-index-llms-azure-inferencellama-index-embeddings-azure-inference를 설치합니다.

  • 모델 공급자별 API 사용: OpenAI, Cohere, Mistral 등 일부 모델은 LlamaIndex에 대한 자체 API 및 확장 집합을 제공합니다. 이러한 확장 기능에는 해당 모델이 지원하는 특정 기능이 포함될 수 있으므로 이를 활용하려는 경우 적합합니다. llama-index를 사용할 때, llama-index-llms-openai 또는 llama-index-llms-cohere처럼 사용하려는 모델에 맞는 확장을 설치합니다.

이 예에서는 Azure AI 모델 유추 API를 사용합니다.

필수 조건

이 자습서를 실행하려면 다음이 필요합니다.

  1. Azure 구독.

  2. Azure AI 스튜디오 허브를 만들고 관리하는 방법에서 설명한 Azure AI 허브 리소스입니다.

  3. Azure AI 모델 유추 API를 지원하는 모델이 배포되었습니다. 이 예에서는 Mistral-Large 배포를 사용하지만 원하는 모델을 사용할 수 있습니다. LlamaIndex에서 포함 기능을 사용하려면 cohere-embed-v3-multilingual과 같은 포함 모델이 필요합니다.

  4. pip를 포함하여 Python 3.8 이상이 설치됨.

  5. LlamaIndex가 설치되었습니다. 다음을 사용하여 수행할 수 있습니다.

    pip install llama-index
    
  6. 이 예에서는 Azure AI 모델 유추 API를 사용하기 때문에 다음 패키지를 설치합니다.

    pip install -U llama-index-llms-azure-inference
    pip install -U llama-index-embeddings-azure-inference
    

환경 구성

Azure AI 스튜디오에 배포된 LLM을 사용하려면 해당 LLM에 연결할 엔드포인트와 자격 증명이 필요합니다. 사용하려는 모델에서 필요한 정보를 가져오려면 다음 단계를 따릅니다.

  1. Azure AI Studio로 이동합니다.

  2. 배포로 이동하여 필수 구성 요소에 따라 배포한 모델을 선택합니다.

  3. 엔드포인트 URL과 키를 복사합니다.

    엔드포인트에서 엔드포인트 URI와 키를 복사하는 옵션의 스크린샷.

    모델이 Microsoft Entra ID 지원과 함께 배포된 경우 키가 필요하지 않습니다.

이 시나리오에서는 엔드포인트 URL과 키를 모두 다음 환경 변수에 넣었습니다.

export AZURE_INFERENCE_ENDPOINT="<your-model-endpoint-goes-here>"
export AZURE_INFERENCE_CREDENTIAL="<your-key-goes-here>"

구성이 완료되면 엔드포인트에 연결할 클라이언트를 만듭니다.

import os
from llama_index.llms.azure_inference import AzureAICompletionsModel

llm = AzureAICompletionsModel(
    endpoint=os.environ["AZURE_INFERENCE_ENDPOINT"],
    credential=os.environ["AZURE_INFERENCE_CREDENTIAL"],
)

생성자의 매개 변수 model_name은 서버리스 엔드포인트와 같이 단일 모델을 제공하는 엔드포인트에는 필요하지 않습니다.

또는 엔드포인트가 Microsoft Entra ID를 지원하는 경우 다음 코드를 사용하여 클라이언트를 만들 수 있습니다.

import os
from azure.identity import DefaultAzureCredential
from llama_index.llms.azure_inference import AzureAICompletionsModel

llm = AzureAICompletionsModel(
    endpoint=os.environ["AZURE_INFERENCE_ENDPOINT"],
    credential=DefaultAzureCredential(),
)

참고 항목

Microsoft Entra ID를 사용하는 경우 엔드포인트가 해당 인증 방법을 사용하여 배포되었는지 확인하고 이를 호출하는 데 필요한 권한이 있는지 확인합니다.

비동기 호출을 사용할 계획이라면 자격 증명에 비동기 버전을 사용하는 것이 가장 좋습니다.

from azure.identity.aio import (
    DefaultAzureCredential as DefaultAzureCredentialAsync,
)
from llama_index.llms.azure_inference import AzureAICompletionsModel

llm = AzureAICompletionsModel(
    endpoint=os.environ["AZURE_INFERENCE_ENDPOINT"],
    credential=DefaultAzureCredentialAsync(),
)

유추 매개 변수

추가 매개 변수를 설정하여 이 클라이언트를 사용하는 모든 작업에 대해 유추가 수행되는 방식을 구성할 수 있습니다. 이렇게 하면 모델에 호출할 때마다 해당 정보가 표시되는 것을 방지할 수 있습니다.

llm = AzureAICompletionsModel(
    endpoint=os.environ["AZURE_INFERENCE_ENDPOINT"],
    credential=os.environ["AZURE_INFERENCE_CREDENTIAL"],
    temperature=0.0,
    model_kwargs={"top_p": 1.0},
)

Azure AI 모델 유추 API에서 지원되지 않지만 기본 모델에서 사용할 수 있는 매개 변수(참조)가 있는 경우 model_extras 인수를 사용할 수 있습니다. 다음 예에서는 Mistral 모델에서만 사용할 수 있는 매개 변수 safe_prompt가 전달됩니다.

llm = AzureAICompletionsModel(
    endpoint=os.environ["AZURE_INFERENCE_ENDPOINT"],
    credential=os.environ["AZURE_INFERENCE_CREDENTIAL"],
    temperature=0.0,
    model_kwargs={"model_extras": {"safe_prompt": True}},
)

LLM 모델 사용

클라이언트를 직접 사용하거나 LlamaIndex에서 코드에서 사용하는 모델을 구성할 수 있습니다. 모델을 직접 사용하려면 채팅 지침 모델에 대해 chat 메서드를 사용합니다.

from llama_index.core.llms import ChatMessage

messages = [
    ChatMessage(
        role="system", content="You are a pirate with colorful personality."
    ),
    ChatMessage(role="user", content="Hello"),
]

response = llm.chat(messages)
print(response)

다음과 같이 출력을 스트리밍할 수도 있습니다.

response = llm.stream_chat(messages)
for r in response:
    print(r.delta, end="")

complete 메서드는 chat-completions 형식의 모델에 계속 사용할 수 있습니다. 이러한 경우, 입력한 텍스트는 role="user"가 포함된 메시지로 변환됩니다.

포함 모델 사용

LLM 클라이언트를 만드는 것과 같은 방식으로 포함 모델에 연결할 수 있습니다. 다음 예에서는 환경 변수를 설정하여 포함 모델을 가리키도록 합니다.

export AZURE_INFERENCE_ENDPOINT="<your-model-endpoint-goes-here>"
export AZURE_INFERENCE_CREDENTIAL="<your-key-goes-here>"

그런 다음 클라이언트를 만듭니다.

from llama_index.embeddings.azure_inference import AzureAIEmbeddingsModel

embed_model = AzureAIEmbeddingsModel(
    endpoint=os.environ["AZURE_INFERENCE_ENDPOINT"],
    credential=os.environ['AZURE_INFERENCE_CREDENTIAL'],
)

다음 예에서는 이 모델이 작동하는지 확인하기 위한 간단한 테스트를 보여 줍니다.

from llama_index.core.schema import TextNode

nodes = [
    TextNode(
        text="Before college the two main things I worked on, "
        "outside of school, were writing and programming."
    )
]
response = embed_model(nodes=nodes)
print(response[0].embedding)

코드에서 사용하는 모델 구성

LlamaIndex로 개발한 코드에서 LLM 또는 포함 모델 클라이언트를 개별적으로 사용할 수도 있고, Settings 옵션을 사용하여 전체 세션을 구성할 수도 있습니다. 세션을 구성하면 모든 작업에 대해 모든 코드가 동일한 모델을 사용할 수 있다는 이점이 있습니다.

from llama_index.core import Settings

Settings.llm = llm
Settings.embed_model = embed_model

그러나 대부분의 작업에는 일반 모델을 사용하고 특정 작업에는 특정 모델을 사용하려는 경우도 있습니다. 이런 경우에는 각 LlamaIndex 구문에 대해 사용하는 LLM 또는 포함 모델을 설정하는 것이 유용합니다. 다음 예에서는 특정 모델을 설정합니다.

from llama_index.core.evaluation import RelevancyEvaluator

relevancy_evaluator = RelevancyEvaluator(llm=llm)

일반적으로 두 가지 전략을 함께 사용합니다.