リファレンス: 補完 | Azure AI Studio

重要

この記事で "(プレビュー)" と付記されている項目は、現在、パブリック プレビュー段階です。 このプレビューはサービス レベル アグリーメントなしで提供されており、運用環境ではお勧めしません。 特定の機能はサポート対象ではなく、機能が制限されることがあります。 詳しくは、Microsoft Azure プレビューの追加使用条件に関するページをご覧ください。

指定されたプロンプトとパラメータの補完を作成します。

POST /completions?api-version=2024-04-01-preview
名前 / 必須 タイプ 説明
api-version query string "YYYY-MM-DD" または "YYYY-MM-DD-preview" 形式の API のバージョン。

要求ヘッダー

名前 Required タイプ 説明
extra-parameters string ペイロードに追加のパラメーターが指定されている場合の API の動作。 pass-through を使用すると、この API は、基になるモデルにパラメーターを渡すことができます。 この値は、基になるモデルがサポートできるとわかっているパラメーターを渡す場合に使用します。 ignore を使用すると、この API は、サポートされていないパラメーターを削除します。 この値は、異なるモデル間で同じペイロードを使用する必要があり、モデルでサポートされていない場合にエラーになる可能性がある追加のパラメーターの 1 つを使用する場合に使用します。 error を使用すると、この API はペイロード内の追加のパラメーターを拒否します。 この API で指定されたパラメーターのみを指定できます。それ以外の場合は 400 エラーが返されます。
azureml-model-deployment string 要求のルーティング先のデプロイの名前。 複数のデプロイをサポートするエンドポイントでサポートされます。

要求本文

名前 Required タイプ 説明
prompt True 文字列、文字列の配列、トークンの配列、またはトークン配列の配列としてエンコードされた、補完の対象となるプロンプト。 <\|endoftext\|> は、モデルがトレーニング中に認識するドキュメント区切りであるため、プロンプトが指定されない場合、モデルは新しいドキュメントの先頭からであるかのように生成を行います。
frequency_penalty 数値 正の値は、これまでのテキストにおける既存の頻度に基づいて新しいトークンにペナルティを与え、モデルが同じ行をそのまま繰り返す可能性を減少させます。
max_tokens integer 補完の中で生成できるトークンの最大数。 プロンプトのトークン数に max_tokens を加えた数は、モデルのコンテキスト長を超えることはできません。
presence_penalty 数値 正の値は、新しいトークンがこれまでのテキストに表示されているかどうかに基づいてペナルティを課し、モデルが新しいトピックについて話す可能性を高めます。
シード integer 指定されている場合、モデルは、同じ seed とパラメータを使用してくり返された要求に対して同じ結果を返せるように、決定論的にサンプリングを行うように最善を尽くします。

決定性は保証されないため、バックエンドでの変更を監視するには、system_fingerprint 応答パラメーターを参照する必要があります。
stop API がそれ以上のトークンの生成を停止するシーケンス。 返されるテキストに停止シーケンスは含まれません。
stream boolean 部分的な進行状況をストリーム バックするかどうか。 設定されている場合、トークンは使用可能になるとデータのみのサーバー送信イベントとして送信され、ストリームは data: [DONE] メッセージによって終了します。
温度 数値 使用するサンプリング温度 (0 から 2)。 0.8 のような大きい値にすると、出力はよりランダムになり、0.2 のような小さい値にすると、出力はより集中的および決定論的になります。

一般的には、temperaturetop_p のどちらかを変更することが推奨されますが、両方を変更することは推奨されません。
top_p 数値 温度によるサンプリングに代わる核サンプリングと呼ばれるもので、モデルは top_p の確率質量を持つトークンの結果を考慮します。 したがって、0.1 は、上位 10% の確率質量を構成するトークンのみが考慮されることを意味します。

一般的には、top_ptemperature のどちらかを変更することが推奨されますが、両方を変更することは推奨されません。

応答

名前 種類 説明
200 OK CreateCompletionResponse [OK]
401 権限がありません UnauthorizedError アクセス トークンが見つからないか無効です

ヘッダー

x-ms-error-code: string
404 見つかりません NotFoundError モダリティがモデルによってサポートされていません。 モデルのドキュメントを確認して、どのルートが利用可能であるかを確認します。

ヘッダー

x-ms-error-code: string
422 処理できなかったエンティティ UnprocessableContentError 要求に処理できないコンテンツが含まれています

ヘッダー

x-ms-error-code: string
429 要求が多すぎます TooManyRequestsError 割り当てられたレート制限に達したため、要求のペースを調整する必要があります。

ヘッダー

x-ms-error-code: string
その他の状態コード ContentFilterError Bad request

ヘッダー

x-ms-error-code: string

セキュリティ

承認

Bearer: というプレフィックスが付いたトークン (例: Bearer abcde12345)

種類: apiKey
入力: ヘッダー

AADToken

Azure Active Directory OAuth2 認証

種類: oauth2
フロー: アプリケーション
トークン URL: https://login.microsoftonline.com/common/oauth2/v2.0/token

指定されたプロンプトとパラメーターに対する補完を作成します

サンプル要求

POST /completions?api-version=2024-04-01-preview

{
  "prompt": "This is a very good text",
  "frequency_penalty": 0,
  "presence_penalty": 0,
  "max_tokens": 256,
  "seed": 42,
  "stop": "<|endoftext|>",
  "stream": false,
  "temperature": 0,
  "top_p": 1
}

サンプル応答

状態コード:200

{
  "id": "1234567890",
  "model": "llama2-7b",
  "choices": [
    {
      "index": 0,
      "finish_reason": "stop",
      "text": ", indeed it is a good one."
    }
  ],
  "created": 1234567890,
  "object": "text_completion",
  "usage": {
    "prompt_tokens": 15,
    "completion_tokens": 8,
    "total_tokens": 23
  }
}

定義

名前 説明
Choices チャット入力候補の選択肢の一覧。
CompletionFinishReason モデルがトークンの生成を停止した理由。 これは、モデルが自然停止ポイントまたは指定された停止シーケンスに達した場合は stop になり、要求内で指定されたトークンの最大数に達した場合は length になり、コンテンツ フィルターのフラグが原因でコンテンツが省略された場合は content_filter になります。
CompletionUsage 入力候補要求の使用状況の統計情報。
ContentFilterError プロンプトが構成どおりにコンテンツ フィルターをトリガーすると、API 呼び出しは失敗します。 プロンプトを変更して、もう一度やり直してください。
CreateCompletionRequest
CreateCompletionResponse API からの補完応答を表します。
詳細
TextCompletionObject オブジェクトの種類であり、これは常に "text_completion" になります
UnprocessableContentError

複数選択肢

チャット入力候補の選択肢の一覧。

名前 種類 説明
finish_reason CompletionFinishReason モデルがトークンの生成を停止した理由。 これは、モデルが自然停止ポイントまたは指定された停止シーケンスに達した場合は stop になり、要求内で指定されたトークンの最大数に達した場合は length になり、コンテンツ フィルターのフラグが原因でコンテンツが省略された場合は content_filter になり、モデルがツールを呼び出した場合は tool_calls になります。
インデックス integer 選択肢のリスト内の選択肢のインデックス。
text string 生成されたテキスト。

CompletionFinishReason

モデルがトークンの生成を停止した理由。 これは、モデルが自然停止ポイントまたは指定された停止シーケンスに達した場合は stop になり、要求内で指定されたトークンの最大数に達した場合は length になり、コンテンツ フィルターのフラグが原因でコンテンツが省略された場合は content_filter になります。

名前 種類 説明
content_filter string
length string
stop string

CompletionUsage

入力候補要求の使用状況の統計情報。

名前 種類 説明
completion_tokens integer 生成された入力候補内のトークンの数。
prompt_tokens integer プロンプト内のトークンの数。
total_tokens integer 要求内で使われたトークンの合計数 (プロンプトと入力候補の和)。

ContentFilterError

プロンプトが構成どおりにコンテンツ フィルターをトリガーすると、API 呼び出しは失敗します。 プロンプトを変更して、もう一度やり直してください。

名前 種類 説明
code string エラー コード。
エラー string エラーの説明。
message string エラー メッセージ。
param string コンテンツ フィルターをトリガーしたパラメーター。
status integer HTTP 状態コード。

CreateCompletionRequest

名前 種類 既定値 説明
frequency_penalty 数値 0 正の値は、これまでのテキストにおける既存の頻度に基づいて新しいトークンにペナルティを与え、モデルが同じ行をそのまま繰り返す可能性を減少させます。
max_tokens integer 256 補完の中で生成できるトークンの最大数。 プロンプトのトークン数に max_tokens を加えた数は、モデルのコンテキスト長を超えることはできません。
presence_penalty 数値 0 正の値は、新しいトークンがこれまでのテキストに表示されているかどうかに基づいてペナルティを課し、モデルが新しいトピックについて話す可能性を高めます。
prompt <\|endoftext\|> 文字列、文字列の配列、トークンの配列、またはトークン配列の配列としてエンコードされた、補完の対象となるプロンプト。 <\|endoftext\|> は、モデルがトレーニング中に認識するドキュメント区切りであるため、プロンプトが指定されない場合、モデルは新しいドキュメントの先頭からであるかのように生成を行います。
シード integer 指定されている場合、このシステムは、同じ seed とパラメーターを使用して繰り返された要求に対して同じ結果を返せるように、決定論的にサンプリングを行うように最善を尽くします。

決定性は保証されないため、バックエンドでの変更を監視するには、system_fingerprint 応答パラメーターを参照する必要があります。
stop API がそれ以上のトークンの生成を停止するシーケンス。 返されるテキストに停止シーケンスは含まれません。
stream boolean False 部分的な進行状況をストリーム バックするかどうか。 設定されている場合、トークンは使用可能になるとデータのみのサーバー送信イベントとして送信され、ストリームは data: [DONE] メッセージによって終了します。
温度 number 1 使用するサンプリング温度 (0 から 2)。 0.8 のような大きい値にすると、出力はよりランダムになり、0.2 のような小さい値にすると、出力はより集中的および決定論的になります。

一般に、これと top_p の両方ではなく、いずれかを変更することをお勧めします。
top_p number 1 核サンプリングと呼ばれる、温度によるサンプリングの代替で、モデルはで top_p 確率質量を持つトークンの結果が考慮されます。 したがって、0.1 は、上位 10% の確率質量を構成するトークンのみが考慮されることを意味します。

一般に、これと temperature の両方ではなく、いずれかを変更することをお勧めします。

CreateCompletionResponse

API からの補完応答を表します。 注: (チャット エンドポイントとは異なり)、ストリーム応答オブジェクトと非ストリーム応答オブジェクトはどちらも同じシェイプを共有します。

名前 種類 説明
choices Choices[] 入力プロンプト用にモデルが生成した入力候補の一覧。
作成済 integer 入力候補が作成されたときの Unix タイムスタンプ (秒単位)。
ID string チャット入力候補の一意識別子。
モデル string 補完に使用されるモデル。
オブジェクト TextCompletionObject オブジェクトの種類であり、これは常に "text_completion" になります
system_fingerprint string このフィンガープリントは、モデルが実行されるバックエンド構成を表します。

seed 要求パラメーターと共に使用すると、決定性に影響を与える可能性のあるバックエンドの変更がいつ行われたのかを把握できます。
使用量 CompletionUsage 入力候補要求の使用状況の統計情報。

詳細

名前 種類 説明
loc string[] 問題の原因となっているパラメーター
string 問題の原因となっているパラメーターに渡された値。

TextCompletionObject

オブジェクトの種類であり、これは常に "text_completion" になります

名前 種類 説明
text_completion string

ListObject

オブジェクトの種類。常に "list" です。

名前 種類 説明設定
list string

NotFoundError

名前 種類 説明
エラー string エラーの説明。
message string エラー メッセージ。
status integer HTTP 状態コード。

TooManyRequestsError

名前 種類 説明
エラー string エラーの説明。
message string エラー メッセージ。
status integer HTTP 状態コード。

UnauthorizedError

名前 種類 説明
エラー string エラーの説明。
message string エラー メッセージ。
status integer HTTP 状態コード。

UnprocessableContentError

名前 種類 説明
code string エラー コード。
詳細 詳細
エラー string エラーの説明。
message string エラー メッセージ。
status integer HTTP 状態コード。