リファレンス: 補完 | Azure AI Studio
重要
この記事で "(プレビュー)" と付記されている項目は、現在、パブリック プレビュー段階です。 このプレビューはサービス レベル アグリーメントなしで提供されており、運用環境ではお勧めしません。 特定の機能はサポート対象ではなく、機能が制限されることがあります。 詳しくは、Microsoft Azure プレビューの追加使用条件に関するページをご覧ください。
指定されたプロンプトとパラメータの補完を作成します。
POST /completions?api-version=2024-04-01-preview
名前 | / | 必須 | タイプ | 説明 |
---|---|---|---|---|
api-version | query | ○ | string | "YYYY-MM-DD" または "YYYY-MM-DD-preview" 形式の API のバージョン。 |
要求ヘッダー
名前 | Required | タイプ | 説明 |
---|---|---|---|
extra-parameters | string | ペイロードに追加のパラメーターが指定されている場合の API の動作。 pass-through を使用すると、この API は、基になるモデルにパラメーターを渡すことができます。 この値は、基になるモデルがサポートできるとわかっているパラメーターを渡す場合に使用します。 ignore を使用すると、この API は、サポートされていないパラメーターを削除します。 この値は、異なるモデル間で同じペイロードを使用する必要があり、モデルでサポートされていない場合にエラーになる可能性がある追加のパラメーターの 1 つを使用する場合に使用します。 error を使用すると、この API はペイロード内の追加のパラメーターを拒否します。 この API で指定されたパラメーターのみを指定できます。それ以外の場合は 400 エラーが返されます。 |
|
azureml-model-deployment | string | 要求のルーティング先のデプロイの名前。 複数のデプロイをサポートするエンドポイントでサポートされます。 |
要求本文
名前 | Required | タイプ | 説明 |
---|---|---|---|
prompt | True | 文字列、文字列の配列、トークンの配列、またはトークン配列の配列としてエンコードされた、補完の対象となるプロンプト。 <\|endoftext\|> は、モデルがトレーニング中に認識するドキュメント区切りであるため、プロンプトが指定されない場合、モデルは新しいドキュメントの先頭からであるかのように生成を行います。 |
|
frequency_penalty | 数値 | 正の値は、これまでのテキストにおける既存の頻度に基づいて新しいトークンにペナルティを与え、モデルが同じ行をそのまま繰り返す可能性を減少させます。 | |
max_tokens | integer | 補完の中で生成できるトークンの最大数。 プロンプトのトークン数に max_tokens を加えた数は、モデルのコンテキスト長を超えることはできません。 |
|
presence_penalty | 数値 | 正の値は、新しいトークンがこれまでのテキストに表示されているかどうかに基づいてペナルティを課し、モデルが新しいトピックについて話す可能性を高めます。 | |
シード | integer | 指定されている場合、モデルは、同じ seed とパラメータを使用してくり返された要求に対して同じ結果を返せるように、決定論的にサンプリングを行うように最善を尽くします。決定性は保証されないため、バックエンドでの変更を監視するには、 system_fingerprint 応答パラメーターを参照する必要があります。 |
|
stop | API がそれ以上のトークンの生成を停止するシーケンス。 返されるテキストに停止シーケンスは含まれません。 | ||
stream | boolean | 部分的な進行状況をストリーム バックするかどうか。 設定されている場合、トークンは使用可能になるとデータのみのサーバー送信イベントとして送信され、ストリームは data: [DONE] メッセージによって終了します。 |
|
温度 | 数値 | 使用するサンプリング温度 (0 から 2)。 0.8 のような大きい値にすると、出力はよりランダムになり、0.2 のような小さい値にすると、出力はより集中的および決定論的になります。 一般的には、 temperature と top_p のどちらかを変更することが推奨されますが、両方を変更することは推奨されません。 |
|
top_p | 数値 | 温度によるサンプリングに代わる核サンプリングと呼ばれるもので、モデルは top_p の確率質量を持つトークンの結果を考慮します。 したがって、0.1 は、上位 10% の確率質量を構成するトークンのみが考慮されることを意味します。 一般的には、 top_p と temperature のどちらかを変更することが推奨されますが、両方を変更することは推奨されません。 |
応答
名前 | 種類 | 説明 |
---|---|---|
200 OK | CreateCompletionResponse | [OK] |
401 権限がありません | UnauthorizedError | アクセス トークンが見つからないか無効です ヘッダー x-ms-error-code: string |
404 見つかりません | NotFoundError | モダリティがモデルによってサポートされていません。 モデルのドキュメントを確認して、どのルートが利用可能であるかを確認します。 ヘッダー x-ms-error-code: string |
422 処理できなかったエンティティ | UnprocessableContentError | 要求に処理できないコンテンツが含まれています ヘッダー x-ms-error-code: string |
429 要求が多すぎます | TooManyRequestsError | 割り当てられたレート制限に達したため、要求のペースを調整する必要があります。 ヘッダー x-ms-error-code: string |
その他の状態コード | ContentFilterError | Bad request ヘッダー x-ms-error-code: string |
セキュリティ
承認
Bearer:
というプレフィックスが付いたトークン (例: Bearer abcde12345
)
種類: apiKey
入力: ヘッダー
AADToken
Azure Active Directory OAuth2 認証
種類: oauth2
フロー: アプリケーション
トークン URL: https://login.microsoftonline.com/common/oauth2/v2.0/token
例
指定されたプロンプトとパラメーターに対する補完を作成します
サンプル要求
POST /completions?api-version=2024-04-01-preview
{
"prompt": "This is a very good text",
"frequency_penalty": 0,
"presence_penalty": 0,
"max_tokens": 256,
"seed": 42,
"stop": "<|endoftext|>",
"stream": false,
"temperature": 0,
"top_p": 1
}
サンプル応答
状態コード:200
{
"id": "1234567890",
"model": "llama2-7b",
"choices": [
{
"index": 0,
"finish_reason": "stop",
"text": ", indeed it is a good one."
}
],
"created": 1234567890,
"object": "text_completion",
"usage": {
"prompt_tokens": 15,
"completion_tokens": 8,
"total_tokens": 23
}
}
定義
名前 | 説明 |
---|---|
Choices | チャット入力候補の選択肢の一覧。 |
CompletionFinishReason | モデルがトークンの生成を停止した理由。 これは、モデルが自然停止ポイントまたは指定された停止シーケンスに達した場合は stop になり、要求内で指定されたトークンの最大数に達した場合は length になり、コンテンツ フィルターのフラグが原因でコンテンツが省略された場合は content_filter になります。 |
CompletionUsage | 入力候補要求の使用状況の統計情報。 |
ContentFilterError | プロンプトが構成どおりにコンテンツ フィルターをトリガーすると、API 呼び出しは失敗します。 プロンプトを変更して、もう一度やり直してください。 |
CreateCompletionRequest | |
CreateCompletionResponse | API からの補完応答を表します。 |
詳細 | |
TextCompletionObject | オブジェクトの種類であり、これは常に "text_completion" になります |
UnprocessableContentError |
複数選択肢
チャット入力候補の選択肢の一覧。
名前 | 種類 | 説明 |
---|---|---|
finish_reason | CompletionFinishReason | モデルがトークンの生成を停止した理由。 これは、モデルが自然停止ポイントまたは指定された停止シーケンスに達した場合は stop になり、要求内で指定されたトークンの最大数に達した場合は length になり、コンテンツ フィルターのフラグが原因でコンテンツが省略された場合は content_filter になり、モデルがツールを呼び出した場合は tool_calls になります。 |
インデックス | integer | 選択肢のリスト内の選択肢のインデックス。 |
text | string | 生成されたテキスト。 |
CompletionFinishReason
モデルがトークンの生成を停止した理由。 これは、モデルが自然停止ポイントまたは指定された停止シーケンスに達した場合は stop
になり、要求内で指定されたトークンの最大数に達した場合は length
になり、コンテンツ フィルターのフラグが原因でコンテンツが省略された場合は content_filter
になります。
名前 | 種類 | 説明 |
---|---|---|
content_filter | string | |
length | string | |
stop | string |
CompletionUsage
入力候補要求の使用状況の統計情報。
名前 | 種類 | 説明 |
---|---|---|
completion_tokens | integer | 生成された入力候補内のトークンの数。 |
prompt_tokens | integer | プロンプト内のトークンの数。 |
total_tokens | integer | 要求内で使われたトークンの合計数 (プロンプトと入力候補の和)。 |
ContentFilterError
プロンプトが構成どおりにコンテンツ フィルターをトリガーすると、API 呼び出しは失敗します。 プロンプトを変更して、もう一度やり直してください。
名前 | 種類 | 説明 |
---|---|---|
code | string | エラー コード。 |
エラー | string | エラーの説明。 |
message | string | エラー メッセージ。 |
param | string | コンテンツ フィルターをトリガーしたパラメーター。 |
status | integer | HTTP 状態コード。 |
CreateCompletionRequest
名前 | 種類 | 既定値 | 説明 |
---|---|---|---|
frequency_penalty | 数値 | 0 | 正の値は、これまでのテキストにおける既存の頻度に基づいて新しいトークンにペナルティを与え、モデルが同じ行をそのまま繰り返す可能性を減少させます。 |
max_tokens | integer | 256 | 補完の中で生成できるトークンの最大数。 プロンプトのトークン数に max_tokens を加えた数は、モデルのコンテキスト長を超えることはできません。 |
presence_penalty | 数値 | 0 | 正の値は、新しいトークンがこれまでのテキストに表示されているかどうかに基づいてペナルティを課し、モデルが新しいトピックについて話す可能性を高めます。 |
prompt | <\|endoftext\|> |
文字列、文字列の配列、トークンの配列、またはトークン配列の配列としてエンコードされた、補完の対象となるプロンプト。 <\|endoftext\|> は、モデルがトレーニング中に認識するドキュメント区切りであるため、プロンプトが指定されない場合、モデルは新しいドキュメントの先頭からであるかのように生成を行います。 |
|
シード | integer | 指定されている場合、このシステムは、同じ seed とパラメーターを使用して繰り返された要求に対して同じ結果を返せるように、決定論的にサンプリングを行うように最善を尽くします。決定性は保証されないため、バックエンドでの変更を監視するには、 system_fingerprint 応答パラメーターを参照する必要があります。 |
|
stop | API がそれ以上のトークンの生成を停止するシーケンス。 返されるテキストに停止シーケンスは含まれません。 | ||
stream | boolean | False | 部分的な進行状況をストリーム バックするかどうか。 設定されている場合、トークンは使用可能になるとデータのみのサーバー送信イベントとして送信され、ストリームは data: [DONE] メッセージによって終了します。 |
温度 | number | 1 | 使用するサンプリング温度 (0 から 2)。 0.8 のような大きい値にすると、出力はよりランダムになり、0.2 のような小さい値にすると、出力はより集中的および決定論的になります。 一般に、これと top_p の両方ではなく、いずれかを変更することをお勧めします。 |
top_p | number | 1 | 核サンプリングと呼ばれる、温度によるサンプリングの代替で、モデルはで top_p 確率質量を持つトークンの結果が考慮されます。 したがって、0.1 は、上位 10% の確率質量を構成するトークンのみが考慮されることを意味します。 一般に、これと temperature の両方ではなく、いずれかを変更することをお勧めします。 |
CreateCompletionResponse
API からの補完応答を表します。 注: (チャット エンドポイントとは異なり)、ストリーム応答オブジェクトと非ストリーム応答オブジェクトはどちらも同じシェイプを共有します。
名前 | 種類 | 説明 |
---|---|---|
choices | Choices[] | 入力プロンプト用にモデルが生成した入力候補の一覧。 |
作成済 | integer | 入力候補が作成されたときの Unix タイムスタンプ (秒単位)。 |
ID | string | チャット入力候補の一意識別子。 |
モデル | string | 補完に使用されるモデル。 |
オブジェクト | TextCompletionObject | オブジェクトの種類であり、これは常に "text_completion" になります |
system_fingerprint | string | このフィンガープリントは、モデルが実行されるバックエンド構成を表します。seed 要求パラメーターと共に使用すると、決定性に影響を与える可能性のあるバックエンドの変更がいつ行われたのかを把握できます。 |
使用量 | CompletionUsage | 入力候補要求の使用状況の統計情報。 |
詳細
名前 | 種類 | 説明 |
---|---|---|
loc | string[] | 問題の原因となっているパラメーター |
値 | string | 問題の原因となっているパラメーターに渡された値。 |
TextCompletionObject
オブジェクトの種類であり、これは常に "text_completion" になります
名前 | 種類 | 説明 |
---|---|---|
text_completion | string |
ListObject
オブジェクトの種類。常に "list" です。
名前 | 種類 | 説明設定 |
---|---|---|
list | string |
NotFoundError
名前 | 種類 | 説明 |
---|---|---|
エラー | string | エラーの説明。 |
message | string | エラー メッセージ。 |
status | integer | HTTP 状態コード。 |
TooManyRequestsError
名前 | 種類 | 説明 |
---|---|---|
エラー | string | エラーの説明。 |
message | string | エラー メッセージ。 |
status | integer | HTTP 状態コード。 |
UnauthorizedError
名前 | 種類 | 説明 |
---|---|---|
エラー | string | エラーの説明。 |
message | string | エラー メッセージ。 |
status | integer | HTTP 状態コード。 |
UnprocessableContentError
名前 | 種類 | 説明 |
---|---|---|
code | string | エラー コード。 |
詳細 | 詳細 | |
エラー | string | エラーの説明。 |
message | string | エラー メッセージ。 |
status | integer | HTTP 状態コード。 |