GPT-4 Turbo with Vision の概念

[アーティクル]
09/30/2024

GPT-4 Turbo with Vision は、OpenAI によって開発された大規模マルチモーダルモデル (LMM) であり、画像を分析し、それらに関する質問に対するテキスト応答を提供できます。自然言語処理とビジュアル解釈の両方が組み込まれています。このガイドでは、GPT-4 Turbo with Vision の機能と制限事項に関して詳しく説明します。

GPT-4 Turbo with Vision を試すには、クイックスタートをご参照ください。

Vision とのチャット

GPT-4 Turbo with Vision モデルは、アップロードした画像またはビデオの中に何が含まれているかについて、一般的な質問に回答します。

特別価格情報

重要

価格の詳細は、今後変更される可能性があります。

GPT-4 Turbo with Vision では、他の Azure OpenAI チャットモデルと同様に料金が発生します。価格ページ上で詳しく説明されているように、プロンプトと入力候補に対してトークンごとに料金を支払います。基本料金と追加機能の概要を次に示します。

GPT-4 Turbo with Vision の基本価格は次のとおりです。

入力: 1000 トークンあたり $0.01
出力: 1000 トークンあたり $0.03

テキストと画像をトークンに変換する方法については、概要の「トークン」セクションをご参照ください。

イメージ価格計算例

重要

次のコンテンツはただの一例であり、価格は将来変更される可能性があります。

一般的なユースケースとして、表示されるオブジェクトとテキストの両方と 100 トークンのプロンプト入力を含むイメージを取り上げます。サービスでプロンプトが処理されると、100 個の出力トークンが生成されます。イメージでは、テキストとオブジェクトの両方を検出できます。このトランザクションの価格は次のようになります。

項目	詳細	コスト
テキストプロンプトの入力	100 個のテキストトークン	$0.001
画像入力の例 (「画像トークン」を参照)	170 + 85 個の画像トークン	$0.00255
OCR 用の拡張アドオン機能	1.50 ドル/1,000 トランザクション	0.0015 ドル
オブジェクトグラウンディング用の拡張アドオン機能	1.50 ドル/1,000 トランザクション	0.0015 ドル
出力トークン	100 個のトークン (想定)	$0.003
合計		$0.00955

ビデオ価格計算例

重要

次のコンテンツはただの一例であり、価格は将来変更される可能性があります。

一般的なユースケースの場合は、3 分間のビデオに 100 トークンのプロンプト入力を使用します。このビデオには 100 トークンの長さの音声テキストがあり、このサービスがこのプロンプトを処理すると、100 出力トークンが生成されます。このトランザクションの価格は次のようになります。

項目	詳細	コスト
GPT-4 Turbo with Vision 入力トークン	100 個のテキストトークン	$0.001
フレームを識別するための追加コスト	100 入力トークン + 700 トークン + 1 ビデオ検索トランザクション	$0.00825
画像入力とトランスクリプト入力	20 個の画像 (それぞれ 85 個のトークン) + 100 個のトランスクリプトトークン	$0.018
出力トークン	100 個のトークン (想定)	$0.003
合計		$0.03025

また、この 3 分間のビデオのビデオ検索インデックスを生成するために、$0.15 の 1 回限りのインデックス作成コストがかかります。このインデックスは、任意の回数のビデオ検索と GPT-4 Turbo with Vision API 呼び出しで再利用することができます。

入力制限

このセクションでは、GPT-4 Turbo with Vision の制限事項について説明します。

画像のサポート

最大入力画像サイズ: 入力画像の最大サイズは 20 MB に制限されます。
低解像度の正確性: "低解像度" 設定を使用して画像を分析すると、応答を高速にして、特定のユースケースに使用する入力トークンを減らすことができます。ただし、これは、画像内のオブジェクトとテキスト認識の正確性に影響する可能性があります。
画像チャットの制限: Azure AI Studio または API 内で画像をアップロードする場合、チャットの呼び出しあたり 10 画像までという制限があります。

ビデオのサポート

低解像度: ビデオフレームは、GPT-4 Turbo with Vision の "低解像度" 設定を使用して分析されます。これは、ビデオ内の小さなオブジェクトとテキスト認識の正確性に影響を与える可能性があります。
ビデオファイルの制限: MP4 と MOV の両方のファイルの種類がサポートされています。 Azure AI Studio 内では、ビデオの長さは 3 分間未満にする必要があります。 API を使用する場合、このような制限はありません。
プロンプトの制限: ビデオプロンプトに含まれるビデオは 1 つだけで、画像はありません。 Azure AI Studio 内では、セッションをクリアして別のビデオまたは画像を試すことができます。
限られたフレームの選択: サービスではビデオ全体から 20 フレームを選択します。これでは、重要なすべての瞬間や詳細がキャプチャされない場合があります。フレームの選択は、プロンプトに応じて、ビデオ全体にほぼ均等に分散するか、特定のビデオ検索クエリでフォーカスすることができます。
言語のサポート: サービスでは主に、トランスクリプトを使用したグラウディングに英語がサポートされています。トランスクリプトでは、曲の歌詞に関する正確な情報を提供しません。

次のステップ

クイックスタートに従って、GPT-4 Turbo with Vision の使用を開始します。
API の詳細を確認し、チャット内でビデオプロンプトを使用するには、攻略ガイドに従ってください。
入力候補および埋め込み API リファレンスをご参照ください

次の方法で共有