クイックスタート: Azure OpenAI Service で画像とビデオに GPT-4 Turbo with Vision を使用する - Azure OpenAI

Azure OpenAI Studio を使用すると、コードを書かなくても GPT-4 Turbo with Vision 機能の確認を開始できます。

前提条件

Azure サブスクリプション。無料で作成できます。
GPT-4 Turbo with Vision モデルがデプロイされた Azure OpenAI Service リソース。使用可能なリージョンについては、 GPT-4 および GPT-4 Turbo プレビューモデルの可用性に関するページを参照してください。リソース作成の詳細については、リソースデプロイガイドを参照してください。
Vision の機能強化 (省略可能): お使いの Azure OpenAI リソースと同じリージョンの有料 (S1) レベルの Azure Computer Vision リソース。

Note

現在、GPT-4 Turbo with Vision モデルのコンテンツフィルター処理をオフにすることはサポートされていません。

Azure OpenAI Studio に移動する

Azure OpenAI Studio にアクセスし、Azure OpenAI リソースに関連付けられた資格情報を使用してサインインします。サインインワークフローの途中または後で、適切なディレクトリ、Azure サブスクリプション、Azure OpenAI リソースを選択します。

[管理] で [デプロイ] を選択し、GPT-4 Turbo with Vision デプロイを作成します。その際、モデル名に "gpt-4" を、モデルバージョンに "vision-preview" を選択します。モデルデプロイの詳細については、リソースデプロイガイドを参照してください。

[プレイグラウンド] セクションで [チャット] を選択します。

プレイグラウンド

このページから、簡単に反復し、モデルの機能を実験することができます。

アシスタントセットアップ、チャットセッション、設定、パネルの全般的ヘルプについては、「チャットのクイックスタート」を参照してください。

チャットセッションを開始して画像やビデオを分析する

このチャットセッションでは、入力した画像を解釈できるようにアシスタントに指示します。

まず、GPT-4 Turbo with Vision デプロイをドロップダウンから選択します。
[アシスタントのセットアップ] ペインで、アシスタントをガイドするシステムメッセージを入力します。既定のシステムメッセージは、"あなたは、情報の検索を支援する AI アシスタントです" です。アップロードする画像またはシナリオに合わせてシステムメッセージを調整できます。

Note

モデルから役に立たない応答が返されないように、タスクに特化したシステムメッセージに更新することをお勧めします。
変更を保存し、システムメッセージの更新を確定するか問われたら、[続行] を選択します。
[チャットセッション] ウィンドウで、"この画像を説明して" などのテキストプロンプトを入力し、添付ボタンで画像をアップロードします。ユースケースには別のテキストプロンプトを使用できます。次に、[送信] を選択します。
出力を確認します。理解を深めるため、画像の分析に関連するフォローアップの質問をすることを検討してください。

リソースをクリーンアップする

Azure OpenAI リソースをクリーンアップして削除したい場合は、リソースまたはリソースグループを削除できます。リソースグループを削除すると、それに関連付けられている他のリソースも削除されます。

この記事を使用して、GPT-4 Turbo with Vision モデルをデプロイして使用するために Azure OpenAI REST API の使用を開始します。

前提条件

Azure サブスクリプション。無料で作成できます。
Python 3.8 以降のバージョン。
次の Python ライブラリ: requests、json。
GPT-4 Turbo with Vision モデルがデプロイされた Azure OpenAI Service リソース。使用可能なリージョンについては、 GPT-4 および GPT-4 Turbo プレビューモデルの可用性に関するページを参照してください。リソース作成の詳細については、リソースデプロイガイドを参照してください。
Vision の機能強化 (省略可能): お使いの Azure OpenAI リソースと同じリージョンの有料 (S1) レベルの Azure Computer Vision リソース。

Note

現在、GPT-4 Turbo with Vision モデルのコンテンツフィルター処理をオフにすることはサポートされていません。

キーとエンドポイントを取得する

Azure OpenAI API を正常に呼び出すには、Azure OpenAI リソースに関する次の情報が必要です。

変数	名前	値
エンドポイント	`api_base`	エンドポイント値は、Azure portal のリソースの [キーとエンドポイント] にあります。または、Azure OpenAI Studio>[プレイグラウンド]>[コードビュー] で値を確認することもできます。エンドポイントの例: `https://docs-test-001.openai.azure.com/`。
キー	`api_key`	キー値は、Azure portal のリソースの [キーとエンドポイント] にあります。 Azure では、リソースに対して 2 つのキーが生成されます。いずれかの値を使用できます。

Azure portal でリソースに移動します。ナビゲーションウィンドウで、[リソース管理] の [キーとエンドポイント] を選択します。 [エンドポイント] の値とアクセスキーの値をコピーします。 KEY 1 または KEY 2 のいずれかの値を使用できます。 2 つのキーを用意しておくと、サービスを中断させることなく、キーのローテーションと再生成を安全に行うことができます。

新しい Python アプリケーションを作成する

quickstart.py という名前の新しい Python ファイルを作成します。好みのエディターまたは IDE で新しいファイルを開きます。

quickstart.py の内容を次のコードで置き換えます。

# Packages required:
import requests 
import json 

api_base = '<your_azure_openai_endpoint>' 
deployment_name = '<your_deployment_name>'
API_KEY = '<your_azure_openai_key>'

base_url = f"{api_base}openai/deployments/{deployment_name}" 
headers = {   
    "Content-Type": "application/json",   
    "api-key": API_KEY 
} 

# Prepare endpoint, headers, and request body 
endpoint = f"{base_url}/chat/completions?api-version=2023-12-01-preview" 
data = { 
    "messages": [ 
        { "role": "system", "content": "You are a helpful assistant." }, 
        { "role": "user", "content": [  
            { 
                "type": "text", 
                "text": "Describe this picture:" 
            },
            { 
                "type": "image_url",
                "image_url": {
                    "url": "<image URL>"
                }
            }
        ] } 
    ], 
    "max_tokens": 2000 
}   

# Make the API call   
response = requests.post(endpoint, headers=headers, data=json.dumps(data))   

print(f"Status Code: {response.status_code}")   
print(response.text)

次の変更を行います。
1. エンドポイント URL とキーを適切なフィールドに入力します。
2. 適切なフィールドに GPT-4 Turbo with Vision デプロイ名を入力します。
3. "image" フィールドの値を画像の URL に変更します。
  
  ヒント
  
  URL ではなく、Base 64 でエンコードされた画像データを使うこともできます。詳細については、GPT-4 Turbo with Vision の攻略ガイドに関するページを参照してください。
python コマンドを使用してアプリケーションを実行します。
```
python quickstart.py
```

GPT-4 Turbo with Vision では、Azure AI サービスのカスタマイズされた拡張機能への排他的アクセスを提供します。 Azure AI Vision と組み合わせると、画像内の表示可能なテキストとオブジェクトの場所に関するより詳細な情報がチャットモデルに提供され、チャットのエクスペリエンスが向上します。

光学式文字認識 (OCR) 統合により、モデルでは、高密度のテキスト、変換された画像、大量の財務ドキュメントに対して、より高品質の応答を生成できます。また、より広い範囲の言語もカバーされます。

オブジェクトグラウンディング統合により、データ分析とユーザー操作に新しいレイヤーが追加されます。この機能では、処理する画像内の重要な要素を視覚的に区別して強調表示できるためです。

注意事項

GPT-4 Turbo with Vision の Azure AI 拡張機能は、コア機能とは別に課金されます。 GPT-4 Turbo with Vision の特定の Azure AI 拡張機能には、それぞれ異なる料金があります。詳細については、特別価格情報を参照してください。

重要

ビジョンの機能強化は、GPT-4 Turbo GA モデルではサポートされません。プレビューモデルでのみ使用できます。

quickstart.py の内容を次のコードで置き換えます。

# Packages required:
import requests 
import json 

api_base = '<your_azure_openai_endpoint>' 
deployment_name = '<your_deployment_name>'
API_KEY = '<your_azure_openai_key>'

base_url = f"{api_base}openai/deployments/{deployment_name}" 
headers = {   
    "Content-Type": "application/json",   
    "api-key": API_KEY 
} 

# Prepare endpoint, headers, and request body 
endpoint = f"{base_url}/extensions/chat/completions?api-version=2023-12-01-preview" 
data = {
    "model": "gpt-4-vision-preview",
    "enhancements": {
        "ocr": {
          "enabled": True
        },
        "grounding": {
          "enabled": True
        }
    },
    "dataSources": [
    {
        "type": "AzureComputerVision",
        "parameters": {
            "endpoint": "<your_computer_vision_endpoint>",
            "key": "<your_computer_vision_key>"
        }
    }],
    "messages": [ 
        { "role": "system", "content": "You are a helpful assistant." }, 
        { "role": "user", 
        "content": [  
            { 
                "type": "text", 
                "text": "Describe this picture:" 
            },
            { 
                "type": "image_url", 
                "image_url": {
                    "url" : "<image URL>"
                }
            }
        ]} 
    ], 
    "max_tokens": 2000 
}   

# Make the API call   
response = requests.post(endpoint, headers=headers, data=json.dumps(data))   

print(f"Status Code: {response.status_code}")   
print(response.text)

次の変更を行います。
1. 適切なフィールドに GPT-4 Turbo with Vision デプロイ名を入力します。
2. Computer Vision のエンドポイント URL とキーを適切なフィールドに入力します。
3. "image" フィールドの値を画像の URL に変更します。
  
  ヒント
  
  URL ではなく、Base 64 でエンコードされた画像データを使うこともできます。詳細については、GPT-4 Turbo with Vision の攻略ガイドに関するページを参照してください。
python コマンドを使用してアプリケーションを実行します。
```
python quickstart.py
```

リソースをクリーンアップする

Azure OpenAI リソースをクリーンアップして削除したい場合は、リソースまたはリソースグループを削除できます。リソースグループを削除すると、それに関連付けられている他のリソースも削除されます。

この記事を参照して、Azure OpenAI Python SDK の使用を開始し、GPT-4 Turbo with Vision モデルをデプロイして使います。

ライブラリのソースコード | パッケージ (PyPi) |

前提条件

Azure サブスクリプション。無料で作成できます。
Python 3.8 以降のバージョン。
次の Python ライブラリ: os
GPT-4 Turbo with Vision モデルがデプロイされた Azure OpenAI Service リソース。使用可能なリージョンについては、 GPT-4 および GPT-4 Turbo プレビューモデルの可用性に関するページを参照してください。リソース作成の詳細については、リソースデプロイガイドを参照してください。
Vision の機能強化 (省略可能): お使いの Azure OpenAI リソースと同じリージョンの有料 (S1) レベルの Azure Computer Vision リソース。

設定

次を使用して、OpenAI Python クライアントライブラリをインストールします。

pip install openai

Note

このライブラリは、OpenAI によって保持されます。このライブラリの最新の更新を追跡するには、リリース履歴を参照してください。

キーとエンドポイントを取得する

Azure OpenAI に対して正常に呼び出しを行うには、エンドポイントとキーが必要です。

変数名	値
`ENDPOINT`	この値は、Azure portal からリソースを確認する際に、 [Keys & Endpoint](キーとエンドポイント) セクションで確認することができます。 Azure OpenAI Studio>[プレイグラウンド]>[コードビュー] で値を確認することもできます。エンドポイントの例: `https://docs-test-001.openai.azure.com/`。
`API-KEY`	この値は、Azure portal からリソースを確認する際に、 [Keys & Endpoint](キーとエンドポイント) セクションで確認することができます。 `KEY1` または `KEY2` を使用できます。

Azure portal でリソースに移動します。 [キーとエンドポイント] セクションは、[リソース管理] セクションにあります。エンドポイントとアクセスキーをコピーします。これらは、API 呼び出しを認証するために両方とも必要です。 KEY1 または KEY2 を使用できます。常に 2 つのキーを用意しておくと、サービスを中断させることなく、キーのローテーションと再生成を安全に行うことができます。

環境変数

キーとエンドポイントの永続的な環境変数を作成して割り当てます。

重要

API キーを使用する場合は、それを Azure Key Vault などの別の場所に安全に保存します。 API キーは、コード内に直接含めないようにし、絶対に公開しないでください。

AI サービスのセキュリティの詳細については、「Azure AI サービスに対する要求の認証」を参照してください。

setx AZURE_OPENAI_API_KEY "REPLACE_WITH_YOUR_KEY_VALUE_HERE" 
setx AZURE_OPENAI_ENDPOINT "REPLACE_WITH_YOUR_ENDPOINT_HERE"

[System.Environment]::SetEnvironmentVariable('AZURE_OPENAI_API_KEY', 'REPLACE_WITH_YOUR_KEY_VALUE_HERE', 'User')
[System.Environment]::SetEnvironmentVariable('AZURE_OPENAI_ENDPOINT', 'REPLACE_WITH_YOUR_ENDPOINT_HERE', 'User')

export AZURE_OPENAI_API_KEY="REPLACE_WITH_YOUR_KEY_VALUE_HERE"
export AZURE_OPENAI_ENDPOINT="REPLACE_WITH_YOUR_ENDPOINT_HERE"

新しい Python アプリケーションを作成する

quickstart.py という名前の新しい Python ファイルを作成します。好みのエディターまたは IDE で新しいファイルを開きます。

quickstart.py の内容を次のコードで置き換えます。

from openai import AzureOpenAI

api_base = os.getenv("AZURE_OPENAI_ENDPOINT")
api_key= os.getenv("AZURE_OPENAI_API_KEY")
deployment_name = '<your_deployment_name>'
api_version = '2023-12-01-preview' # this might change in the future

client = AzureOpenAI(
    api_key=api_key,  
    api_version=api_version,
    base_url=f"{api_base}/openai/deployments/{deployment_name}"
)

response = client.chat.completions.create(
    model=deployment_name,
    messages=[
        { "role": "system", "content": "You are a helpful assistant." },
        { "role": "user", "content": [  
            { 
                "type": "text", 
                "text": "Describe this picture:" 
            },
            { 
                "type": "image_url",
                "image_url": {
                    "url": "<image URL>"
                }
            }
        ] } 
    ],
    max_tokens=2000 
)

print(response)

次の変更を行います。
1. 適切なフィールドに GPT-4 Turbo with Vision デプロイの名前を入力します。
2. "url" フィールドの値を画像の URL に変更します。
  
  ヒント
  
  URL ではなく、Base 64 でエンコードされた画像データを使うこともできます。詳細については、GPT-4 Turbo with Vision の攻略ガイドに関するページを参照してください。
python コマンドを使用してアプリケーションを実行します。
```
python quickstart.py
```

GPT-4 Turbo with Vision では、Azure AI サービスのカスタマイズされた拡張機能への排他的アクセスを提供します。 Azure AI Vision と組み合わせると、画像内の表示可能なテキストとオブジェクトの場所に関するより詳細な情報がチャットモデルに提供され、チャットのエクスペリエンスが向上します。

光学式文字認識 (OCR) 統合により、モデルでは、高密度のテキスト、変換された画像、大量の財務ドキュメントに対して、より高品質の応答を生成できます。また、より広い範囲の言語もカバーされます。

オブジェクトグラウンディング統合により、データ分析とユーザー操作に新しいレイヤーが追加されます。この機能では、処理する画像内の重要な要素を視覚的に区別して強調表示できるためです。

注意事項

GPT-4 Turbo with Vision の Azure AI 拡張機能は、コア機能とは別に課金されます。 GPT-4 Turbo with Vision の特定の Azure AI 拡張機能には、それぞれ異なる料金があります。詳細については、特別価格情報を参照してください。

重要

ビジョンの機能強化は、GPT-4 Turbo GA モデルではサポートされません。プレビューモデルでのみ使用できます。

quickstart.py の内容を次のコードで置き換えます。

from openai import AzureOpenAI

api_base = os.getenv("AZURE_OPENAI_ENDPOINT")
api_key= os.getenv("AZURE_OPENAI_API_KEY")
deployment_name = '<your_deployment_name>'
api_version = '2023-12-01-preview' # this might change in the future

client = AzureOpenAI(
    api_key=api_key,  
    api_version=api_version,
    base_url=f"{api_base}/openai/deployments/{deployment_name}/extensions",
)

response = client.chat.completions.create(
    model=deployment_name,
    messages=[
        { "role": "system", "content": "You are a helpful assistant." },
        { "role": "user", "content": [  
            { 
                "type": "text", 
                "text": "Describe this picture:" 
            },
            { 
                "type": "image_url",
                "image_url": {
                    "url": "<image URL>"
                }
            }
        ] } 
    ],
    extra_body={
        "dataSources": [
            {
                "type": "AzureComputerVision",
                "parameters": {
                    "endpoint": "<your_computer_vision_endpoint>",
                    "key": "<your_computer_vision_key>"
                }
            }],
        "enhancements": {
            "ocr": {
                "enabled": True
            },
            "grounding": {
                "enabled": True
            }
        }
    },
    max_tokens=2000
)

print(response)

次の変更を行います。
1. 適切なフィールドに GPT-4 Turbo with Vision デプロイ名を入力します。
2. Computer Vision のエンドポイント URL とキーを適切なフィールドに入力します。
3. "url" フィールドの値を画像の URL に変更します。
  
  ヒント
  
  URL ではなく、Base 64 でエンコードされた画像データを使うこともできます。詳細については、GPT-4 Turbo with Vision の攻略ガイドに関するページを参照してください。
python コマンドを使用してアプリケーションを実行します。
```
python quickstart.py
```

リソースをクリーンアップする

Azure OpenAI リソースをクリーンアップして削除したい場合は、リソースまたはリソースグループを削除できます。リソースグループを削除すると、それに関連付けられている他のリソースも削除されます。

次の方法で共有

クイックスタート: AI チャットで画像を使用する

GPT-4 Turbo モデルのアップグレード

OpenAI と Azure OpenAI GPT-4 Turbo GA モデルの違い

gpt-4 vision-preview との違い

GPT-4 Turbo のプロビジョニングされたマネージド可用性

利用可能なリージョン

GPT-4 Turbo with Vision GA のデプロイ

前提条件

Azure OpenAI Studio に移動する

プレイグラウンド

チャットセッションを開始して画像やビデオを分析する

リソースをクリーンアップする

前提条件

キーとエンドポイントを取得する

新しい Python アプリケーションを作成する

リソースをクリーンアップする

前提条件

設定

キーとエンドポイントを取得する

環境変数

新しい Python アプリケーションを作成する

リソースをクリーンアップする

次のステップ

フィードバック

その他のリソース

次の方法で共有

クイックスタート: AI チャットで画像を使用する

GPT-4 Turbo モデルのアップグレード

OpenAI と Azure OpenAI GPT-4 Turbo GA モデルの違い

gpt-4 vision-preview との違い

GPT-4 Turbo のプロビジョニングされたマネージド可用性

利用可能なリージョン

GPT-4 Turbo with Vision GA のデプロイ

前提条件

Azure OpenAI Studio に移動する

プレイグラウンド

チャット セッションを開始して画像やビデオを分析する

リソースをクリーンアップする

前提条件

キーとエンドポイントを取得する

新しい Python アプリケーションを作成する

リソースをクリーンアップする

前提条件

設定

キーとエンドポイントを取得する

環境変数

新しい Python アプリケーションを作成する

リソースをクリーンアップする

次のステップ

フィードバック

その他のリソース

チャットセッションを開始して画像やビデオを分析する