画像キャプション (バージョン 4.0)

Image Analysis 4.0 の画像キャプションは、キャプション機能と高密度キャプション機能で利用できます。

キャプション機能は、すべての画像コンテンツに対して 1 文の説明を生成します。 高密度キャプションを使用すると、画像全体の説明に加えて、画像の最大 10 個の異なる領域について 1 文の説明が生成され、より詳細な情報が提供されます。 高密度キャプションからは、説明の対象になっている画像領域の境界ボックスの座標も返されます。 これらの機能はどちらも、Florence ベースの最新の AI モデルを使用します。

画像キャプションは英語でのみ使用できます。

重要

Image Analysis 4.0 の画像キャプションは、特定の Azure データ センター リージョンでのみ使用できます。「利用可能なリージョン」を参照してください。 キャプション機能と高密度キャプション機能から結果を取得するには、これらのリージョンのいずれかに配置された Azure AI Vision リソースを使う必要があります。

これらのリージョンの外部の Vision リソースを使って画像キャプションを生成する必要がある場合は、すべての Azure AI Vision リージョンで利用できる Image Analysis 3.2 を使ってください。

Vision Studio を使用して、ブラウザーですばやく簡単に画像キャプションの機能を試すことができます。

性別に依存しないキャプション

既定で、キャプションには、性別の用語 ("man"、"woman"、"boy"、"girl") が含まれています。 結果でこれらの用語を "person" に置き換えて、性別に依存しないキャプションを受け取ることができります。 これを行うには、省略可能な API 要求パラメーター gender-neutral-caption を要求 URL で true に設定します。

キャプションと高密度キャプションの例

次の JSON 応答は、視覚的特徴に基づいてサンプル画像を説明するときに、Image Analysis 4.0 API から返される内容を示したものです。

画面を指さす男性の写真

"captions": [
    {
        "text": "a man pointing at a screen",
        "confidence": 0.4891590476036072
    }
]

API の使用

画像キャプション作成機能は、Analyze Image API の一部です。 Captionfeatures クエリ パラメーターに追加します。 次に、完全な JSON 応答が得られたら、"captionResult" セクションのコンテンツの文字列を解析します。

次の手順