画像キャプション (バージョン 4.0)

[アーティクル]
09/25/2024

Image Analysis 4.0 の画像キャプションは、キャプション機能と高密度キャプション機能で利用できます。

キャプション機能は、すべての画像コンテンツに対して 1 文の説明を生成します。高密度キャプションを使用すると、画像全体の説明に加えて、画像の最大 10 個の異なる領域について 1 文の説明が生成され、より詳細な情報が提供されます。高密度キャプションからは、説明の対象になっている画像領域の境界ボックスの座標も返されます。これらの機能はどちらも、Florence ベースの最新の AI モデルを使用します。

画像キャプションは英語でのみ使用できます。

重要

Image Analysis 4.0 の画像キャプションは、特定の Azure データセンターリージョンでのみ使用できます。「利用可能なリージョン」を参照してください。キャプション機能と高密度キャプション機能から結果を取得するには、これらのリージョンのいずれかに配置された Azure AI Vision リソースを使う必要があります。

これらのリージョンの外部の Vision リソースを使って画像キャプションを生成する必要がある場合は、すべての Azure AI Vision リージョンで利用できる Image Analysis 3.2 を使ってください。

Vision Studio を使用して、ブラウザーですばやく簡単に画像キャプションの機能を試すことができます。

Vision Studio を試す

性別に依存しないキャプション

既定で、キャプションには、性別の用語 ("man"、"woman"、"boy"、"girl") が含まれています。結果でこれらの用語を "person" に置き換えて、性別に依存しないキャプションを受け取ることができります。これを行うには、省略可能な API 要求パラメーター gender-neutral-caption を要求 URL で true に設定します。

次の JSON 応答は、視覚的特徴に基づいてサンプル画像を説明するときに、Image Analysis 4.0 API から返される内容を示したものです。

画面を指さす男性の写真

"captions": [
    {
        "text": "a man pointing at a screen",
        "confidence": 0.4891590476036072
    }
]

次の JSON 応答は、サンプル画像の高密度キャプションを生成するときに Image Analysis 4.0 API から返される内容を示したものです。

農場のトラクターの写真

{
  "denseCaptionsResult": {
    "values": [
      {
        "text": "a man driving a tractor in a farm",
        "confidence": 0.535620927810669,
        "boundingBox": {
          "x": 0,
          "y": 0,
          "w": 850,
          "h": 567
        }
      },
      {
        "text": "a man driving a tractor in a field",
        "confidence": 0.5428450107574463,
        "boundingBox": {
          "x": 132,
          "y": 266,
          "w": 209,
          "h": 219
        }
      },
      {
        "text": "a blurry image of a tree",
        "confidence": 0.5139822363853455,
        "boundingBox": {
          "x": 147,
          "y": 126,
          "w": 76,
          "h": 131
        }
      },
      {
        "text": "a man riding a tractor",
        "confidence": 0.4799223840236664,
        "boundingBox": {
          "x": 206,
          "y": 264,
          "w": 64,
          "h": 97
        }
      },
      {
        "text": "a blue sky above a hill",
        "confidence": 0.35495415329933167,
        "boundingBox": {
          "x": 0,
          "y": 0,
          "w": 837,
          "h": 166
        }
      },
      {
        "text": "a tractor in a field",
        "confidence": 0.47338250279426575,
        "boundingBox": {
          "x": 0,
          "y": 243,
          "w": 838,
          "h": 311
        }
      }
    ]
  },
  "modelVersion": "2024-02-01",
  "metadata": {
    "width": 850,
    "height": 567
  }
}

API の使用

画像キャプション
高密度キャプション

画像キャプション作成機能は、Analyze Image API の一部です。 Caption を features クエリパラメーターに追加します。次に、完全な JSON 応答が得られたら、"captionResult" セクションのコンテンツの文字列を解析します。

次の方法で共有

画像キャプション (バージョン 4.0)

性別に依存しないキャプション

キャプションと高密度キャプションの例

API の使用

次の手順

フィードバック

その他のリソース