エンティティ リンクのコグニティブ スキル (v3)

エンティティ リンクのスキル (v3) は、よく知られたナレッジ ベース (Wikipedia) 内の記事へのリンクを含む、認識されたエンティティの一覧を返します。

Note

このスキルは、Azure AI LanguageEntity Linking 機械学習モデルにバインドされており、1 日あたりインデクサーあたり 20 ドキュメントを超えるトランザクションには課金対象のリソースが必要です。 組み込みスキルの実行は、既存の Azure AI サービスの従量課金制価格で課金されます。

@odata.type

Microsoft.Skills.Text.V3.EntityLinkingSkill

データ制限

レコードのサイズは、String.Length で測定して 50,000 文字以下にする必要があります。 データを EntityLinking スキルに送信する前に分割する必要がある場合は、テキスト分割スキルの使用を検討してください。 テキスト分割スキルを使用する場合は、最適なパフォーマンスを得るためにページの長さを 5000 に設定します。

スキルのパラメーター

パラメーター名は、大文字と小文字が区別され、すべて省略可能です。

パラメーター名 説明
defaultLanguageCode 入力テキストの言語コード。 既定の言語コードが指定されていない場合、既定の言語コードとして英語 (en) が使用されます。
サポートされる言語の完全な一覧を参照してください。
minimumPrecision 0 から 1 の値。 (entities 出力の) 信頼度スコアがこの値よりも小さい場合は、エンティティは返されません。 既定値は 0 です。
modelVersion (省略可能) エンティティ リンク設定を呼び出すときに使用するモデルのバージョンを指定します。 指定しない場合、既定では利用可能な最新のものになります。 必要な場合以外は、この値を指定しないことをお勧めします。

スキルの入力

入力名 説明
languageCode レコードの言語を示す文字列。 このパラメーターが指定されていない場合、既定の言語コードがレコードを分析するために使用されます。
サポートされる言語の完全な一覧を参照してください。
text 分析対象テキストです。

スキルの出力

出力名 説明
entities 次のフィールドが含まれる複合型の配列。
  • "name" (テキストに表示される実際のエンティティ名)
  • "id"
  • "language" (スキルで決定されたテキストの言語)
  • "url" (このエンティティへのリンクされた url)
  • "bingId" (このリンクされたエンティティの bingId)
  • "dataSource" (url に関連付けられたデータ ソース)
  • "matches" (textoffsetlengthconfidenceScore を含む複合型の配列)

定義例

  {
    "@odata.type": "#Microsoft.Skills.Text.V3.EntityLinkingSkill",
    "context": "/document",
    "defaultLanguageCode": "en", 
    "minimumPrecision": 0.5, 
    "inputs": [
        {
            "name": "text", 
            "source": "/document/content"
        },
        {
            "name": "languageCode", 
            "source": "/document/language"
        }
    ],
    "outputs": [
        {
            "name": "entities", 
            "targetName": "entities" 
        }
    ]
}

サンプル入力

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Microsoft is liked by many.",
             "languageCode": "en"
           }
      }
    ]
}

サンプル出力

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "entities": [
          {
            "name": "Microsoft", 
            "id": "Microsoft",
            "language": "en", 
            "url": "https://en.wikipedia.org/wiki/Microsoft", 
            "bingId": "a093e9b9-90f5-a3d5-c4b8-5855e1b01f85", 
            "dataSource": "Wikipedia", 
            "matches": [
                {
                    "text": "Microsoft", 
                    "offset": 0, 
                    "length": 9, 
                    "confidenceScore": 0.13 
                }
            ]
          }
        ],
      }
    }
  ]
}

このスキルの出力のエンティティに対して返されるオフセットは、言語サービス API から直接返されます。つまり、これらを使用して元の文字列にインデックスを作成する場合は、正しい内容を抽出するために .NET の StringInfo クラスを使用する必要があります。 詳しくは、「言語サービス機能での多言語および絵文字のサポート」を参照してください。

警告のケース

ドキュメントの言語コードがサポートされていない場合、警告が返され、エンティティは抽出されません。

関連項目