ドキュメント インテリジェンス アドオン機能

重要

  • Document Intelligence パブリック プレビュー リリースは、開発中の機能への早期アクセスを提供します。 機能、アプローチ、およびプロセスは、一般提供 (GA) の前に、ユーザーからのフィードバックに基づいて変更される可能性があります。
  • Document Intelligence クライアント ライブラリのパブリック プレビュー バージョンは、REST API バージョン 2024-07-31-preview にデフォルトで設定されています。
  • パブリック プレビュー バージョン 2024-07-31-preview は、現在、次の Azure リージョンでのみ使用できます。 AI Studio のカスタム生成 (ドキュメント フィールド抽出) モデルは、米国中北部リージョンでのみ使用できます。
    • 米国東部
    • 米国西部 2
    • "西ヨーロッパ"
    • 米国中北部

このコンテンツの適用対象: checkmark v4.0 (プレビュー) | 以前のバージョン: 青のチェックマーク v3.1 (GA)

このコンテンツの適用対象: checkmark v3.1 (GA) | 最新バージョン: 紫のチェックマーク v4.0 (プレビュー)

Note

アドオン機能は、名刺モデルを除くすべてのモデル内で使用できます。

機能

ドキュメント インテリジェンスでは、より高度でモジュール形式の解析機能がサポートされています。 アドオン機能を使用して結果を拡張し、ドキュメントから抽出されたより多くのフィーチャーを含めます。 一部のアドオンフィーチャーでは、追加コストが発生します。 これらのオプション機能は、ドキュメント抽出のシナリオに応じて有効または無効にすることができます。 機能を有効にするには、関連付けられている機能名を features クエリ文字列プロパティに追加します。 機能のコンマ区切りの一覧を指定することで、要求で複数のアドオン機能を有効にすることができます。 次のアドオン機能は、2023-07-31 (GA) 以降のリリースで使用できます。

2024-07-31-preview リリース以降の読み取りモデルでは、検索可能な PDF 出力がサポートされています。

Note

  • すべてのアドオン機能がすべてのモデルでサポートされているわけではありません。 詳細については、モデル データの抽出を参照してください。

  • 現在、アドオン機能は Microsoft Office ファイルの種類ではサポートされていません。

Document Intelligence では、ドキュメント抽出シナリオに応じて有効または無効にできるオプション機能がサポートされています。 次のアドオン機能は、2023-10-31-preview およびそれ以降のリリースで使用できます。

Note

2023-10-30-プレビュー API でのクエリ フィールドの実装は、前回のプレビュー リリースとは異なります。 新しい実装はコストが低く、構造化されたドキュメントで適切に動作します。

バージョンの可用性

アドオン機能 アドオン/無料 2024-02-29-preview 2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
Font プロパティの抽出 アドオン ✔️ ✔️ 該当なし 該当なし
数式の抽出 アドオン ✔️ ✔️ 該当なし 該当なし
高解像度の抽出 アドオン ✔️ ✔️ 該当なし 該当なし
バーコード抽出 Free ✔️ ✔️ 該当なし 該当なし
言語検出 Free ✔️ ✔️ 該当なし 該当なし
キーと値のペア Free ✔️ 該当なし なし 該当なし
クエリ フィールド アドオン* ✔️ 該当なし なし 該当なし

✱ アドオン - クエリ フィールドは、他のアドオン機能とは価格設定が異なります。 詳細については、価格のページを参照してください。

"サポートされているファイル形式"

  • PDF

  • 画像: JPEG/JPG, PNG, BMP, TIFF, HEIF

✱ 現在、Microsoft Office ファイルはサポートされません。

高解像度の抽出

エンジニアリング図面のように、大きなサイズのドキュメントから小さなテキストを認識する作業は困難です。 多くの場合、テキストは他のグラフィック要素と混在しており、それには、さまざまなフォント、サイズ、向きがあります。 さらに、テキストを別のパーツに分割したり、他のシンボルと接続したりできます。 ドキュメント インテリジェンスでは、これらの種類のドキュメントからコンテンツを抽出する ocr.highResolution 機能がサポートされるようになりました。 このアドオン機能を有効にすると、A1/A2/A3 ドキュメントからのコンテンツ抽出の品質が向上します。

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution

数式の抽出

この ocr.formula 機能は、formulas コレクション内のすべての識別された数式 (数式など) を、content の最上位オブジェクトとして抽出します。 content 内では、検出された数式は :formula: として表されます。 このコレクションの各エントリは、数式の種類を inline または display として、LaTeX 表現を value として、その polygon 座標を含む数式を表します。 最初は、各ページの最後に数式が表示されます。

Note

confidence スコアはハードコーディングされています。

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas

Font プロパティの抽出

ocr.font 機能は、styles コレクションで抽出されたテキストのすべてのフォント プロパティを、content の下の最上位オブジェクトとして抽出します。 各スタイル オブジェクトは、1 つのフォント プロパティ、適用対象のテキスト スパン、および対応する信頼度スコアを指定します。 既存のスタイル プロパティは、テキストのフォントの similarFontFamily、斜体や標準などのスタイルの fontStyle、太字または標準の fontWeight、テキストの色の color など、より多くのフォント プロパティで拡張されています。 backgroundColor はテキスト境界ボックスの色です。

  {your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont
  {your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont

バーコード プロパティの抽出

ocr.barcode 機能では、content の最上位オブジェクトとして、barcodes コレクション内の識別されたバーコードすべてを抽出します。 content 内では、検出されたバーコードは :barcode: として表されます。 このコレクションの各エントリはバーコードを表し、バーコードの種類 kind、埋め込まれたバーコードの内容 value とその座標 polygon が含まれます。 最初は、各ページの最後にバーコードが表示されます。 confidence は 1 としてハードコーディングされています。

サポートされているバーコードの種類

バーコードの種類
QR Code QR コードのスクリーンショット。
Code 39 コード 39 のスクリーンショット。
Code 93 コード 93 のスクリーンショット。
Code 128 コード 128 のスクリーンショット。
UPC (UPC-A & UPC-E) UPC のスクリーンショット。
PDF417 PDF417 のスクリーンショット。
EAN-8 European-article-number バーコード ean-8 のスクリーンショット。
EAN-13 European-article-number バーコード ean-13 のスクリーンショット。
Codabar Codabar のスクリーンショット。
Databar データ バーのスクリーンショット。
Databar 展開済み 展開されたデータ バーのスクリーンショット。
ITF interleaved-two-of-five バーコード (ITF) のスクリーンショット。
Data Matrix データ マトリックスのスクリーンショット。
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes

言語検出

analyzeResult 要求に languages 機能を追加すると、analyzeResultlanguages コレクション内の confidence と共に、各テキスト行で検出される主要言語が予測されます。

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages

検索可能な PDF

検索可能な PDF 機能を使用すると、スキャン画像の PDF ファイルなどのアナログ PDF をテキストが埋め込まれた PDF に変換できます。 埋め込みテキストにして、検出されたテキスト エンティティを画像ファイルの上にオーバーレイすることで、PDF の抽出されたコンテンツ内でディープ テキスト検索を実行できるようになります。

重要

  • 現在、検索可能な PDF 機能は読み取り OCR モデル prebuilt-read でのみサポートされています。 この機能を使用する場合、他のモデルの種類はこのプレビュー バージョンに対してエラーを返すので、modelIdprebuilt-read と指定してください。
  • 検索可能な PDF は 2024-07-31-preview prebuilt-read モデルに含まれており、一般的な PDF の使用には使用料がかかりません。

検索可能な PDF を使用する

検索可能な PDF を使用するには、Analyze 操作を使用して POST 要求を作成し、出力形式を pdf と指定します。


POST /documentModels/prebuilt-read:analyze?output=pdf
{...}
202

Analyze 操作が完了したら、GET 要求を発行して、Analyze 操作の結果を取得します。

正常に完了すると、PDF を取得して application/pdf としてダウンロードできます。 この操作により、Base64 でエンコードされた JSON ではなく、埋め込みテキスト形式の PDF を直接ダウンロードできます。


// Monitor the operation until completion.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}
200
{...}

// Upon successful completion, retrieve the PDF as application/pdf.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
200 OK
Content-Type: application/pdf

キーと値のペア

以前のバージョンの API では、prebuilt-document モデルによってフォームとドキュメントからキーと値のペアが抽出されました。 事前構築済みのレイアウトに keyValuePairs 機能が追加されたので、レイアウト モデルで同じ結果が生成されるようになりました。

キーと値のペアは、ラベルまたはキーとそれに関連付けられている応答または値を識別する、ドキュメント内の特定の範囲です。 構造化されたフォームでは、これらのペアは、ラベルと、ユーザーがそのフィールドに入力した値である可能性があります。 非構造化ドキュメントでは、段落内のテキストに基づいて契約が実行された日付である可能性があります。 さまざまなドキュメントの種類、形式、構造に基づいて、識別可能なキーと値を抽出するために、AI モデルがトレーニングされています。

モデルによってキーの存在が検出されても、関連する値がない場合や、省略可能なフィールドの処理では、キーが単独で存在する可能性もあります。 たとえば、一部のインスタンスでは、フォームのミドル ネーム フィールドを空白のままにすることができます。 キーと値のペアは、常に、ドキュメントに含まれるテキストの範囲です。 "顧客" と "ユーザー" など、同じ値が異なる方法で記述されるドキュメントの場合、関連付けられているキーは、(コンテキストに基づき) 顧客またはユーザーのいずれかです。

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs

クエリ フィールド

クエリ フィールドは、事前構築済みモデルから抽出されたスキーマを拡張したり、キー名が変数の場合に特定のキー名を定義したりするアドオン機能です。 クエリ フィールドを使用するには、機能を queryFields に設定し、 queryFields プロパティにフィールド名のコンマ区切りのリストを指定します。

  • ドキュメント インテリジェンスでクエリ フィールドの抽出がサポートされるようになりました。 クエリ フィールド抽出を使用すると、トレーニングを追加しなくても、クエリ要求を使用して抽出プロセスにフィールドを追加できます。

  • 事前構築済みまたはカスタム モデルのスキーマを拡張する必要がある場合、またはレイアウトの出力を含むいくつかのフィールドを抽出する必要がある場合は、クエリ フィールドを使用します。

  • クエリ フィールドはプレミアム アドオン機能です。 最適な結果を得るには、複数単語のフィールド名にキャメル ケースまたはパスカル ケース フィールド名を使用して抽出するフィールドを定義します。

  • クエリ フィールドは、要求ごとに最大 20 個のフィールドをサポートします。 ドキュメントにフィールドの値が含まれている場合は、フィールドと値が返されます。

  • このリリースには、以前の実装よりも価格が低く、検証する必要があるクエリ フィールド機能の新しい実装があります。

Note

現在、Document Intelligence Studio のクエリ フィールド抽出は、US tax モデル (W2、1098s、1099s モデル) を除いて、レイアウトおよび事前構築済みのモデル 2024-02-29-preview 2023-10-31-preview API とそれ以降のリリースで使用できます。

クエリ フィールドの抽出

クエリ フィールド抽出の場合は、抽出するフィールドを指定すると、Document Intelligence により、それに応じてドキュメントが分析されます。 次に例を示します。

  • Document Intelligence Studio でコントラクトを処理する場合は、2024-02-29-preview または 2023-10-31-preview バージョンを使用してください。

    Document Intelligence Studio のクエリ フィールド ボタンのスクリーンショット。

  • analyze document 要求の一部として、Party1Party2TermsOfUsePaymentTermsPaymentDateTermEndDate などのフィールド ラベルのリストを渡すことができます。

    Document Intelligence Studio のクエリ フィールド選択ウィンドウのスクリーンショット。

  • Document Intelligenceでは、フィールド データを分析して抽出し、構造化された JSON 出力で値を返します。

  • クエリ フィールドに加えて、応答にはテキスト、テーブル、選択マーク、およびその他の関連データが含まれます。

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS

次のステップ

SDK サンプル: python

その他のサンプルを見つける: アドオン機能

その他のサンプルを見つける: アドオン機能