Document Intelligence Studio で構成されたカスタム モデル

重要

  • Document Intelligence パブリック プレビュー リリースは、開発中の機能への早期アクセスを提供します。 機能、アプローチ、およびプロセスは、一般提供 (GA) の前に、ユーザーからのフィードバックに基づいて変更される可能性があります。
  • Document Intelligence クライアント ライブラリのパブリック プレビュー バージョンは、REST API バージョン 2024-07-31-preview にデフォルトで設定されています。
  • パブリック プレビュー バージョン 2024-07-31-preview は、現在、次の Azure リージョンでのみ使用できます。 AI Studio のカスタム生成 (ドキュメント フィールド抽出) モデルは、米国中北部リージョンでのみ使用できます。
    • 米国東部
    • 米国西部 2
    • "西ヨーロッパ"
    • 米国中北部

このコンテンツの適用対象: checkmark v4.0 (プレビュー) | 以前のバージョン: 青のチェックマーク v3.1 (GA) 青のチェックマーク v3.0 (GA) 青のチェックマーク v2.1 (GA)

このコンテンツの適用対象: checkmark v3.1 (GA) | 最新バージョン: 紫のチェックマーク v4.0 (プレビュー) | 以前のバージョン: 青のチェックマーク v3.0 青のチェックマーク v2.1

このコンテンツの適用対象: checkmark v3.0 (GA) | 最新バージョン: 紫のチェックマーク v4.0 (プレビュー) 紫のチェックマーク v3.1 | 以前のバージョン: 青のチェックマーク v2.1

このコンテンツの適用対象: checkmark v2.1 | 最新バージョン: 青のチェックマーク v4.0 (プレビュー)

重要

model compose 操作の動作は、api-version=2024-07-31-preview から変更されていますmodel compose 操作 v4.0 以降では、分析用の暗黙的な分類子ではなく、明示的にトレーニングされた分類子が追加されます。 以前の作成済みモデル バージョンについては、構成済みカスタム モデル v3.1 を "参照してください"。 現在、作成済みモデルを使用している場合は、最新の実装へのアップグレードを検討してください。

作成済みモデルとは

作成済みモデルを使用すると、1 つのモデル ID で呼び出される作成済みモデルに、複数のカスタム モデルをグループ化できます。 たとえば、作成済みモデルには、サプライ、備品、家具の発注書を分析するようにトレーニングされたカスタム モデルを含めることができます。 適切なモデルを手動で選択する代わりに、作成済みモデルを使用すれば、分析と抽出ごとに適切なカスタム モデルを決定できます。

一部のシナリオでは、最初にドキュメントを分類し、モデルからフィールドを抽出する際に、最適なモデルを使用してドキュメントを分析する必要があります。 このようなシナリオには、ユーザーがドキュメントをアップロードしたものの、ドキュメントの種類が明示的に不明な場合が含まれます。 別のシナリオとして、処理のために複数のドキュメントが単一のファイルにまとめてスキャンされ、送信される場合があります。 アプリケーションでは、コンポーネント ドキュメントを識別し、各ドキュメントに最適なモデルを選択する必要があります。

以前のバージョンでは、model compose 操作によって暗黙的な分類が実行され、送信されたドキュメントを最もよく表すカスタム モデルが決定されました。 2024-07-31-preview における model compose 操作の実装は、以前のバージョンでの暗黙的な分類を明示的な分類ステップに置き換え、条件付きルーティングを追加します。

新しいモデル作成操作の利点

新しい model compose 操作では、明示的な分類子をトレーニングする必要があり、これにはいくつかの利点があります。

  • 継続的かつ漸進的な改善。 サンプルを追加し、分類を継続的に改善することで、分類子の品質を一貫して向上させることができます。 この微調整により、ドキュメントが抽出に適したモデルに常にルーティングされるようになります。

  • ルーティングの完全な制御。 信頼度ベースのルーティングを追加することで、ドキュメントの種類と分類応答の信頼度しきい値を指定します。

  • 操作中にドキュメント固有のドキュメント種類を無視model compose 操作の以前の実装では、最も高い信頼度スコアが比較的低い場合でも、信頼度スコアに基づいて抽出に最適な分析モデルが選択されました。 信頼度しきい値を指定するか、分類から抽出モデルへの既知の文書タイプのマッピングを明示的に行わないことで、特定のドキュメントの種類を無視できます。

  • 同じドキュメント種類の複数のインスタンスを分析。 分類子の splitMode オプションと組み合わせて使用すると、model compose 操作では、ファイル内の同じドキュメントの複数のインスタンスを検出し、ファイルを分割して各ドキュメントを個別に処理できます。 splitMode を使用すると、単一の要求でドキュメントの複数のインスタンスを処理できます。

  • アドオン機能のサポート。 クエリ フィールドやバーコードなどのアドオン機能では、分析モデル パラメーターの一部として指定することもできます。

  • 割り当てられたカスタム モデルの最大数が 500 に拡張model compose 操作の新しい実装により、単一の作成済みモデルに最大 500 個のトレーニング済みカスタム モデルを割り当てることができます。

モデル作成の使用方法

  • まず、抽出または無視する必要がある情報を含む、必要なすべてのドキュメントのサンプルを収集します。

  • 文書を、その名前が作成済みモデル定義で使用するドキュメントの種類であるフォルダに整理して、分類子をトレーニングします。

  • 最後に、使用するドキュメントの種類ごとに抽出モデルをトレーニングします。

  • 分類モデルと抽出モデルをトレーニングした後、Document Intelligence Studio、クライアント ライブラリ、または REST API を使用して、分類モデルと抽出モデルを作成済みモデルに合成します。

splitMode パラメーターを使用して、ファイル分割の動作を制御します。

  • なし。 ファイル全体が単一のドキュメントとして扱われます。
  • perPage。 ファイル内の各ページは、個別のドキュメントとして扱われます。
  • Auto。ファイルは自動的にドキュメントに分割されます。

課金と価格

作成済みモデルは、個々のカスタム モデルと同じように課金されます。 価格は、ダウンストリーム分析モデルによって分析されたページの数に基づきます。 課金は、抽出モデルにルーティングされたページの抽出価格に基づきます。 明示的な分類が追加されると、入力ファイル内のすべてのページの分類に対して料金が発生します。 詳細については、Document Intelligence の価格ページについての記事を参照してください。

モデル作成の使用

  • まず、作成するすべてのモデル ID の一覧を、単一のモデルに作成します。

  • Studio、REST API、またはクライアント ライブラリを使用して、モデルを 1 つのモデル ID に合成します。

  • 作成されたモデル ID を使用してドキュメントを分析します。

請求

作成済みモデルは、個々のカスタム モデルと同じように課金されます。 価格は、分析されたページ数に基づいています。 課金は、抽出モデルにルーティングされたページの抽出価格に基づきます。 詳細については、Document Intelligence の価格ページについての記事を参照してください。

  • 個々のカスタム モデルまたは作成されたカスタム モデルを使用してドキュメントを分析するための価格に変更はありません。

作成済みモデルの機能

  • Custom template モデルと custom neural モデルは、複数の API バージョンにわたって、単一の作成済みモデルにまとめて合成できます。

  • 応答には、ドキュメントの分析に使用された作成済みモデルを示す docType プロパティが含まれます。

  • custom template モデルの場合、作成済みモデルは、カスタム テンプレートのバリエーションまたはさまざまなフォームの種類を使用して作成できます。 この操作は、受信フォームが複数のテンプレートのいずれかに属している場合に便利です。

  • custom neural モデルのベスト プラクティスは、1 つのドキュメントの種類のさまざまなバリエーションすべてを 1 つのトレーニング データセットに追加し、カスタム ニューラル モデルでトレーニングすることです。 model compose 操作は、さまざまな種類のドキュメントを分析用に送信するシナリオに最適です。

Compose モデルの制限

  • model compose 操作では、500 個までのモデルを単一のモデル ID に割り当てることができます。 作成したいモデルの数が作成済みモデルの上限を超えている場合は、これらの代替手段のいずれかを使用できます。

  • 作成済みモデルを使用したドキュメントの分析は、1 つのモデルを使用したドキュメントの分析と同じです。 Analyze Document の結果では、ドキュメントを分析するためにどちらのコンポーネント モデルを選択したかを示す docType プロパティが返されます。

  • model compose 操作は現在、ラベルを使用してトレーニングするカスタム モデルでのみ使用できます。

作成済みモデルの互換性

カスタム モデルの種類 v2.1 および v2.0 でトレーニングされたモデル カスタム テンプレートモデルとニューラル モデル v3.1 および v3.0 カスタム テンプレートとニューラル モデル v4.0 プレビュー カスタム生成モデル v4.0 プレビュー
バージョン 2.1 および v2.0 でトレーニングされたモデル サポートされていません サポートされていません サポートされていません サポートされていません
カスタム テンプレートモデルとニューラル モデル v3.0 および v3.1 サポートされていません サポートされています サポート対象 サポートされていません
カスタム テンプレートとニューラル モデル v4.0 プレビュー サポートされていません サポートされています サポート対象 サポートされていません
カスタム生成モデル v4.0 プレビュー サポートされていません サポートされていません サポートされていません サポートされていません
  • 以前のバージョンの API (v2.1 以前) でトレーニングされたモデルを作成するには、同じラベル付きデータセットを使って v3.0 API でモデルをトレーニングします。 この追加により、v2.1 モデルを他のモデルで作成できるようになります。

  • API の v2.1 を使用して作成されたモデルは引き続きサポートされ、更新は必要ありません。

開発オプション

Document Intelligence v4.0:2024-07-31-preview では、次のツール、アプリケーション、ライブラリがサポートされています。

機能 リソース
カスタム モデル ドキュメントインテリジェンススタジオ
REST API
C# SDK
Java SDK
JavaScript SDK
Python SDK
"作成済みモデル" ドキュメントインテリジェンススタジオ
REST API
C# SDK
Java SDK
JavaScript SDK
Python SDK

ドキュメント インテリジェンス v3.1:2023-07-31 (GA) では、次のツール、アプリケーション、ライブラリがサポートされます:

機能 リソース
カスタム モデル ドキュメントインテリジェンススタジオ
REST API
C# SDK
Java SDK
JavaScript SDK
Python SDK
"作成済みモデル" ドキュメントインテリジェンススタジオ
REST API
C# SDK
Java SDK
JavaScript SDK
Python SDK

ドキュメント インテリジェンス v3.0:2022-08-31 (GA) では、次のツール、アプリケーション、およびライブラリがサポートされます:

機能 リソース
カスタム モデル ドキュメントインテリジェンススタジオ
REST API
C# SDK
Java SDK
JavaScript SDK
Python SDK
"作成済みモデル" ドキュメントインテリジェンススタジオ
REST API
C# SDK
Java SDK
JavaScript SDK
Python SDK

Document Intelligence v2.1 では、次のリソースがサポートされています。

機能 リソース
カスタム モデル ドキュメント インテリジェンスラベル付けツール
REST API
クライアント ライブラリ SDK
ドキュメント インテリジェンス Docker コンテナー
"作成済みモデル" ドキュメントインテリジェンススタジオ
REST API
C# SDK
Java SDK
• JavaScript SDK
Python SDK

次のステップ

カスタム モデルの作成について学習します。