Document Intelligence コントラクトモデル

[アーティクル]
10/21/2024

重要

Document Intelligence パブリックプレビューリリースは、開発中の機能への早期アクセスを提供します。機能、アプローチ、およびプロセスは、一般提供 (GA) の前に、ユーザーからのフィードバックに基づいて変更される可能性があります。
Document Intelligence クライアントライブラリのパブリックプレビューバージョンは、REST API バージョン 2024-07-31-preview にデフォルトで設定されています。
パブリックプレビューバージョン 2024-07-31-preview は、現在、次の Azure リージョンでのみ使用できます。 AI Studio のカスタム生成 (ドキュメントフィールド抽出) モデルは、米国中北部リージョンでのみ使用できます。
- 米国東部
- 米国西部 2
- "西ヨーロッパ"
- 米国中北部

このコンテンツの適用対象: v4.0 (プレビュー) | 以前のバージョン: v3.1 (GA)

このコンテンツの適用対象: v3.1 (GA) | 最新バージョン: v4.0 (プレビュー)

Document Intelligence コントラクトモデルでは、高性能の光学式文字認識 (OCR) 機能を使用して、重要なコントラクトエンティティの選択したグループから主要なフィールドと明細を分析および抽出します。電話でキャプチャされた画像、スキャンされたドキュメント、デジタル PDF など、さまざまな形式や品質のコントラクトを使用できます。 API は、関係者、管轄区域、コントラクト ID、役職などの重要な情報を抽出し、構造化された JSON データ表現を返して、ドキュメントテキストを分析します。このモデルでは現在、英語のドキュメント形式がサポートされています。

契約の自動処理

契約の自動処理は、ドキュメントから重要な契約フィールドを抽出するプロセスです。これまで、契約分析プロセスは手動で行われてきたため、非常に時間がかかっていました。契約書からキーデータを正確に抽出することは、通常、契約書の自動化プロセスの最も重要な手順の 1 つです。

開発オプション

Document Intelligence v4.0 (2024-07-31-preview) は、次のツール、アプリケーション、ライブラリをサポートします。

機能	リソース	モデル ID
コントラクトモデル	• ドキュメントインテリジェンススタジオ • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	事前構築済みコントラクト

ドキュメントインテリジェンス v3.1 では、次のツール、アプリケーション、およびライブラリがサポートされています：

機能	リソース	モデル ID
コントラクトモデル	• ドキュメントインテリジェンススタジオ • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	事前構築済みコントラクト

ドキュメントインテリジェンス v3.0 では、次のツール、アプリケーション、およびライブラリがサポートされています：

機能	リソース	モデル ID
コントラクトモデル	• ドキュメントインテリジェンススタジオ • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	事前構築済みコントラクト

入力の要件

サポートされているファイル形式:

モデル	PDF	画像: `JPEG/JPG`、`PNG`、`BMP`、`TIFF`、`HEIF`	Microsoft Office: Word (`DOCX`)、Excel (`XLSX`)、PowerPoint (`PPTX`)、HTML
読み込み	✔	✔	✔
Layout	✔	✔	✔ (2024-07-31-preview、2024-02-29-preview、2023-10-31-preview)
一般的なドキュメント	✔	✔
事前構築済み	✔	✔
カスタム抽出	✔	✔
カスタム分類	✔	✔	✔ (2024-07-31-preview、2024-02-29-preview)

最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを提供してください。
PDF および TIFF の場合、最大 2,000 ページを処理できます (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。
ドキュメントを分析するためのファイルサイズは、有料 (S0) レベルでは 500 MB、無料 (F0) レベルでは 4 MB です。
画像のディメンションは、50 ピクセル　x 50 ピクセルから 10,000 ピクセル　x 10,000 ピクセルの間である必要があります。
PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。
抽出するテキストの最小の高さは、1024 x 768 ピクセルのイメージの場合は 12 ピクセルです。このディメンションは、150 DPI (1 インチあたりのドット数) で約 8 ポイントのテキストに相当します。
カスタムモデルトレーニングにおけるトレーニングデータの最大ページ数は、カスタムテンプレートモデルの場合は 500、カスタムニューラルモデルの場合は 50,000 です。
- カスタム抽出モデルトレーニングにおけるトレーニングデータの合計サイズは、テンプレートモデルの場合は 50 MB、ニューラルモデルの場合は 1 GB です。
- カスタム分類モデルトレーニングの場合、トレーニングデータの合計サイズは 1 GB で、最大 10,000 ページです。 2024-07-31-preview 以降では、トレーニングデータの合計サイズは 2 GB で、最大 10,000 ページです。

コントラクトドキュメントのデータ抽出を試す

顧客情報、ベンダーの詳細、品目などのデータが契約書からどのように抽出されるかをご覧ください。以下のリソースが必要です。

Azure サブスクリプション—無料で作成できます。
Azure portal の Document Intelligence Studio インスタンス。 Free 価格レベル (F0) を利用して、サービスを試用できます。リソースがデプロイされたら、[リソースに移動] を選択してキーとエンドポイントを取得します。

Azure portal のキーとエンドポイントの場所のスクリーンショット。

Document Intelligence Studio

Document Intelligence Studio ホームページで、[税務書類] を選択します。
サンプルの税務書類を分析したり、独自のファイルをアップロードしたりできます。
分析実行 ボタンを選択し、必要に応じて 分析オプション を構成します:

Document Intelligence Studio を試す

サポートされている言語とロケール

サポートされているすべての言語のリストについては、言語サポート - 事前構築済みモデルに関するページを "参照してください"。

フィールドの抽出

サポートされているドキュメント抽出フィールドについては、GitHub サンプルリポジトリのコントラクトモデルスキーマに関するページを参照してください。
抽出された契約書のキーと値のペアと品目は、JSON 出力の documentResults セクションにあります。

次のステップ

Document Intelligence Studio を使用して独自のフォームとドキュメントの処理を試す。
Document Intelligence クイックスタートを完了し、選択した開発言語でドキュメント処理アプリの作成を開始します。

次の方法で共有

Document Intelligence コントラクトモデル

契約の自動処理

開発オプション

入力の要件

コントラクトドキュメントのデータ抽出を試す

Document Intelligence Studio

サポートされている言語とロケール

フィールドの抽出

次のステップ

フィードバック

その他のリソース

次の方法で共有

Document Intelligence コントラクト モデル

契約の自動処理

開発オプション

入力の要件

コントラクト ドキュメントのデータ抽出を試す

Document Intelligence Studio

サポートされている言語とロケール

フィールドの抽出

次のステップ

フィードバック

その他のリソース

Document Intelligence コントラクトモデル

コントラクトドキュメントのデータ抽出を試す