Document Intelligence コントラクト モデル
重要
- Document Intelligence パブリック プレビュー リリースは、開発中の機能への早期アクセスを提供します。 機能、アプローチ、およびプロセスは、一般提供 (GA) の前に、ユーザーからのフィードバックに基づいて変更される可能性があります。
- Document Intelligence クライアント ライブラリのパブリック プレビュー バージョンは、REST API バージョン 2024-07-31-preview にデフォルトで設定されています。
- パブリック プレビュー バージョン 2024-07-31-preview は、現在、次の Azure リージョンでのみ使用できます。 AI Studio のカスタム生成 (ドキュメント フィールド抽出) モデルは、米国中北部リージョンでのみ使用できます。
- 米国東部
- 米国西部 2
- "西ヨーロッパ"
- 米国中北部
このコンテンツの適用対象: v4.0 (プレビュー) | 以前のバージョン: v3.1 (GA)
このコンテンツの適用対象: v3.1 (GA) | 最新バージョン: v4.0 (プレビュー)
Document Intelligence コントラクト モデルでは、高性能の光学式文字認識 (OCR) 機能を使用して、重要なコントラクト エンティティの選択したグループから主要なフィールドと明細を分析および抽出します。 電話でキャプチャされた画像、スキャンされたドキュメント、デジタル PDF など、さまざまな形式や品質のコントラクトを使用できます。 API は、関係者、管轄区域、コントラクト ID、役職などの重要な情報を抽出し、構造化された JSON データ表現を返して、ドキュメント テキストを分析します。 このモデルでは現在、英語のドキュメント形式がサポートされています。
契約の自動処理
契約の自動処理は、ドキュメントから重要な契約フィールドを抽出するプロセスです。 これまで、契約分析プロセスは手動で行われてきたため、非常に時間がかかっていました。 契約書からキー データを正確に抽出することは、通常、契約書の自動化プロセスの最も重要な手順の 1 つです。
開発オプション
Document Intelligence v4.0 (2024-07-31-preview) は、次のツール、アプリケーション、ライブラリをサポートします。
機能 | リソース | モデル ID |
---|---|---|
コントラクト モデル | • ドキュメントインテリジェンススタジオ • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
事前構築済みコントラクト |
ドキュメント インテリジェンス v3.1 では、次のツール、アプリケーション、およびライブラリがサポートされています:
機能 | リソース | モデル ID |
---|---|---|
コントラクト モデル | • ドキュメントインテリジェンススタジオ • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
事前構築済みコントラクト |
ドキュメント インテリジェンス v3.0 では、次のツール、アプリケーション、およびライブラリがサポートされています:
機能 | リソース | モデル ID |
---|---|---|
コントラクト モデル | • ドキュメントインテリジェンススタジオ • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
事前構築済みコントラクト |
入力の要件
サポートされているファイル形式:
モデル PDF 画像: JPEG/JPG
、PNG
、BMP
、TIFF
、HEIF
Microsoft Office:
Word (DOCX
)、Excel (XLSX
)、PowerPoint (PPTX
)、HTML読み込み ✔ ✔ ✔ Layout ✔ ✔ ✔ (2024-07-31-preview、2024-02-29-preview、2023-10-31-preview) 一般的なドキュメント ✔ ✔ 事前構築済み ✔ ✔ カスタム抽出 ✔ ✔ カスタム分類 ✔ ✔ ✔ (2024-07-31-preview、2024-02-29-preview) 最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを提供してください。
PDF および TIFF の場合、最大 2,000 ページを処理できます (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。
ドキュメントを分析するためのファイル サイズは、有料 (S0) レベルでは 500 MB、無料 (F0) レベルでは
4
MB です。画像のディメンションは、50 ピクセル x 50 ピクセルから 10,000 ピクセル x 10,000 ピクセルの間である必要があります。
PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。
抽出するテキストの最小の高さは、1024 x 768 ピクセルのイメージの場合は 12 ピクセルです。 このディメンションは、150 DPI (1 インチあたりのドット数) で約
8
ポイントのテキストに相当します。カスタム モデル トレーニングにおけるトレーニング データの最大ページ数は、カスタム テンプレート モデルの場合は 500、カスタム ニューラル モデルの場合は 50,000 です。
カスタム抽出モデル トレーニングにおけるトレーニング データの合計サイズは、テンプレート モデルの場合は 50 MB、ニューラル モデルの場合は
1
GB です。カスタム分類モデル トレーニングの場合、トレーニング データの合計サイズは
1
GB で、最大 10,000 ページです。 2024-07-31-preview 以降では、トレーニング データの合計サイズは2
GB で、最大 10,000 ページです。
コントラクト ドキュメントのデータ抽出を試す
顧客情報、ベンダーの詳細、品目などのデータが契約書からどのように抽出されるかをご覧ください。 以下のリソースが必要です。
Azure サブスクリプション—無料で作成できます。
Azure portal の Document Intelligence Studio インスタンス。 Free 価格レベル (
F0
) を利用して、サービスを試用できます。 リソースがデプロイされたら、[リソースに移動] を選択してキーとエンドポイントを取得します。
Document Intelligence Studio
Document Intelligence Studio ホーム ページで、[税務書類] を選択します。
サンプルの税務書類を分析したり、独自のファイルをアップロードしたりできます。
分析実行 ボタンを選択し、必要に応じて 分析オプション を構成します:
サポートされている言語とロケール
サポートされているすべての言語のリストについては、言語サポート - 事前構築済みモデルに関するページを "参照してください"。
フィールドの抽出
サポートされているドキュメント抽出フィールドについては、GitHub サンプル リポジトリのコントラクト モデル スキーマに関するページを参照してください。
抽出された契約書のキーと値のペアと品目は、JSON 出力の
documentResults
セクションにあります。
次のステップ
Document Intelligence Studio を使用して独自のフォームとドキュメントの処理を試す。
Document Intelligence クイックスタートを完了し、選択した開発言語でドキュメント処理アプリの作成を開始します。