Document Intelligence 領収書モデル
重要
- Document Intelligence パブリック プレビュー リリースは、開発中の機能への早期アクセスを提供します。 機能、アプローチ、およびプロセスは、一般提供 (GA) の前に、ユーザーからのフィードバックに基づいて変更される可能性があります。
- Document Intelligence クライアント ライブラリのパブリック プレビュー バージョンは、REST API バージョン 2024-07-31-preview にデフォルトで設定されています。
- パブリック プレビュー バージョン 2024-07-31-preview は、現在、次の Azure リージョンでのみ使用できます。 AI Studio のカスタム生成 (ドキュメント フィールド抽出) モデルは、米国中北部リージョンでのみ使用できます。
- 米国東部
- 米国西部 2
- "西ヨーロッパ"
- 米国中北部
このコンテンツの適用対象: v4.0 (プレビュー) | 以前のバージョン: v3.1 (GA) v3.0 (GA) v2.1 (GA)
このコンテンツの適用対象: v3.1 (GA) | 最新バージョン: v4.0 (プレビュー) | 以前のバージョン: v3.0 v2.1
このコンテンツの適用対象: v3.0 (GA) | 最新バージョン: v4.0 (プレビュー) v3.1 | 以前のバージョン: v2.1
このコンテンツの適用対象: v2.1 | 最新バージョン: v4.0 (プレビュー)
Document Intelligence 領収書モデルでは、強力な光学式文字認識 (OCR) 機能と、ディープ ラーニング モデルを組み合わせて、領収書を分析し、領収書から重要な情報を抽出します。 領収書には、印刷されたレシートや手書きの領収書など、さまざまな形式や品質のものが存在します。 API によって、業者名、業者の電話番号、取引日、税金、取引合計などの主要な情報が抽出されて、構造化された JSON データが返されます。
サポートされている領収書の種類:
- Thermal
- クレジット カード
- Gas
- 駐車場
- 宿泊
- 輸送業
- 通信
- エンターテイメント
- 航空券
- トレーニング
- 薬局/医療機関
領収書データの抽出
領収書のデジタル化には、さまざまな種類の領収書 (スキャンされたもの、写真、印刷されたコピーなど) を、効率的なダウンストリーム処理用にデジタル形式に変換する作業が含まれます。 たとえば、経費管理、コンシューマーの行動分析、税の自動化などがあります。OCR (光学式文字認識) テクノロジを備えた Document Intelligence を使用すると、こうしたさまざまな形式の領収書からデータを抽出し解釈することができます。 Document Intelligence 処理により変換プロセスが簡素化されるだけでなく、必要な時間と作業量が大幅に少なくなるため、効率的なデータ管理と取得が促されます。
Document Intelligence Studio を使用して処理された領収書のサンプル:
Document Intelligence サンプル ラベル付けツールで処理された請求書のサンプル:
開発オプション
Document Intelligence v4.0 (2024-07-31-preview) は、次のツール、アプリケーション、ライブラリをサポートします。
機能 | リソース | モデル ID |
---|---|---|
レシート モデル | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
prebuilt-receipt |
Document Intelligence v3.1 では、次のツール、アプリケーション、ライブラリがサポートされています。
機能 | リソース | モデル ID |
---|---|---|
レシート モデル | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
prebuilt-receipt |
ドキュメント インテリジェンス v3.0 では、次のツール、アプリケーション、およびライブラリがサポートされています:
機能 | リソース | モデル ID |
---|---|---|
レシート モデル | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
prebuilt-receipt |
Document Intelligence v2.1 では、次のツール、アプリケーション、ライブラリがサポートされています。
機能 | リソース |
---|---|
レシート モデル | • Document Intelligence ラベル付けツール • REST API • クライアント ライブラリ SDK • Document Intelligence Docker コンテナー |
入力の要件
サポートされているファイル形式:
モデル PDF 画像: JPEG/JPG
、PNG
、BMP
、TIFF
、HEIF
Microsoft Office:
Word (DOCX
)、Excel (XLSX
)、PowerPoint (PPTX
)、HTML読み込み ✔ ✔ ✔ Layout ✔ ✔ ✔ (2024-07-31-preview、2024-02-29-preview、2023-10-31-preview) 一般的なドキュメント ✔ ✔ 事前構築済み ✔ ✔ カスタム抽出 ✔ ✔ カスタム分類 ✔ ✔ ✔ (2024-07-31-preview、2024-02-29-preview) 最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを提供してください。
PDF および TIFF の場合、最大 2,000 ページを処理できます (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。
ドキュメントを分析するためのファイル サイズは、有料 (S0) レベルでは 500 MB、無料 (F0) レベルでは
4
MB です。画像のディメンションは、50 ピクセル x 50 ピクセルから 10,000 ピクセル x 10,000 ピクセルの間である必要があります。
PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。
抽出するテキストの最小の高さは、1024 x 768 ピクセルのイメージの場合は 12 ピクセルです。 このディメンションは、150 DPI (1 インチあたりのドット数) で約
8
ポイントのテキストに相当します。カスタム モデル トレーニングにおけるトレーニング データの最大ページ数は、カスタム テンプレート モデルの場合は 500、カスタム ニューラル モデルの場合は 50,000 です。
カスタム抽出モデル トレーニングにおけるトレーニング データの合計サイズは、テンプレート モデルの場合は 50 MB、ニューラル モデルの場合は
1
GB です。カスタム分類モデル トレーニングの場合、トレーニング データの合計サイズは
1
GB で、最大 10,000 ページです。 2024-07-31-preview 以降の場合、トレーニング データの合計サイズは2
GB で、最大 10,000 ページです。
- サポートされているファイル形式: JPEG、PNG、PDF、TIFF。
- PDF と TIFF でサポートされているページ許容量: Document Intelligence では、Standard レベルのサブスクライバーの場合は最大 2,000 ページ、Free レベルのサブスクライバーの場合は最初の 2 ページのみを処理できます。
- サポートされるファイル サイズ: 50 MB 未満、最小ピクセル数: 50 x 50 px、最大ピクセル数: 10,000 x 10,000 px。
領収書モデル データの抽出
Document Intelligence によって、データ (トランザクションの日時、マーチャント情報、合計金額など) を領収書から抽出する方法について確認します。 以下のリソースが必要です。
Azure サブスクリプション—無料で作成できます。
Azure portal の Document Intelligence Studio インスタンス。 Free 価格レベル (
F0
) を利用して、サービスを試用できます。 リソースがデプロイされたら、[リソースに移動] を選択してキーとエンドポイントを取得します。
Note
ドキュメント インテリジェンス スタジオは、v3.1 および v3.0 API 以降のバージョンで使用できます。
Document Intelligence Studio ホーム ページで、[領収書] を選択します。
サンプル レシートを分析したり、独自のファイルをアップロードしたりできます。
分析実行 ボタンを選択し、必要に応じて 分析オプション を構成します:
ドキュメント インテリジェンス サンプル ラベル付けツール
サンプル ツールのホーム ページで、[事前構築済みモデルを使用してデータを取得する] タイルを選択します。
ドロップダウン メニューから、分析する [フォームの種類] を選択します。
次のオプションを使用して、分析するファイルの URL を選択します。
[ソース] フィールドで、ドロップダウン メニューから [URL] を選択し、選択した URL を貼り付けて、[フェッチ] ボタンを選択します。
[Document Intelligence サービス エンドポイント] フィールドに、Document Intelligence サブスクリプションで取得したエンドポイントを貼り付けます。
[キー] フィールドに、Document Intelligence リソースから取得したキーを貼り付けます。
[Run analysis](解析の実行) を選択します。 Document Intelligence サンプル ラベル付けツールは、Analyze Prebuilt API を呼び出してドキュメントを分析します。
結果を表示する - 抽出されたキーと値のペア、行項目、抽出された強調表示テキスト、および検出されたテーブルを確認します。
Note
サンプル ラベル付けツールでは、BMP ファイル形式はサポートされていません。 これは、Document Intelligence サービスではなくツールの制限です。
サポートされている言語とロケール
サポートされている言語の全一覧については、事前構築済みモデルの言語サポートのページを参照してください。
フィールドの抽出
名前 | 種類 | 説明 | 標準化された出力 |
---|---|---|---|
ReceiptType | String | 販売レシートの種類 | Itemized |
MerchantName | String | レシートを発行しているマーチャントの名前 | |
MerchantPhoneNumber | phoneNumber | マーチャントの電話番号の一覧 | +1 xxx xxx xxxx |
MerchantAddress | String | マーチャントの住所の一覧 | |
TransactionDate | Date | レシートが発行された日付 | yyyy-mm-dd |
TransactionTime | Time | レシートが発行された時刻 | hh-mm-ss (24 時間) |
合計 | 数値 (米国ドル) | レシートの取引合計額 | 小数点以下 2 桁の浮動小数点数 |
小計 | 数値 (米国ドル) | レシートの小計 (多くの場合、税金が適用される前) | 小数点以下 2 桁の浮動小数点数 |
税 | 数値 (米国ドル) | 領収書の税金合計 (多くの場合、消費税、またはそれに相当する税金) 2022-06-30 バージョンで "TotalTax" に名前が変更されました。 | 小数点以下 2 桁の浮動小数点数 |
ヒント | 数値 (米国ドル) | 購入者によって追加されたチップ | 小数点以下 2 桁の浮動小数点数 |
項目 | オブジェクトの配列 | 抽出された品目 (名前、数量、単価、および合計価格) | |
名前 | String | 項目の説明。 2022-06-30 バージョンで "Description" に名前が変更されました。 | |
Quantity | Number | 各品目の数量 | 小数点以下 2 桁の浮動小数点数 |
価格 | 数値 | 各品目単位の個別価格 | 小数点以下 2 桁の浮動小数点数 |
TotalPrice | 数値 | 品目の合計価格 | 小数点以下 2 桁の浮動小数点数 |
サポートされているドキュメント抽出フィールドについては、GitHub サンプル リポジトリの領収書モデル スキーマに関するページを参照してください。
移行ガイドと REST API v3.1
- Document Intelligence v3.1 移行ガイドに従って、アプリケーションとワークフローで v3.1 バージョンを使用する方法について説明します。
次のステップ
Document Intelligence Studio を使用して独自のフォームとドキュメントの処理を試す。
Document Intelligence クイックスタートを完了し、選択した開発言語でドキュメント処理アプリの作成を開始します。
Document Intelligence サンプル ラベル付けツールを使用して独自のフォームとドキュメントの処理を試す。
Document Intelligence クイックスタートを完了し、選択した開発言語でドキュメント処理アプリの作成を開始します。