Document Intelligence 結婚証明書モデル

このコンテンツの適用対象: checkmark v4.0 (プレビュー) checkmark

Document Intelligence 結婚証明書モデルでは、強力な光学式文字認識 (OCR) 機能を使用して、結婚証明書の主要なフィールドを分析して抽出します。 携帯電話でキャプチャされた画像、スキャンされたドキュメント、デジタル PDF など、さまざまな形式や品質の結婚証明書を使用できます。 API によってドキュメントのテキストが分析され、配偶者の名前、発行日、結婚場所などの主要な情報が抽出されて、構造化された JSON データ表現が返されます。 このモデルでは現在、英語のドキュメント形式がサポートされています。

結婚証明書の自動処理

結婚証明書の自動処理は、結婚証明書から主要なフィールドを抽出するプロセスです。 これまで、結婚証明書の分析プロセスは手動で行われてきたため、非常に時間がかかっていました。 結婚証明書からキー データを正確に抽出することは、通常、結婚証明書の自動化プロセスの最初に行われる最も重要な手順の 1 つです。

開発オプション

Document Intelligence v4.0 (2024-07-31-preview) は、次のツール、アプリケーション、ライブラリをサポートします。

機能 リソース モデル ID
prebuilt-marriageCertificate.us Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
prebuilt-marriageCertificate.us

入力の要件

  • サポートされているファイル形式:

    モデル PDF 画像:
    JPEG/JPGPNGBMPTIFFHEIF
    Microsoft Office:
    Word (DOCX)、Excel (XLSX)、PowerPoint (PPTX)、HTML
    読み込み
    Layout ✔ (2024-07-31-preview、2024-02-29-preview、2023-10-31-preview)
    一般的なドキュメント
    事前構築済み
    カスタム抽出
    カスタム分類 ✔ (2024-07-31-preview、2024-02-29-preview)
  • 最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを提供してください。

  • PDF および TIFF の場合、最大 2,000 ページを処理できます (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。

  • ドキュメントを分析するためのファイル サイズは、有料 (S0) レベルでは 500 MB、無料 (F0) レベルでは 4 MB です。

  • 画像のディメンションは、50 ピクセル x 50 ピクセルから 10,000 ピクセル x 10,000 ピクセルの間である必要があります。

  • PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。

  • 抽出するテキストの最小の高さは、1024 x 768 ピクセルのイメージの場合は 12 ピクセルです。 このディメンションは、150 DPI (1 インチあたりのドット数) で約 8 ポイントのテキストに相当します。

  • カスタム モデル トレーニングにおけるトレーニング データの最大ページ数は、カスタム テンプレート モデルの場合は 500、カスタム ニューラル モデルの場合は 50,000 です。

    • カスタム抽出モデル トレーニングにおけるトレーニング データの合計サイズは、テンプレート モデルの場合は 50 MB、ニューラル モデルの場合は 1 GB です。

    • カスタム分類モデル トレーニングの場合、トレーニング データの合計サイズは 1 GB で、最大 10,000 ページです。 2024-07-31-preview 以降の場合、トレーニング データの合計サイズは 2 GB で、最大 10,000 ページです。

結婚証明書ドキュメント データの抽出を試みる

結婚証明書カード サービスのデータ抽出のしくみを確認するには、次のリソースが必要です。

Azure portal のキーとエンドポイントの場所のスクリーンショット。

Document Intelligence Studio

  1. Document Intelligence Studio ホーム ページで、[Marriage Certificate] (結婚証明書) を選択します。

  2. サンプルの結婚証明書を分析したり、自身のファイルをアップロードしたりできます。

  3. 分析実行 ボタンを選択し、必要に応じて 分析オプション を構成します:

    Document Intelligence Studio の [分析の実行] と [分析オプション] ボタンのスクリーンショット。

サポートされている言語とロケール

サポートされている言語の全一覧については、事前構築済みモデルの言語サポートのページを参照してください。

フィールドの抽出

  • サポートされているドキュメント抽出フィールドについては、GitHub サンプル リポジトリ内の結婚証明書モデル スキーマのページを参照してください。

  • 抽出された結婚証明書のキーと値のペアと行項目は、JSON 出力の documentResults セクションにあります。

次のステップ