OCR - 光学式文字認識

[アーティクル]
10/21/2024

OCR または光学式文字認識は、テキスト認識またはテキスト抽出とも呼ばれます。機械学習ベースの OCR 手法を使用すると、ポスター、道路標識、製品ラベルなどの画像や、記事、レポート、フォーム、請求書などのドキュメントから、印刷されたテキストまたは手書きのテキストを抽出できます。通常、テキストは単語、テキスト行、段落またはテキストブロックとして抽出され、スキャンされたテキストのデジタルバージョンにアクセスできます。これにより、手動データ入力の必要性が不要になるか大幅に軽減されます。

OCR エンジン

Microsoft の Read OCR エンジンは、グローバル言語をサポートする複数の高度な機械学習ベースのモデルで作成されています。これにより、言語や文章の書き方が混在している場合も含め、印刷されたテキストと手書きテキストを抽出できます。 Read は、柔軟にデプロイできるよう、クラウドサービスとオンプレミスコンテナーとして利用できます。また、ドキュメント以外の単一のイメージのみのシナリオ用の同期 API としても利用でき、OCR 支援ユーザーエクスペリエンスを簡単に実装できるようにパフォーマンスが強化されています。

警告

Azure AI Vision のレガシの OCR API (v3.2) および RecognizeText API (v2.1) 操作の使用は推奨されていません。

OCR (Read) エディション

重要

要件に最も適した Read エディションを選択します。

入力	例	Read のエディション	特長
画像: 一般に出回っている画像	ラベル、道路標識、ポスター	画像の OCR (バージョン 4.0)	OCR をユーザーエクスペリエンスシナリオに簡単に埋め込むことができる、パフォーマンスが向上した同期 API を使用して、ドキュメント以外の一般的な画像用に最適化されています。
ドキュメント: デジタルとスキャン (画像を含む)	書籍、記事、レポート	Document Intelligence 読み取りモデル	インテリジェントなドキュメント処理を大規模に自動化するために、非同期 API を使用してテキストの量が多いスキャンおよびデジタルドキュメント用に最適化されています。

Azure AI Vision v3.2 GA Read について

最新の Azure AI Vision v3.2 GA Read をお探しですか? 今後のすべての OCR の読み取り拡張機能は、前述の 2 つのサービスの一部です。 Azure AI Vision v3.2 に対する更新はこれ以上ありません。詳細については、「Azure AI Vision 3.2 GA Read API の呼び出し」と「クイックスタート: Azure AI Vision v3.2 GA Read」を参照してください。

インテリジェントドキュメント処理 (IDP) は、OCR を基盤技術として使用して、Document Intelligence などの高度な機械学習ベースの AI サービスを使用して、構造、リレーションシップ、キー値、エンティティ、およびその他のドキュメント中心の分析情報をさらに抽出します。 Document Intelligence には、ドキュメント最適化バージョンの Read が OCR エンジンとして含まれる一方で、より高度な分析情報は他のモデルに委任されます。スキャンされたドキュメントやデジタルドキュメントからテキストを抽出する場合は、Document Intelligence Read OCR を使います。

OCR の使用方法

Vision Studio を使って OCR を試してください。次に、要件を最も適切に満たす、Read エディションへのリンクのいずれかに従います。

Vision Studio を試す

スクリーンショット: Vision Studio での Read OCR のデモ。

OCR でサポートされている言語

Azure AI Vision で現在利用できる両方の Read バージョンでは、印刷テキストと手書きテキストについて複数の言語がサポートされています。印刷テキスト用の OCR には、英語、フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語、中国語、日本語、韓国語、ロシア語、アラビア語、ヒンディー語、およびラテン文字、キリル文字、アラビア文字、デーバナーガリー文字を使用する他の世界中の言語のサポートが含まれます。手書きテキスト用の OCR には、英語、簡体中国語、フランス語、ドイツ語、イタリア語、日本語、韓国語、ポルトガル語、スペイン語のサポートが含まれます。

[OCR でサポートされている言語](./language-support.md#optical-character-recognition-ocr)の完全な一覧を参照してください。

OCR の共通機能

Read OCR モデルは、Azure AI Vision と Document Intelligence で利用でき、一般的なベースライン機能を備えながら、それぞれのシナリオに合わせて最適化されています。一般的な機能を次に示します。

サポートされる言語での印刷テキストと手書きテキストの抽出
ページ、テキスト行、単語および位置と信頼度のスコア
混合言語、混合モード (印刷と手書き) のサポート
オンプレミスデプロイには Distroless Docker コンテナーとして利用可能

OCR クラウド API の使用またはオンプレミスへのデプロイ

クラウド API は、統合が簡単で、すぐに生産性を上げることができるため、ほとんどのお客様にとって推奨される選択肢です。 Azure と Azure AI Vision サービスがスケール、パフォーマンス、データセキュリティ、コンプライアンスのニーズに対応する一方で、お客様は顧客のニーズを満たすことに集中できます。

オンプレミスへのデプロイの場合は、Read Docker コンテナーを使用し、Azure AI Vision v3.2 の一般提供の OCR 機能を専用のローカル環境にデプロイできます。コンテナーは、特定のセキュリティ要件とデータガバナンス要件に適しています。

入力の要件

Read API により、画像とドキュメントが入力として取得されます。画像とドキュメントは、次の要件を満たしている必要があります。

サポートされているファイル形式は JPEG、PNG、BMP、PDF、TIFF です。
PDF ファイルと TIFF ファイルの場合は、最大 2,000 ページ (Free レベルの場合は最初の 2 ページのみ) が処理されます。
画像のファイルサイズは 500 MB 未満 (Free レベルの場合は 4 MB) であり、寸法は 50 x 50 ピクセル以上 10,000 x 10,000 ピクセル以下にする必要があります。 PDF ファイルにはサイズ制限がありません。
抽出するテキストの最小高は、1024 x 768 イメージに対して 12 ピクセルです。これは、150 DPI で約 8 ポイントのフォントテキストに相当します。

Note

テキスト行の画像をトリミングする必要はありません。画像全体を Read API に送信すると、すべてのテキストが認識されます。

OCR のデータプライバシーとセキュリティ

Azure AI サービス全般に言えることですが、Azure AI Vision サービスを使用する開発者は、顧客データに関する Microsoft のポリシーに留意する必要があります。詳細については、Microsoft Trust Center の Azure AI サービスページを参照してください。

次の手順

一般的な (ドキュメント以外の) 画像の OCR: Azure AI Vision 4.0 プレビュー Image Analysis REST API のクイックスタートをお試しください。
PDF、Office と HTML のドキュメント、ドキュメント画像の OCR: Document Intelligence Read で始めてください。
以前の GA バージョンをお探しですか? Azure AI Vision 3.2 GA SDK または REST API のクイックスタートをご覧ください。

次の方法で共有

OCR - 光学式文字認識

OCR エンジン

OCR (Read) エディション

OCR の使用方法

OCR でサポートされている言語

OCR の共通機能

OCR クラウド API の使用またはオンプレミスへのデプロイ

入力の要件

OCR のデータプライバシーとセキュリティ

次の手順

フィードバック

その他のリソース

次の方法で共有

OCR - 光学式文字認識

OCR エンジン

OCR (Read) エディション

OCR とインテリジェント ドキュメント処理 (IDP) の関連

OCR の使用方法

OCR でサポートされている言語

OCR の共通機能

OCR クラウド API の使用またはオンプレミスへのデプロイ

入力の要件

OCR のデータ プライバシーとセキュリティ

次の手順

フィードバック

その他のリソース

OCR とインテリジェントドキュメント処理 (IDP) の関連

OCR のデータプライバシーとセキュリティ