OCR - 光学式文字認識
OCR または光学式文字認識は、テキスト認識またはテキスト抽出とも呼ばれます。 機械学習ベースの OCR 手法を使用すると、ポスター、道路標識、製品ラベルなどの画像や、記事、レポート、フォーム、請求書などのドキュメントから、印刷されたテキストまたは手書きのテキストを抽出できます。 通常、テキストは単語、テキスト行、段落またはテキスト ブロックとして抽出され、スキャンされたテキストのデジタル バージョンにアクセスできます。 これにより、手動データ入力の必要性が不要になるか大幅に軽減されます。
OCR エンジン
Microsoft の Read OCR エンジンは、グローバル言語をサポートする複数の高度な機械学習ベースのモデルで作成されています。 これにより、言語や文章の書き方が混在している場合も含め、印刷されたテキストと手書きテキストを抽出できます。 Read は、柔軟にデプロイできるよう、クラウド サービスとオンプレミス コンテナーとして利用できます。 また、ドキュメント以外の単一のイメージのみのシナリオ用の同期 API としても利用でき、OCR 支援ユーザー エクスペリエンスを簡単に実装できるようにパフォーマンスが強化されています。
警告
Azure AI Vision のレガシの OCR API (v3.2) および RecognizeText API (v2.1) 操作の使用は推奨されていません。
OCR (Read) エディション
重要
要件に最も適した Read エディションを選択します。
入力 | 例 | Read のエディション | 特長 |
---|---|---|---|
画像: 一般に出回っている画像 | ラベル、道路標識、ポスター | 画像の OCR (バージョン 4.0) | OCR をユーザー エクスペリエンス シナリオに簡単に埋め込むことができる、パフォーマンスが向上した同期 API を使用して、ドキュメント以外の一般的な画像用に最適化されています。 |
ドキュメント: デジタルとスキャン (画像を含む) | 書籍、記事、レポート | Document Intelligence 読み取りモデル | インテリジェントなドキュメント処理を大規模に自動化するために、非同期 API を使用してテキストの量が多いスキャンおよびデジタル ドキュメント用に最適化されています。 |
Azure AI Vision v3.2 GA Read について
最新の Azure AI Vision v3.2 GA Read をお探しですか? 今後のすべての OCR の読み取り拡張機能は、前述の 2 つのサービスの一部です。 Azure AI Vision v3.2 に対する更新はこれ以上ありません。 詳細については、「Azure AI Vision 3.2 GA Read API の呼び出し」と「クイック スタート: Azure AI Vision v3.2 GA Read」を参照してください。
OCR とインテリジェント ドキュメント処理 (IDP) の関連
インテリジェント ドキュメント処理 (IDP) は、OCR を基盤技術として使用して、Document Intelligence などの高度な機械学習ベースの AI サービスを使用して、構造、リレーションシップ、キー値、エンティティ、およびその他のドキュメント中心の分析情報をさらに抽出します。 Document Intelligence には、ドキュメント最適化バージョンの Read が OCR エンジンとして含まれる一方で、より高度な分析情報は他のモデルに委任されます。 スキャンされたドキュメントやデジタル ドキュメントからテキストを抽出する場合は、Document Intelligence Read OCR を使います。
OCR の使用方法
Vision Studio を使って OCR を試してください。 次に、要件を最も適切に満たす、Read エディションへのリンクのいずれかに従います。
OCR でサポートされている言語
Azure AI Vision で現在利用できる両方の Read バージョンでは、印刷テキストと手書きテキストについて複数の言語がサポートされています。 印刷テキスト用の OCR には、英語、フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語、中国語、日本語、韓国語、ロシア語、アラビア語、ヒンディー語、およびラテン文字、キリル文字、アラビア文字、デーバナーガリー文字を使用する他の世界中の言語のサポートが含まれます。 手書きテキスト用の OCR には、英語、簡体中国語、フランス語、ドイツ語、イタリア語、日本語、韓国語、ポルトガル語、スペイン語のサポートが含まれます。
OCR の共通機能
Read OCR モデルは、Azure AI Vision と Document Intelligence で利用でき、一般的なベースライン機能を備えながら、それぞれのシナリオに合わせて最適化されています。 一般的な機能を次に示します。
- サポートされる言語での印刷テキストと手書きテキストの抽出
- ページ、テキスト行、単語および位置と信頼度のスコア
- 混合言語、混合モード (印刷と手書き) のサポート
- オンプレミス デプロイには Distroless Docker コンテナーとして利用可能
OCR クラウド API の使用またはオンプレミスへのデプロイ
クラウド API は、統合が簡単で、すぐに生産性を上げることができるため、ほとんどのお客様にとって推奨される選択肢です。 Azure と Azure AI Vision サービスがスケール、パフォーマンス、データ セキュリティ、コンプライアンスのニーズに対応する一方で、お客様は顧客のニーズを満たすことに集中できます。
オンプレミスへのデプロイの場合は、Read Docker コンテナーを使用し、Azure AI Vision v3.2 の一般提供の OCR 機能を専用のローカル環境にデプロイできます。 コンテナーは、特定のセキュリティ要件とデータ ガバナンス要件に適しています。
入力の要件
Read API により、画像とドキュメントが入力として取得されます。 画像とドキュメントは、次の要件を満たしている必要があります。
- サポートされているファイル形式は JPEG、PNG、BMP、PDF、TIFF です。
- PDF ファイルと TIFF ファイルの場合は、最大 2,000 ページ (Free レベルの場合は最初の 2 ページのみ) が処理されます。
- 画像のファイル サイズは 500 MB 未満 (Free レベルの場合は 4 MB) であり、寸法は 50 x 50 ピクセル以上 10,000 x 10,000 ピクセル以下にする必要があります。 PDF ファイルにはサイズ制限がありません。
- 抽出するテキストの最小高は、1024 x 768 イメージに対して 12 ピクセルです。これは、150 DPI で約 8 ポイントのフォント テキストに相当します。
Note
テキスト行の画像をトリミングする必要はありません。 画像全体を Read API に送信すると、すべてのテキストが認識されます。
OCR のデータ プライバシーとセキュリティ
Azure AI サービス全般に言えることですが、Azure AI Vision サービスを使用する開発者は、顧客データに関する Microsoft のポリシーに留意する必要があります。 詳細については、Microsoft Trust Center の Azure AI サービス ページを参照してください。
次の手順
- 一般的な (ドキュメント以外の) 画像の OCR: Azure AI Vision 4.0 プレビュー Image Analysis REST API のクイックスタートをお試しください。
- PDF、Office と HTML のドキュメント、ドキュメント画像の OCR: Document Intelligence Read で始めてください。
- 以前の GA バージョンをお探しですか? Azure AI Vision 3.2 GA SDK または REST API のクイックスタートをご覧ください。