OCR — оптическое распознавание символов

Статья
10/17/2024

OCR или оптическое распознавание символов также называется распознаванием текста или извлечением текста. Методы OCR на основе машинного обучения позволяют извлекать печатный или рукописный текст из изображений, таких как плакаты, уличные знаки и метки продуктов, а также из документов, таких как статьи, отчеты, формы и счета. Как правило, текст извлекается как слова, текстовые строки и абзацы или текстовые блоки, что позволяет получить доступ к цифровой версии сканированного текста. Это устраняет или значительно сокращает потребность в вводе данных вручную.

Подсистема OCR

Модуль OCR для чтения Майкрософт состоит из нескольких расширенных моделей на основе машинного обучения, поддерживающих глобальные языки. Он может извлекать печатный и рукописный текст, включая смешанные языки и стили написания. Чтение доступно как облачная служба и локальный контейнер для гибкости развертывания. Кроме того, он доступен в виде синхронного API для отдельных сценариев, отличных от документа, с улучшениями производительности, которые упрощают реализацию пользовательских возможностей с поддержкой OCR.

Предупреждение

Для использования не рекомендуется использовать устаревший API OCR в Azure AI Vision в api Распознавания текста версии 3.2 и Распознаваемого текста в операциях версии 2.1 .

Выпуски OCR (чтение)

Внимание

Выберите выпуск Read, который лучше всего соответствует вашим требованиям.

Входные данные	Примеры	Чтение выпуска	Преимущества
Изображения: общие, в диких изображениях	метки, уличные знаки и плакаты	OCR для изображений (версия 4.0)	Оптимизировано для общих образов, не являющихся документами, с улучшенным синхронным API, что упрощает внедрение OCR в сценарии взаимодействия с пользователем.
Документы: цифровые и сканированные, включая изображения	книги, статьи и отчеты	Модель чтения с помощью аналитики документов	Оптимизировано для проверки текста и цифровых документов с помощью асинхронного API для автоматизации интеллектуальной обработки документов в масштабе.

Сведения об azure AI Vision версии 3.2 общедоступной версии 2

Ищете последнюю общедоступную версию Azure AI Vision версии 3.2? Все будущие улучшения OCR чтения являются частью двух служб, перечисленных ранее. В Azure AI Vision версии 3.2 нет дополнительных обновлений. Дополнительные сведения см. в статье "Вызов API чтения azure AI Vision 3.2" и краткое руководство. Azure AI Vision версии 3.2 для чтения.

Интеллектуальная обработка документов (IDP) использует OCR в качестве основной технологии для дополнительного извлечения структуры, связей, ключевых значений, сущностей и других аналитических сведений, ориентированных на документ, с расширенной службой искусственного интеллекта на основе машинного обучения, такой как Аналитика документов. Аналитика документов включает оптимизированную для документа версию Read в качестве обработчика OCR при делегировании другим моделям для более высокого уровня аналитики. Если вы извлекаете текст из сканированных и цифровых документов, используйте OCR для чтения документов.

Использование OCR

Попробуйте использовать OCR с помощью Visual Studio. Затем следуйте одной из ссылок на выпуск Read, который лучше всего соответствует вашим требованиям.

Попробовать Vision Studio

Снимок экрана: чтение демонстрации OCR в Vision Studio.

Поддерживаемые языки OCR

Обе версии чтения , доступные сегодня в Azure AI Vision, поддерживают несколько языков для печати и рукописного текста. OCR для печатного текста включает поддержку английского, французского, немецкого, итальянского, португальского, испанского, китайского, японского, корейского, арабского, арабского, Хинди и других международных языков, использующих латинский, кириллический, арабский и Деванагари. OCR для рукописного текста включает поддержку английского, китайского упрощенного, французского, немецкого, итальянского, японского, корейского, португальского и испанского языков.

См. полный список языков, поддерживаемых OCR.

Общие функции OCR

Модель OCR чтения доступна в Azure AI Vision и Document Intelligence с общими базовыми возможностями при оптимизации соответствующих сценариев. В следующем списке приведены общие функции:

Извлечение текста на печатных и рукописных текстах на поддерживаемых языках
Страницы, текстовые строки и слова с оценкой расположения и достоверности
Поддержка смешанных языков, смешанный режим (печать и рукописный ввод)
Функция доступна как контейнер Distroless Docker для локального развертывания

Использование облачных API OCR или развертывание локальной среды

Облачные API являются предпочтительным вариантом для большинства клиентов из-за простоты интеграции и быстрой производительности. Azure и служба "Визуальное распознавание ИИ Azure" обрабатывают масштаб, производительность, безопасность данных и соответствие требованиям, а также сосредоточиться на удовлетворении потребностей клиентов.

Для локального развертывания контейнер Read Docker позволяет развертывать общедоступную возможность OCR в azure AI Vision версии 3.2 в собственной локальной среде. Контейнеры соответствуют конкретным требованиям к безопасности и управлению данными.

Требования к входным данным

API чтения принимает изображения и документы в качестве входных данных. Изображения и документы должны соответствовать следующим требованиям:

Поддерживаемые форматы файлов: JPEG, PNG, BMP, PDF и TIFF.
Для файлов PDF и TIFF обрабатывается до 2,000 страниц (только первые две страницы для бесплатного уровня доступа).
Размер файла должен быть меньше 500 МБ (4 МБ для бесплатного уровня) с измерениями не менее 50 x 50 пикселей и не более 10 000 x 10 000 пикселей. PDF-файлы не имеют ограничения на размер.
Минимальная высота извлекаемого текста составляет 12 пикселей для изображения 1024 x 768, соответствующего примерно 8-точечным шрифтам в 150 DPI.

Примечание.

Не нужно обрезать изображение для текстовых строк. Отправьте весь образ в API чтения и распознает все тексты.

Конфиденциальность и безопасность данных OCR

Как и во всех службах ИИ Azure, разработчики, использующие службу "Визуальное распознавание ИИ Azure", должны учитывать политики Майкрософт по данным клиентов. Дополнительные сведения см. на странице служб ИИ Azure в Центре управления безопасностью Майкрософт.

Следующие шаги

OCR для общих (недокументных) изображений: краткое руководство по REST API анализа изображений в Azure AI Vision 4.0.
OCR для PDF, Office и HTML-документов и изображений документов: начните с чтения с документами.
Ищете предыдущую версию общедоступной версии? Ознакомьтесь с краткими руководствами по пакету SDK для azure AI Vision 3.2 или REST API.

Поделиться через

OCR — оптическое распознавание символов

Подсистема OCR

Выпуски OCR (чтение)

Использование OCR

Поддерживаемые языки OCR

Общие функции OCR

Использование облачных API OCR или развертывание локальной среды

Требования к входным данным

Конфиденциальность и безопасность данных OCR

Следующие шаги

Обратная связь

Дополнительные ресурсы

Поделиться через

OCR — оптическое распознавание символов

Подсистема OCR

Выпуски OCR (чтение)

Как OCR связан с интеллектуальной обработкой документов (IDP)?

Использование OCR

Поддерживаемые языки OCR

Общие функции OCR

Использование облачных API OCR или развертывание локальной среды

Требования к входным данным

Конфиденциальность и безопасность данных OCR

Следующие шаги

Обратная связь

Дополнительные ресурсы