Использование обогащения ИИ с помощью обработки изображений и текста

Служба приложений Azure
хранилище BLOB-объектов Azure
Поиск по искусственному интеллекту Azure
Функции Azure

Идеи решения

В этой статье описывается идея решения. Ваш архитектор облака может использовать это руководство, чтобы визуализировать основные компоненты для типичной реализации этой архитектуры. Используйте эту статью в качестве отправной точки для разработки хорошо спроектированного решения, которое соответствует конкретным требованиям рабочей нагрузки.

В этой статье описывается, как использовать обработку изображений, обработку естественного языка и пользовательские навыки для записи данных, относящихся к домену. Эти данные можно использовать для обогащения текстовых и изображений документов. Включите поиск ИИ Azure с обогащением ИИ, чтобы помочь определить и изучить соответствующее содержимое в большом масштабе. Это решение использует обогащение ИИ для извлечения смысла из исходного неструктурированного набора данных JFK Assassination Records (JFK Files).

Архитектура

Схема, показывающая архитектуру поиска ИИ для преобразования неструктурированных данных в структурированные данные.

Скачайте файл Visio для этой архитектуры.

Поток данных

Следующий поток данных соответствует предыдущей схеме. Поток данных описывает, как неструктурированный набор данных JFK Files проходит через конвейер навыков поиска ИИ для создания структурированных и индексируемых данных.

  1. Неструктурированные данные в Хранилище BLOB-объектов Azure, такие как документы и изображения, будут приема в поиск ИИ.

  2. Чтобы инициировать процесс индексирования, шаг взлома документа извлекает изображения и текст из данных, а затем обогащает содержимое. Шаги обогащения в этом процессе зависят от данных и типа навыков, которые вы выбрали.

  3. Встроенные навыки , основанные на API распознавания и языка искусственного интеллекта Azure, предоставляют обогащения ИИ, такие как оптическое распознавание изображений (OCR), анализ изображений, перевод текста, распознавание сущностей и полнотекстовый поиск.

  4. Сценарии поддержки пользовательских навыков , требующие более сложных моделей или служб ИИ. Примерами являются Аналитика документов Azure, модели Машинное обучение Azure и Функции Azure.

  5. После завершения процесса обогащения индексатор сохраняет обогащенные и индексированные документы в индексе поиска. Полнотекстовый поиск и другие формы запросов могут использовать этот индекс.

  6. Обогащенные документы также могут проектируются в хранилище знаний, которое может использовать подчиненные приложения, такие как приложения интеллектуального анализа знаний или приложения для обработки и анализа данных.

  7. Запросы получают доступ к обогащенном содержимому в индексе поиска. Индекс поддерживает пользовательские анализаторы, нечеткие поисковые запросы, фильтры и профиль оценки для настройки релевантности поиска.

  8. Приложения, подключающиеся к хранилищу BLOB-объектов или к хранилищу таблиц Azure, могут получить доступ к хранилищу знаний.

Компоненты

Это решение использует следующие компоненты Azure.

Поиск ИИ индексирует содержимое и обеспечивает взаимодействие с пользователем в этом решении. Вы можете использовать поиск ИИ для применения предварительно созданных навыков ИИ к содержимому. И вы можете использовать механизм расширяемости для добавления пользовательских навыков, которые предоставляют определенные преобразования обогащения.

Зрение ИИ Azure

Визуальное распознавание использует распознавание текста для извлечения и распознавания текстовых данных из изображений. API чтения использует последние модели распознавания OCR и оптимизирован для больших текстовых документов и шумных изображений.

Устаревший API OCR не оптимизирован для больших документов, но поддерживает больше языков. Точность результатов OCR может отличаться в зависимости от качества сканирования и изображения. Это решение использует OCR для создания данных в формате hOCR.

Язык

Язык использует возможности анализа текста, такие как распознавание именованных сущностей и извлечение ключевых фраз для извлечения текстовых данных из неструктурированных документов.

Хранилище Azure

Хранилище BLOB-объектов — это хранилище объектов на основе REST для данных, доступ к которым можно получить из любой точки мира через HTTPS. Хранилище BLOB-объектов можно использовать для публичного предоставления данных миру или для хранения данных приложения в частном порядке. Хранилище BLOB-объектов идеально подходит для больших объемов неструктурированных данных, таких как текст или графика.

Хранилище таблиц хранит высокодоступные, масштабируемые, структурированные и частично структурированные данные NoSQL в облаке.

Функции Azure

Функции — это бессерверная служба вычислений, которую можно использовать для запуска небольших фрагментов кода, активированного событиями, без необходимости явной подготовки или управления инфраструктурой. Это решение использует метод Functions для применения криптонимов Центрального разведывательного агентства (ЦРУ) к JFK Files в качестве пользовательского навыка.

Служба приложений Azure

Это решение создает автономное веб-приложение в службе приложение Azure для тестирования, демонстрации и поиска индекса и изучения подключений в обогащенных и индексированных документах.

Подробности сценария

Большие неструктурированные наборы данных могут включать в себя рукописные заметки, фотографии, схемы и другие неструктурированные данные, которые стандартные решения поиска не могут анализировать. Файлы JFK содержат более 34000 страниц документов о расследовании ЦРУ убийства 1963 JFK.

Обогащение ИИ можно использовать для извлечения и улучшения поиска, индексированного текста из изображений, больших двоичных объектов и других неструктурированных источников данных, таких как файлы JFK. Обогащение ИИ использует предварительно обученные наборы навыков машинного обучения из API визуального распознавания и языка Azure. Вы также можете создавать и присоединять пользовательские навыки , чтобы добавить специальную обработку для данных, относящихся к домену, таких как криптонимы ЦРУ. Затем поиск ИИ может индексировать и искать этот контекст.

Навыки поиска ИИ в этом решении можно разделить на следующие группы:

  • Обработка изображений. Это решение использует встроенные навыки извлечения текста и анализа изображений, включая обнаружение объектов и лиц, создание тегов и подписей, а также идентификацию знаменитостей и ориентиров. Эти навыки создают текстовые представления содержимого изображения, которые можно искать с помощью возможностей запроса поиска ИИ. Трещина документов — это процесс извлечения или создания текстового содержимого из нетекстовых источников.

  • Обработка естественного языка. Это решение использует встроенные навыки, такие как распознавание сущностей, обнаружение языка и извлечение ключевых фраз, которые сопоставляют неструктурированный текст с возможностью поиска и фильтрации полей в индексе.

  • Пользовательские навыки. Это решение использует пользовательские навыки, которые расширяют поиск ИИ для применения конкретных преобразований обогащения к содержимому. Вы можете указать интерфейс для пользовательского навыка с помощью пользовательского навыка веб-API.

Потенциальные варианты использования

Пример проекта JFK Files и демонстрация в Интернете представляет конкретный вариант использования поиска ИИ. Эта идея решения не предназначена для платформы или масштабируемой архитектуры для всех сценариев. Вместо этого эта идея решения содержит общие рекомендации и примеры. Проект кода и демонстрация создают общедоступный веб-сайт и общедоступный удобочитаемый контейнер хранилища для извлеченных образов, поэтому не следует использовать это решение с неопубликованными данными.

Эту архитектуру также можно использовать для следующих способов:

  • Увеличьте значение и служебную программу неструктурированного текста и содержимого изображений в приложениях поиска и приложениях для обработки и анализа данных.

  • Используйте пользовательские навыки для интеграции кода с открытым исходным кодом, кода, отличного от Майкрософт, или кода Майкрософт в конвейеры индексирования.

  • Сделайте отсканированные документы JPG, PNG или растровые документы полнотекстовым поиском.

  • Лучшие результаты, чем стандартное извлечение текста PDF для PDF-файлов с объединенным изображением и текстом. Некоторые сканированные и собственные форматы PDF могут неправильно анализироваться в поиске ИИ.

  • Создайте новые сведения из изначально понятного необработанного содержимого или контекста, скрытого в больших, неструктурированных документах или полуструктурированных документах.

Соавторы

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующим участником.

Автор субъекта:

Чтобы просмотреть недоступные профили LinkedIn, войдите в LinkedIn.

Следующие шаги

Дополнительные сведения об этом решении:

Ознакомьтесь с документацией по продукту:

Попробуйте использовать схему обучения: