Выбор технологии обработки изображений и видеоматериалов Azure

Статья
10/01/2024

Службы искусственного интеллекта Azure помогают разработчикам и организациям создавать интеллектуальные, передовые, готовые к рынкам и ответственные приложения с готовыми и предварительно созданными и настраиваемыми API и моделями.

В этой статье рассматриваются службы ИИ Azure, которые предлагают возможности обработки видео и изображений, такие как визуальный анализ и создание изображений, обнаружение объектов, классификация изображений и распознавание лиц.

Службы

Следующие службы предоставляют возможности обработки видео и изображений для служб ИИ Azure:

Azure OpenAI
- Используйте Azure OpenAI для создания изображений на основе естественного языка с помощью предварительно обученных моделей создания образов. Например, создание пользовательского искусства по запросу.
- Используйте Azure OpenAI, если необходимо выполнить нестандартное, широкое анализ изображений. Например, создание описания специальных возможностей.
- Не используйте Azure OpenAI, если вы хотите использовать модели создания образов открытый код, доступные в Машинное обучение Azure.
- Не используйте Azure OpenAI, если вам нужно выполнить определенные типы обработки изображений, такие как извлечение форм, распознавание лиц или обнаружение характеристик изображения, специализированного домена. В этих сценариях используйте или создайте решения ИИ, разработанные специально обученными для этих целей.
Визуальное распознавание искусственного интеллекта Azure
- Используйте службу визуального распознавания, если требуется базовое оптическое распознавание символов (OCR), анализ изображений или базовый анализ видео для обнаружения движения и других событий.
- Не используйте службу визуального распознавания для анализа, которые уже поддерживают большие многомодальные модели.
- Не используйте службу визуального распознавания для умеренного содержимого. Вместо этого используйте службу безопасности содержимого.
Azure AI Пользовательское визуальное распознавание
- Используйте службу, если у вас есть определенные требования, которые не могут предоставить базовый анализ изображений службы визуального распознавания. Например, это хорошо для распознавания необычных объектов, производственных дефектов или предоставления подробных пользовательских классификаций.
- Не используйте службу, если требуется базовое обнаружение объектов или обнаружение лиц. Вместо этого используйте службы распознавания лиц или зрения.
- Не используйте службу для базового визуального анализа. Используйте модели с поддержкой визуального зрения из моделей Azure OpenAI или с открытым кодом в Машинное обучение Azure.
Распознавание лиц Azure AI
- Используйте службу распознавания лиц, когда необходимо проверить, находятся ли лица в режиме реального времени или подделываются, а также для идентификации, группирования или поиска похожих лиц.
- Не используйте службу распознавания лиц для обнаружения эмоций в лицах или выполнения других высокоуровневых рассуждений о лицах. Вместо этого используйте многомодальные языковые модели для этих задач.
Индексатор видео Azure AI
- Используйте службу Индексатора видео Azure для более сложных задач, связанных с видеоанализом, которые служба визуального распознавания не может предоставлять.
- Не используйте службу Индексатора видео Azure для основных задач анализа видео, таких как подсчет людей и обнаружение движения и событий. Базовый анализ видеоанализа службы визуального распознавания является более экономичным для этих задач.

Azure OpenAI

Azure OpenAI предоставляет доступ к мощным языковым моделям OpenAI, включая последнее поколение моделей GPT. Они поддерживают визуальный анализ и поколения изображений, а DALL-E поддерживают создание изображений.

Зрение ИИ Azure

Azure AI Vision предоставляет расширенные алгоритмы, обрабатывающие изображения и возвращающие информацию на основе визуальных функций, которые вам нужны. Она предоставляет четыре службы: OCR, службы распознавания лиц, изображения и пространственного анализа.

Возможности

В следующей таблице приведен список возможностей, доступных в службе "Визуальное распознавание ИИ Azure".

Возможность	Description
Оптическое распознавание текста (OCR)	Служба оптического распознавания символов (OCR) извлекает текст из изображений. С помощью API чтения можно извлечь печатный и рукописный текст из фотографий и документов. Она использует модели на основе глубокого обучения и работает с текстом на различных поверхностях и фонах. таких как бизнес-документация, счета, квитанции, плакаты, визитные карточки, письма и доски. API OCR поддерживают извлечение печатного текста на нескольких языках.
Анализ изображений	Служба анализа изображений извлекает множество визуальных функций из изображений, таких как объекты, лица и автоматически созданные текстовые описания. С помощью анализа изображений 4.0 , основанной на базовой модели Флоренции, можно также создавать пользовательские модели идентификаторов изображений.
Анализ видео	Видеоанализ включает функции, связанные с видео, такие как пространственный анализ и извлечение видео. Пространственный анализ анализирует присутствие и перемещение людей в видеотрансляции и создает события, на которые могут реагировать другие системы.

Пользовательское визуальное распознавание ИИ Azure

Служба azure AI Пользовательское визуальное распознавание — это служба распознавания изображений, которая позволяет создавать, развертывать и улучшать собственные модели идентификаторов изображений. Идентификатор изображений присваивает изображениям метки согласно визуальным характеристикам. Каждая метка представляет классификацию или объект. Пользовательское визуальное распознавание позволяет указать собственные метки и обучить пользовательские модели для их обнаружения.

Служба Пользовательское визуальное распознавание использует алгоритм машинного обучения для анализа изображений для пользовательских функций. Вы отправляете наборы изображений, которые делают и не имеют нужных визуальных характеристик. Затем вы помечаете изображения собственными метками (тегами) во время отправки. Алгоритм обучается по этим данным и вычисляет собственную точность, проводя тесты на тех же изображениях. Обучив модель, вы можете протестировать, переобучить и, в конечном итоге, использовать ее в своем приложении для распознавания изображений для классификации изображений или обнаружения объектов. Вы также можете экспортировать модель для автономного использования.

Возможности

В следующей таблице приведен список возможностей, доступных в службе Пользовательское визуальное распознавание ИИ Azure.

Возможность	Description
Классификация изображений	Прогнозирование категории или класса на основе набора входных данных, которые называются функциями. Вычислите оценку вероятности для каждого возможного класса и возвращает метку, указывающую класс, к которому, скорее всего, принадлежит объект. Для использования этой модели требуются данные, состоящие из функций и их меток.
Обнаружение объектов	Получение координат объекта в изображении. Для использования этой модели требуются данные, состоящие из функций и их меток.

Возможность

Description

Классификация изображений

Прогнозирование категории или класса на основе набора входных данных, которые называются функциями. Вычислите оценку вероятности для каждого возможного класса и возвращает метку, указывающую класс, к которому, скорее всего, принадлежит объект. Для использования этой модели требуются данные, состоящие из функций и их меток.

Обнаружение объектов

Получение координат объекта в изображении. Для использования этой модели требуются данные, состоящие из функций и их меток.

Случаи использования

В следующей таблице приведен список возможных вариантов использования службы azure AI Пользовательское визуальное распознавание.

Вариант использования	Description
Использование Пользовательское визуальное распознавание с устройством Интернета вещей для отчета о визуальных состояниях	используйте Пользовательское визуальное распознавание для обучения устройства с камерой для обнаружения визуальных состояний. Этот сценарий обнаружения можно запустить на устройстве Интернета вещей с помощью экспортируемой модели ONNX. Визуальное состояние описывает содержимое изображения: пустое помещение или комната с людьми, пустое шоссе или с грузовиком и т. д.
Распознавание логотипов в изображениях камеры	Анализ фотографий, поиск определенных логотипов.

Вариант использования

Description

Использование Пользовательское визуальное распознавание с устройством Интернета вещей для отчета о визуальных состояниях

используйте Пользовательское визуальное распознавание для обучения устройства с камерой для обнаружения визуальных состояний. Этот сценарий обнаружения можно запустить на устройстве Интернета вещей с помощью экспортируемой модели ONNX. Визуальное состояние описывает содержимое изображения: пустое помещение или комната с людьми, пустое шоссе или с грузовиком и т. д.

Распознавание логотипов в изображениях камеры

Анализ фотографий, поиск определенных логотипов.

Распознавание лиц Azure AI

Служба распознавания лиц Azure предоставляет алгоритмы ИИ, которые обнаруживают, распознают и анализируют человеческие лица на изображениях. Программное обеспечение распознавания лиц важно во многих сценариях, таких как идентификация, сенсорный контроль доступа и автоматическое размытие лиц для конфиденциальности.

Возможности

В следующей таблице представлен список возможностей, доступных в службе распознавания лиц Azure.

Возможность	Description
Обнаружение и анализ лиц	Определите области изображения, содержащего человеческое лицо, обычно возвращая ограничивающие координаты прямоугольника, которые образуют прямоугольник вокруг лица.
поиск похожих лиц;	Операция поиска похожих лиц сравнивает целевое лицо и набор потенциальных лиц, после чего находит небольшое количество лиц, очень похожих на целевое. Это удобно для поиска лиц по изображениям.
Групповые лица	Операция группирования делит набор неизвестных лиц на несколько небольших групп, основываясь на сходстве. Каждая группа является несвязанным подмножеством исходного набора лиц. Она также возвращает один массив messyGroup, содержащий идентификаторы лиц, для которых не найдено сходство.
Идентификация	Идентификация лиц позволяет выполнять для одного лица на изображении сопоставление "один ко многим" с набором лиц в защищенном репозитории. Потенциальные совпадения возвращаются в зависимости от того, насколько точно данные их лиц соответствуют лицу в запросе.
Операции распознавания лиц	Современные предприятия и приложения могут использовать технологии распознавания лиц, включая проверку лиц (сопоставление "один к одному") и идентификацию лиц (сопоставление "один ко многим") для подтверждения того, что пользователь является тем, кто они утверждают.
Обнаружение активности	Обнаружение активности — это функция защиты от спуфингов, которая проверяет, присутствует ли пользователь физически перед камерой. Он используется для предотвращения атак спуфинга с помощью печатной фотографии, записанного видео или трехмерной маски лица пользователя.

Случаи использования

В следующей таблице приведен список возможных вариантов использования службы распознавания лиц Azure.

Вариант использования	Description
Проверьте удостоверение пользователя.	Проверьте человека на доверенном изображении лица. Эту проверку можно использовать для предоставления доступа к цифровым или физическим свойствам. В большинстве случаев доверенный образ лица может поступать из выданных правительством идентификаторов, таких как паспорт или водительская лицензия, или он может прийти из фотографии регистрации, сделанные лично. Во время проверки обнаружение активности может играть важную роль в проверке того, что изображение исходит от реального человека, а не печатной фотографии или маски.
Скрытие лиц	Редакт или размытие обнаружили лица людей, записанных в видео для защиты их конфиденциальности.
Управление доступом без сенсорного ввода.	По сравнению с такими методами, как карточки или билеты, идентификация лиц позволяет повысить уровень управления доступом, уменьшая риски гигиены и безопасности от обмена физическими средствами массовой информации, потери или кражи. Распознавание лиц помогает в процессе регистрации с участием человека, например, в аэропорту, на стадионах, в парках развлечений, в зданиях, при использовании терминалов регистрации в офисах, больницах, тренажерных залах, клубах и школах.

Индексатор видео ИИ Azure

Индексатор видео Azure — это облачное приложение, часть служб ИИ Azure, созданная на основе служб ИИ Azure (таких как Face, Translator, Azure AI Vision и speech). Она позволяет извлекать аналитические сведения из видео с помощью видеоиндексатора ИИ и звуковых моделей.

Возможности

В следующей таблице приведен список некоторых возможностей, доступных в службе Индексатора видео в Azure.

Возможность	Description
Многоязычная идентификация речи и транскрибирование	Определяет разговорный язык в разных сегментах звука. Отправляет каждый сегмент файла мультимедиа для транскрибирования, а затем объединяет транскрипцию в единый элемент.
Обнаружение лиц	Обнаружение и группировка лиц, показываемых на видео.
Идентификация знаменитостей	Определяет более 1 миллионов знаменитостей, таких как мировые лидеры, актеры, художники, спортсмены, исследователи, бизнес и технологические лидеры по всему миру. Данные об этих знаменитостях также можно найти на различных веб-сайтах (IMDB, Википедия и т. д.).
Идентификация лиц на основе учетной записи	Обучает модель для конкретной учетной записи. Затем он распознает лица в видео на основе обученной модели.
Отслеживание наблюдаемых пользователей (предварительная версия)	Обнаруживает наблюдаемых людей в видео и предоставляет такие сведения, как расположение человека в кадре видео (с использованием ограничивающих прямоугольников) и точной метки времени (начало, конец) и уверенность при появлении человека.
Транскрибирование звука	Преобразует речь в текст более 50 языков и позволяет расширениям.
Распознавание языка	Определяет доминирующий язык.
Уменьшение шума	Очистка телефонных разговоров или шумных записей (на основе фильтров Skype).
Перевод	FCreates переводы транскрибирования звука на множество разных языков.

Дополнительные возможности службы индексатора видео Azure ИИ см. в документации по индексатору видео Azure.

Случаи использования

В следующей таблице приведен список возможных вариантов использования службы индексатора видео Azure AI.

Вариант использования	Description
Глубокий поиск	С помощью аналитических сведений, извлеченных из видео, можно усовершенствовать систему поиска по библиотеке видео. Например, индексирование лиц и произнесенных слов позволяет выполнять поиск моментов в видео, когда человек произносит определенные слова или когда два человека находятся в кадре вместе. Поиск на основе таких аналитических сведений, извлеченных из видео, — полезная функция для информационных агентств, образовательных учреждений, вещательных компаний, владельцев развлекательного содержимого, корпоративных бизнес-приложений и в целом для любой отрасли, где применяются библиотеки видео, по которым нужно выполнять поиск.
Создание содержимого	Создайте трейлеры, выделите реплицы, содержимое социальных сетей или клипы новостей на основе аналитических данных Индексатор видео Azure AI извлекает из содержимого. Ключевые кадры, маркеры сцен и метки времени пользователей и меток позволяют упростить процесс создания и упростить процесс создания, что позволяет легко добраться до частей видео, необходимых при создании содержимого.
Специальные возможности	Хотите ли вы сделать содержимое доступным для людей с ограниченными возможностями или хотите, чтобы содержимое распределялось по разным регионам с помощью разных языков, можно использовать транскрибирование и перевод, предоставляемые Индексатором видео Azure AI на нескольких языках.
Монетизация	Индексатор видео Azure ai может помочь повысить ценность видео. Например, отрасли, которые получают доход от рекламы (новостные СМИ, социальные сети и т. д.), могут предоставлять актуальную рекламу, используя извлеченные аналитические сведения в качестве дополнительных сигналов для сервера рекламы.
Модерация контента	Используйте текстовые и визуальные модели модерации содержимого для защиты пользователей от нежелательного содержимого и проверки того, что публикуемое содержимое соответствует ценностям вашей организации. Вы можете автоматически блокировать определенные видеоролики или оповещать пользователей о содержимом.
Рекомендации	С помощью аналитических сведений, полученных из видео, можно повысить уровень вовлеченности пользователей, размещая для них релевантные фрагменты видео. Помечая каждое видео с дополнительными метаданными, вы можете рекомендовать пользователям наиболее релевантные видео и выделить части видео, соответствующие их потребностям.

Поделиться через

Выбор технологии обработки изображений и видеоматериалов Azure

Службы

Azure OpenAI

Зрение ИИ Azure

Возможности

Пользовательское визуальное распознавание ИИ Azure

Возможности

Случаи использования

Распознавание лиц Azure AI

Возможности

Случаи использования

Индексатор видео ИИ Azure

Возможности

Случаи использования

Следующие шаги

Обратная связь

Дополнительные ресурсы

Поделиться через

Выбор технологии обработки изображений и видеоматериалов Azure

Службы

Azure OpenAI

Зрение ИИ Azure

Возможности

Пользовательское визуальное распознавание ИИ Azure

Возможности

Случаи использования

Распознавание лиц Azure AI

Возможности

Случаи использования

Индексатор видео ИИ Azure

Возможности

Случаи использования

Следующие шаги

Связанные ресурсы

Обратная связь

Дополнительные ресурсы