Категории вреда в безопасности содержимого искусственного интеллекта Azure

В этом руководстве описаны все категории вреда и рейтинги, которые azure AI Content Safety использует для флага содержимого. Содержимое текста и изображения используют один и тот же набор флагов.

Категории вреда

Безопасность содержимого признает четыре отдельные категории нежелательного содержимого.

Категория Description
Ненависть и справедливость Ненависть и справедливость, связанные с вредом, относятся к любому содержимому, которое атакует или использует дискриминационный язык со ссылкой на человека или группу удостоверений на основе определенных различных атрибутов этих групп.

Это включает в себя, но не ограничивается следующими:
  • Раса, этническое происхождение, национальность
  • Группы и выражения гендерной идентификации
  • сексуальная ориентация;
  • Религиозная деятельность
  • Персональный внешний вид и размер тела
  • Состояние инвалидности
  • Домогательства и издевательства
Половой Сексуальный описывает язык, связанный с анатомическими органами и гениталиями, романтическими отношениями и сексуальными актами, действия, изображаемые в эротических или ласковых терминах, в том числе те, которые изображаются как нападение или принудительный сексуальный насильственный акт против воли человека. 

 Это включает в себя, но не ограничивается следующими:
  • Содержимое Vulgar
  • Проституция
  • Нагота и порнография
  • Нарушение
  • Эксплуатация детей, жестокое обращение с детьми, уход за детьми
Насилие Насилие описывает язык, связанный с физическими действиями, предназначенными для того, чтобы повредить, ранить, повредить или убить кого-то или что-то; описывает оружие, оружие и связанные сущности.

Это включает в себя, но не ограничивается:
  • Оружие
  • Издевательства и запугивание
  • Террористический и насильственный экстремизм
  • Преследование
Самоповредение Самоповреждение описывает язык, связанный с физическими действиями, предназначенными для намеренного повреждения, травмы, повреждения тела или убийства себя.

Это включает в себя, но не ограничивается:
  • Расстройства питания
  • Издевательства и запугивание

Классификация может быть многометкой. Например, когда пример текста проходит через модель модерации текста, его можно классифицировать как сексуальное содержимое и насилие.

Уровни серьезности

Каждая категория вреда, применяемая служба, также поставляется с оценкой уровня серьезности. Уровень серьезности предназначен для указания серьезности последствий отображения помеченного содержимого.

Текст: текущая версия текстовой модели поддерживает полный масштаб серьезности 0-7. Классификатор обнаруживает среди всех серьезности по этому масштабу. Если пользователь указывает, он может возвращать серьезность в усеченном масштабе от 0, 2, 4 и 6; каждый из двух смежных уровней сопоставляется с одним уровнем.

  • [0,1] -> 0
  • [2,3] -> 2
  • [4,5] -> 4
  • [6,7] -> 6

Изображение. Текущая версия модели образа поддерживает обрезную версию полного масштаба серьезности 0-7. Классификатор возвращает только значения серьезности 0, 2, 4 и 6; каждый из двух смежных уровней сопоставляется с одним уровнем.

  • [0,1] -> 0
  • [2,3] -> 2
  • [4,5] -> 4
  • [6,7] -> 6

Текстовое содержимое

Предупреждение

Вкладка "Определения серьезности" в этом документе содержит примеры вредного содержимого, которое может беспокоить некоторых читателей.

Содержимое изображения

Предупреждение

Вкладка "Определения серьезности" в этом документе содержит примеры вредного содержимого, которое может беспокоить некоторых читателей.

Следующие шаги

Следуйте краткому руководству, чтобы приступить к работе с безопасностью содержимого ИИ Azure в приложении.