Categorías personalizadas (versión preliminar)

Artículo
10/30/2024

La seguridad del contenido de Azure AI le permite crear y administrar sus propias categorías de moderación de contenido para mejorar la moderación y el filtrado que coincidan con las directivas específicas o los casos de uso.

Tipos de personalización

Hay varias maneras de definir y usar categorías personalizadas, que se detallan y comparan en esta sección.

API	Funcionalidad
API de categorías personalizadas (estándar)	Use un modelo de aprendizaje automático personalizable para crear, obtener, consultar y eliminar una categoría personalizada. O bien, enumere todas las categorías personalizadas para realizar más tareas de anotación.
Uso de la API de categorías personalizadas (rápidas)	Use un modelo de lenguaje grande (LLM) para aprender rápidamente patrones de contenido específicos en incidentes de contenido emergentes.

API de categorías personalizadas (estándar)

La API de categorías personalizadas (estándar) permite a los clientes definir categorías específicas para sus necesidades, proporcionar datos de muestra, entrenar un modelo de aprendizaje automático personalizado y utilizarlo para clasificar nuevos contenidos según las categorías aprendidas.

Este es el flujo de trabajo estándar para la personalización con modelos de aprendizaje automático. Dependiendo de la calidad de los datos de entrenamiento, puede alcanzar niveles de rendimiento muy buenos, pero puede tardar hasta varias horas en entrenar el modelo.

Esta implementación funciona en el contenido de texto, no en el contenido de la imagen.

Uso de la API de categorías personalizadas (rápidas)

La API de categorías personalizadas (rápidas) está diseñada para ser más rápida y flexible que el método estándar. Está pensado para ser utilizado para identificar, analizar, contener, erradicar y recuperarse de incidentes cibernéticos que implican contenido inapropiado o dañino en plataformas en línea.

Un incidente puede implicar un conjunto de patrones de contenido emergentes (texto, imagen u otras modalidades) que infringen las directrices de la comunidad de Microsoft o las propias directivas y expectativas de los clientes. Estos incidentes deben mitigarse de forma rápida y precisa para evitar tanto posibles problemas del sitio activo como daños a los usuarios y comunidades.

Esta implementación funciona en contenido de texto y contenido de imagen.

Sugerencia

Una forma de tratar los incidentes de contenido emergentes es usar listas de bloqueados, pero solo permite coincidencias exactas de texto, no de imágenes. La API de categorías personalizadas (rápidas) ofrece las siguientes funciones avanzadas:

Coincidencia semántica de texto mediante la búsqueda de inserción con un clasificador ligero.
Coincidencia de imágenes con un modelo ligero de seguimiento de objetos y búsqueda de inserción.

Funcionamiento

API de categorías personalizadas (estándar)
API de categorías personalizadas (rápidas)

La característica de categorías personalizadas Seguridad del contenido de Azure AI utiliza un proceso de varios pasos para crear, entrenar y utilizar modelos de clasificación de contenido personalizados. Este es un vistazo al flujo de trabajo:

Paso 1: Definición y configuración

Al definir una categoría personalizada, debe enseñar a la inteligencia artificial qué tipo de contenido desea identificar. Esto implica proporcionar un nombre de categoría claro y una definición detallada que encapsule las características del contenido.

A continuación, recopilará un conjunto de datos equilibrado con ejemplos positivos y (opcionalmente) negativos para ayudar a la inteligencia artificial a aprender los matices de la categoría. Estos datos deben ser representativos de la variedad de contenido que el modelo encontrará en un escenario real.

Paso 2: Entrenamiento del modelo

Después de preparar el conjunto de datos y definir categorías, el servicio de Seguridad del contenido de Azure AI entrena un nuevo modelo de aprendizaje automático. Este modelo usa las definiciones y el conjunto de datos cargado para realizar el aumento de datos mediante un modelo de lenguaje grande. Como resultado, el conjunto de datos de entrenamiento se hace más grande y de mayor calidad. Durante el entrenamiento, el modelo de IA analiza los datos y aprende a diferenciar entre el contenido que se alinea con la categoría y el contenido especificados que no lo hace.

Paso 3: Inferencia de modelos

Después del entrenamiento, debe evaluar el modelo para asegurarse de que cumple los requisitos de precisión. Pruebe el modelo con nuevo contenido que no ha recibido antes. La fase de evaluación le ayuda a identificar los posibles ajustes que necesita para realizar la implementación del modelo en un entorno de producción.

Paso 4: Uso del modelo

Use la API de analyzeCustomCategory para analizar el contenido de texto y determinar si coincide con la categoría personalizada que ha definido. El servicio devolverá un valor booleano que indica si el contenido se alinea con la categoría especificada

Limitaciones

Disponibilidad del idioma

Las API de categorías personalizadas admiten todos los idiomas admitidos por la moderación de texto de seguridad de contenido. Consulte el artículo sobre la compatibilidad con los distintos idiomas.

Limitaciones de entrada

API de categorías personalizadas (estándar)
API de categorías personalizadas (rápidas)

Consulte la siguiente tabla para ver las limitaciones de entrada de la API de categorías personalizadas (estándar):

Object	Limitación
Idiomas compatibles	Inglés solamente
Número de categorías por usuario	3
Número de versiones por categoría	3
Número de compilaciones simultáneas (procesos) por categoría	1
Operaciones de inferencia por segundo	5
Número de ejemplos en una versión de categoría	Muestras positivas(obligatorias): mínimo 50, máximo de 5000 En total (muestras negativas y positivas): 10 000 No se permiten muestras duplicadas.
Tamaño de archivo de ejemplo	máximo de 128000 bytes
Longitud de un ejemplo de texto	máximo de 125 000 caracteres
Longitud de una definición de categoría	máximo de 1000 caracteres
Longitud de un nombre de categoría	máximo de 128 caracteres
Longitud de una dirección URL de blob	máximo de 500 caracteres

Consulte la tabla siguiente para conocer las limitaciones de entrada de la API de categorías personalizadas (rápidas):

Object	Limitación
Longitud máxima de los nombres de incidente	100 caracteres
Número máximo de muestras de texto o imagen por incidente	1000
Tamaño máximo de cada muestra	Texto: 500 caracteres Imagen: 4 MB
Número máximo de incidentes de texto o imagen por recurso	100
Formatos de imagen que se admiten	BMP, GIF, JPEG, PNG, TIF y WEBP

Disponibilidad en regiones

Para usar estas API, debe crear el recurso de seguridad del contenido de Azure AI en una de las regiones admitidas. Consulte Disponibilidad de la región.

Pasos siguientes

Siga una guía paso a paso para usar las API de seguridad del contenido de Azure AI para crear categorías personalizadas.

Compartir a través de