Visión de Azure AI

Completado

Aunque puede entrenar sus propios modelos de Machine Learning para Computer Vision, la arquitectura de los modelos de Computer Vision podría resultar compleja; y necesita volúmenes significativos de imágenes de entrenamiento y potencia de proceso para realizar el proceso de entrenamiento.

El servicio Visión de Azure AI de Microsoft proporciona modelos de Computer Vision precompilados y personalizables basados en el modelo de base Florence y proporcionan diversas funcionalidades eficaces. Con Visión de Azure AI, es posible crear soluciones sofisticadas de Computer Vision de forma rápida y sencilla; aprovechando la funcionalidad "listo para usar" para muchos escenarios comunes de Computer Vision, a la vez que se conserva la capacidad de crear modelos personalizados con sus propias imágenes.

Recursos de Azure para el servicio Visión de Azure AI

Para usar Visión de Azure AI, debe crear un recurso para él en la suscripción de Azure. Se puede usar cualquiera de los siguientes tipos de recursos:

  • Visión de Azure AI: Recurso específico para el servicio Visión de Azure AI. Utilice este tipo de recurso si no tiene intención de utilizar otros servicios de Azure AI o si desea realizar un seguimiento de la utilización y los costes de su recurso de Visión de Azure AI por separado.
  • Servicios de Azure AI: Un recurso general que incluye Visión de Azure AI junto con muchos otros servicios de Azure AI, como Lenguaje de Azure AI, Custom Vision de Azure AI, Traductor de Azure AI y otros. Utilice este tipo de recurso si tiene previsto utilizar varios servicios de IA y desea simplificar la administración y el desarrollo.

Analizar imágenes con el servicio Visión de Azure AI

Después de crear un recurso adecuado en su suscripción, puede enviar imágenes al servicio Visión de Azure AI para realizar una amplia variedad de tareas analíticas.

Visión de Azure AI admite varias funcionalidades de análisis de imágenes, entre las que se incluyen:

  • Reconocimiento óptico de caracteres (OCR): extrayendo texto de imágenes.
  • Generar subtítulos y descripciones de imágenes.
  • Detección de miles de objetos comunes en imágenes.
  • Etiquetado de características visuales en imágenes

Estas tareas y muchas más, se pueden realizar en Estudio de filmación de Visión de Azure AI.

Screenshot of Vision Studio.

Reconocimiento óptico de caracteres

El servicio Visión de Azure AI puede utilizar las funcionalidades de reconocimiento óptico de caracteres (OCR) para detectar texto en imágenes. Por ejemplo, considere la siguiente imagen de una etiqueta de nutrición en un producto de una tienda de comestibles:

Diagram of a nutrition label.

El servicio Visión de Azure AI podría analizar esta imagen y extraer el texto siguiente:

Nutrition Facts Amount Per Serving
Serving size:1 bar (40g)
Serving Per Package: 4
Total Fat 13g
Saturated Fat 1.5g
Amount Per Serving
Trans Fat 0g
calories 190
Cholesterol 0mg
ories from Fat 110
Sodium 20mg
ntDaily Values are based on
Vitamin A 50
calorie diet

Sugerencia

Puede explorar aún más las funcionalidades de OCR de Visión de Azure AI en el módulo Leer texto con Visión de Azure AI de Microsoft Learn.

Descripción de una imagen con subtítulos

Visión de Azure AI tiene la capacidad de analizar una imagen, evaluar los objetos que se detectan y generar una frase legible para el usuario que pueda describir lo que se ha detectado en la imagen. Por ejemplo, considere la imagen siguiente:

Diagram of a man on a skateboard.

Visión de Azure AI devuelve los siguientes subtítulos para esta imagen:

Un hombre saltando en un monopatín

Detección de objetos comunes en una imagen

Visión de Azure AI puede identificar miles de objetos comunes en imágenes. Por ejemplo, cuando se usa para detectar objetos en la imagen del patinador descrita anteriormente, Visión de Azure AI devuelve las siguientes predicciones:

  • Monopatín (90,40 %)
  • Persona (95,5 %)

Las predicciones incluyen una puntuación de confianza que indica la probabilidad que el modelo calculó para los objetos previstos.

Además de las etiquetas de objeto detectadas y sus probabilidades, Visión de Azure AI devuelve coordenadas de rectángulo de selección que indican la parte superior, izquierda, el ancho y el alto del objeto detectado. Es posible usar estas coordenadas para determinar dónde se detectó cada objeto en la imagen de la siguiente manera:

Diagram of a skateboarder with bounding boxes around detected objects.

Etiquetado de características visuales

Visión de Azure AI puede sugerir etiquetas para una imagen en función de su contenido. Estas etiquetas se pueden asociar a la imagen como metadatos que resumen los atributos de la imagen; y pueden ser útiles en caso de desear indexar una imagen junto con un conjunto de términos clave que se puedan usar para buscar imágenes con atributos o contenido específicos.

Por ejemplo, las etiquetas devueltas para la imagen del patinador (con puntuaciones de confianza asociadas) incluyen:

  • deporte (99,60 %)
  • persona (99,56 %)
  • calzado (98,05 %)
  • patinaje (96,27 %)
  • deporte de tabla (95,58 %)
  • equipo de monopatinaje (94,43 %)
  • ropa (94,02 %)
  • pared (93,81 %)
  • monopatinaje (93,78 %)
  • patinador (93,25 %)
  • deportes individuales (92,80 %)
  • acrobacias callejeras (90,81 %)
  • saldo (90,81 %)
  • salto (89,87 %)
  • equipamiento deportivo (88,61 %)
  • deporte extremo (88,35 %)
  • kickflip (88,18 %)
  • acrobacia (87,27 %)
  • monopatín (86,87 %)
  • acróbata (85,83 %)
  • rodilla (85,30 %)
  • deportes (85,24 %)
  • longboard (84,61 %)
  • montar en longboard (84,45 %)
  • montar (73,37 %)
  • patinar (67,27 %)
  • aire (64,83 %)
  • joven (63,29 %)
  • exterior (61,39 %)

Entrenamiento de modelos personalizados

Si los modelos integrados proporcionados por Visión de Azure AI no satisfacen sus necesidades, puede usar el servicio para entrenar un modelo personalizado para la clasificación de imágenes o la detección de objetos. Visión de Azure AI compila modelos personalizados en el modelo básico entrenado previamente, lo que significa que podrá entrenar modelos sofisticados con relativamente pocas imágenes de entrenamiento.

Clasificación de imágenes

Un modelo de clasificación de imágenes se usa para predecir la categoría o la clase de una imagen. Por ejemplo, podría entrenar un modelo para determinar qué tipo de fruta se muestra en una imagen de la siguiente manera:

Apple Banana Orange
Diagram of an apple. Diagram of a banana. Diagram of an orange.

Detección de objetos

Los modelos de detección de objetos detectan y clasifican objetos en una imagen y devuelven coordenadas de rectángulo de selección para localizar cada objeto. Además de las funcionalidades de detección de objetos integradas en Visión de Azure AI, es posible entrenar modelos personalizados de detección de objetos con sus propias imágenes. Por ejemplo, podría usar fotografías de frutas para entrenar un modelo que detectase varias frutas en una imagen de esta forma:

Diagram of multiple detected fruits in an image.

Nota:

Los detalles de cómo usar Visión de Azure AI para entrenar un modelo personalizado están fuera del ámbito de este módulo. Puede encontrar información sobre el entrenamiento de modelos personalizados en la documentación de Visión de Azure AI.