Rilevamento oggetti

Questo articolo illustra il concetto di rilevamento degli oggetti. Il rilevamento di oggetti è simile all'assegnazione di tag, tuttavia l'API restituisce le coordinate del rettangolo di selezione (in pixel) per ciascun oggetto trovato nell'immagine. Se, ad esempio, un’immagine contiene un cane, un gatto e una persona, l'operazione di rilevamento oggetti elenca tali oggetti insieme alle rispettive coordinate nell'immagine. È possibile usare questa funzionalità per elaborare le relazioni tra gli oggetti in un'immagine. Inoltre, è anche possibile determinare se in un'immagine sono presenti più istanze dello stesso oggetto.

La funzione di rilevamento oggetti applica dei tag in base agli oggetti o agli esseri viventi identificati nell'immagine. Attualmente, non esiste alcuna relazione formale tra la tassonomia di assegnazione di tag e quella di rilevamento oggetti. A livello concettuale, la funzione di rilevamento degli oggetti trova solo oggetti e cose viventi, mentre la funzione tag può includere anche termini contestuali come interni, che non possono essere localizzati con rettangoli delimitatori.

Provare le funzionalità di rilevamento degli oggetti in modo rapido e semplice nel browser usando Azure AI Vision Studio.

Esempio di rilevamento di oggetti

La risposta JSON seguente mostra cosa restituisce l'API Analizza immagine quando rileva gli oggetti nell'immagine di esempio.

Fotografia che mostra una donna che usa un dispositivo Microsoft Surface in una cucina.

{
   "objects":[
      {
         "rectangle":{
            "x":730,
            "y":66,
            "w":135,
            "h":85
         },
         "object":"kitchen appliance",
         "confidence":0.501
      },
      {
         "rectangle":{
            "x":523,
            "y":377,
            "w":185,
            "h":46
         },
         "object":"computer keyboard",
         "confidence":0.51
      },
      {
         "rectangle":{
            "x":471,
            "y":218,
            "w":289,
            "h":226
         },
         "object":"Laptop",
         "confidence":0.85,
         "parent":{
            "object":"computer",
            "confidence":0.851
         }
      },
      {
         "rectangle":{
            "x":654,
            "y":0,
            "w":584,
            "h":473
         },
         "object":"person",
         "confidence":0.855
      }
   ],
   "requestId":"25018882-a494-4e64-8196-f627a35c1135",
   "metadata":{
      "height":473,
      "width":1260,
      "format":"Jpeg"
   },
   "modelVersion":"2021-05-01"
}

Limiti

È importante tenere presenti le limitazioni della funzione di rilevamento oggetti per evitare o mitigare gli effetti di eventuali falsi negativi (oggetti non rilevati) e di dettagli limitati.

  • Gli oggetti non vengono in genere rilevati se sono piccoli (di dimensioni inferiori al 5% dell'immagine).
  • Gli oggetti non vengono in genere rilevati se sono ravvicinati (ad esempio, una pila di piatti).
  • Gli oggetti non vengono differenziati in base alla marca o ai nomi del prodotto (ad esempio, diversi tipi di bibite su uno scaffale di un supermercato). È tuttavia possibile ottenere informazioni sul marchio presente in un'immagine usando la funzionalità per il rilevamento del marchio.

Usare l'API

La funzionalità per il rilevamento di oggetti fa parte dell'API di analisi delle immagini. È possibile chiamare questa API tramite un SDK nativo o con chiamate REST. Includere Objects nel parametro di visualFeatures query. Quindi, quando si ottiene la risposta JSON completa, analizzare la stringa per il contenuto della sezione degli oggetti .