Informazioni sulla visione artificiale

Completato

La visione artificiale è un'area dell'intelligenza artificiale che si occupa dell'elaborazione visiva. Verranno esaminate alcune delle opportunità offerte dalla visione artificiale.

L'app Seeing AI è un esempio eccellente della potenza della visione artificiale. L'app Seeing AI, progettata per la comunità di persone non vedenti e ipovedenti, sfrutta le capacità dell'intelligenza artificiale per rendere disponibile il mondo visivo e descrivere le persone, il testo e gli oggetti nelle vicinanze.

Per altre informazioni su Seeing AI, vedere il video seguente.

Per scoprire di più, vedere la pagina Web di Seeing AI.

Modelli e funzionalità di visione artificiale

La maggior parte delle soluzioni di visione artificiale è basata su modelli di Machine Learning che possono essere applicati a input visivo da videocamere, video o immagini. La tabella seguente descrive attività comuni correlate alla visione artificiale.

Attività Descrizione
Classificazione immagini An image of a taxi with the label
La classificazione di immagini comporta il training di un modello di Machine Learning per classificare le immagini in base al rispettivo contenuto. In una soluzione di monitoraggio del traffico è ad esempio possibile usare un modello di classificazione delle immagini per classificare le immagini in base al tipo di veicolo contenuto, ad esempio taxi, bus, ciclisti e così via.
Rilevamento oggetti An image of a street with buses, cars, and cyclists identified and highlighted with a bounding box.
I modelli di Machine Learning per il rilevamento di oggetti sono sottoposti a training per classificare singoli oggetti in un'immagine e identificarne la posizione con un rettangolo delimitatore. Una soluzione di monitoraggio del traffico può ad esempio usare il rilevamento di oggetti per identificare la posizione di diversi tipi di veicoli.
Segmentazione semantica An image of a street with the pixels belonging to buses, cars, and cyclists identified.
La segmentazione semantica è una tecnica avanzata di Machine Learning in cui i singoli pixel dell'immagine vengono classificati in base all'oggetto a cui appartengono. Una soluzione di monitoraggio del traffico può ad esempio sovrapporre le immagini del traffico con livelli "maschera" per evidenziare diversi veicoli usando colori specifici.
Analisi di immagini An image of a person with a dog on a street and the caption
È possibile creare soluzioni che combinano modelli di Machine Learning con tecniche avanzate per l'analisi di immagini per estrarre informazioni dalle immagini, inclusi "tag" che possono semplificare la catalogazione delle immagini o addirittura didascalie descrittive che riepilogano la scena mostrata nell'immagine.
Rilevamento, analisi e riconoscimento di volti An image of multiple people on a city street with their faces highlighted.
Il rilevamento volto è una forma specializzata di rilevamento di oggetti che individua i visi delle persone in un'immagine. Questa funzionalità può essere combinata con tecniche di classificazione e di analisi della geometria dei volti per riconoscere le singole persone in base alle caratteristiche dei visi.
Riconoscimento ottico dei caratteri (OCR) An image of a building with the sign
Il riconoscimento ottico dei caratteri è una tecnica usata per rilevare e leggere testo nelle immagini. È possibile usare il riconoscimento ottico dei caratteri (OCR) per leggere il testo nelle fotografie, ad esempio cartelli stradali o insegne di negozi, oppure per estrarre informazioni da documenti digitalizzati, ad esempio lettere, fatture o moduli.

Servizi di visione artificiale in Microsoft Azure

È possibile usare Visione di Azure AI di Microsoft per sviluppare soluzioni di visione artificiale. Le funzionalità del servizio sono disponibili per l'uso e il test in Azure Vision Studio e altri linguaggi di programmazione. Alcune funzionalità di Visione di Azure AI includono:

  • Analisi di immagini: funzionalità per l'analisi di immagini e video ed estrazione di descrizioni, tag, oggetti e testo.
  • Viso: funzionalità che consentono di creare soluzioni di rilevamento volto e riconoscimento facciale.
  • Riconoscimento ottico dei caratteri (OCR): funzionalità per estrarre testo stampato o scritto a mano dalle immagini, consentendo l'accesso a una versione digitale del testo analizzato.