Scegliere un'immagine e una tecnologia di elaborazione video di Azure per intelligenza artificiale

I servizi di Azure AI aiutarno sviluppatori e organizzazioni a creare applicazioni intelligenti, all'avanguardia, pronte per il mercato e responsabili con API e modelli predefiniti, personalizzabili e pronti all'uso.

Questo articolo illustra i servizi di intelligenza artificiale di Azure che offrono funzionalità di elaborazione video e immagini, ad esempio l'analisi visiva e la generazione di immagini, rilevamento di oggetti, classificazione delle immagini e riconoscimento facciale.

Servizi

I servizi seguenti offrono funzionalità di elaborazione video e immagini per i servizi di intelligenza artificiale di Azure:

  • OpenAI di Azure

    • Usare Azure OpenAI per la generazione di immagini dal linguaggio naturale usando modelli di imaging generativi con training preliminare. Ad esempio, generazione su richiesta di arte personalizzata.
    • Usare Azure OpenAI quando è necessario eseguire analisi non specifiche e generali sulle immagini. Ad esempio, generando descrizioni di accessibilità.
    • Non usare Azure OpenAI se si vogliono usare modelli di generazione di immagini open source disponibili in Azure Machine Learning.
    • Non usare Azure OpenAI se è necessario eseguire tipi specifici di elaborazione di immagini, ad esempio l'estrazione di moduli, il riconoscimento del viso o il rilevamento delle caratteristiche delle immagini specializzate nel dominio. Per questi scenari, usare o creare soluzioni di intelligenza artificiale progettate appositamente per tali scopi.
  • Visione di Azure AI

    • Usare il servizio Visione artificiale quando è necessario il riconoscimento ottico dei caratteri (OCR), l'analisi delle immagini o l'analisi video di base per rilevare il movimento e altri eventi.
    • Non usare il servizio Visione per l'analisi già supportati da modelli di base di grandi dimensioni e multi modali.
    • Non usare il servizio Visione per moderare il contenuto. Usare invece il servizio Content Safety.
  • Visione personalizzata di Azure AI

    • Usare il servizio quando si hanno requisiti specifici che l'analisi delle immagini del servizio Visione di base non può fornire. Ad esempio, è consigliabile riconoscere oggetti insoliti, difetti di produzione o fornire classificazioni personalizzate dettagliate.
    • Non usare il servizio se è necessario il rilevamento di oggetti di base o il rilevamento dei volti. Usare invece i servizi Viso o Visione.
    • Non usare il servizio per l'analisi visiva di base. Usare invece modelli con supporto per la visione da modelli OpenAI di Azure o open source in Azure Machine Learning.
  • Viso di Azure AI

    • Usare il servizio Viso quando è necessario verificare se i visi sono in diretta o falsificati o per identificare, raggruppare o trovare visi simili.
    • Non usare il servizio Viso per rilevare le emozioni nei visi o eseguire altre motivazioni di alto livello sui visi. Usare invece modelli linguistici multi modali per tali attività.
  • Video Indexer di Azure AI

    • Usare il servizio Azure Video Indexer per attività correlate all'analisi video più avanzate non fornite dall'analisi video di base del servizio Visione.
    • Non usare il servizio Azure Video Indexer per attività di analisi video di base, ad esempio il conteggio e il movimento e il rilevamento degli eventi. L'analisi video di base del servizio Visione è più conveniente per queste attività.

OpenAI di Azure

Azure OpenAI fornisce l'accesso ai modelli di linguaggio avanzati di OpenAI , inclusa la generazione più recente di modelli GPT. Questi supportano l'analisi visiva e le generazioni di immagini e DALL-E supportano la generazione di immagini.

Visione di Azure AI

Il servizio Visione di Azure AI fornisce algoritmi avanzati per elaborare le immagini e restituire informazioni, in base alle caratteristiche visive a cui si è interessati. Offre quattro servizi: OCR, servizio Viso, immagine e analisi spaziale.

Funzionalità

La tabella seguente fornisce un elenco delle funzionalità disponibili nel servizio Visione di Azure AI.

Funzionalità Descrizione
Riconoscimento ottico dei caratteri (OCR) Il servizio OCR (Optical Character Recognition) estrae testo dalle immagini. È possibile usare l'API Lettura per estrarre testo stampato e scritto a mano da foto e documenti. Usa modelli basati sull'apprendimento avanzato e funziona con il testo su varie superfici e sfondi. Tra cui documenti aziendali, fatture, ricevute, poster, biglietti da visita, lettere e lavagne. Le API OCR supportano l'estrazione di testo stampato in diverse lingue.
Analisi delle immagini Il servizio di analisi delle immagini estrae molte funzionalità visive dalle immagini, ad esempio oggetti, volti e descrizioni di testo generate automaticamente. Con l'analisi delle immagini 4.0 basata sul modello di base di Firenze, è anche possibile creare modelli di identificatore di immagine personalizzati.
Analisi video L'analisi video include funzionalità correlate ai video, come l'analisi spaziale e il recupero video. L’Analisi spaziale analizza la presenza e lo spostamento delle persone in un feed video e produce eventi a cui altri sistemi possono rispondere.

Visione personalizzata di Azure AI

Il servizio Visione personalizzata di Azure AI è un servizio di riconoscimento delle immagini che consente di creare, distribuire e migliorare modelli di identificatori di immagini personalizzati. Un identificatore di immagini applica etichette alle immagini, in base alle relative caratteristiche visive. Ogni etichetta rappresenta una classificazione o un oggetto. Visione personalizzata consente di specificare etichette personalizzate ed eseguire il training di modelli personalizzati per rilevarli.

Il servizio Visione personalizzata usa un algoritmo di Machine Learning per analizzare le immagini per le funzionalità personalizzate. Si inviano set di immagini che hanno e non hanno le caratteristiche visive desiderate. Etichettare quindi le immagini con etichette personalizzate (tag) al momento dell'invio. L'algoritmo esegue il training in base a questi dati e calcola la propria accuratezza usando le stesse immagini per testare il proprio funzionamento. Dopo il training del modello, è possibile testarlo, ripeterne il training e infine usarlo nell'app per il riconoscimento delle immagini per classificare immagini oeliminare oggetti. È anche possibile esportare il modello per usarlo offline.

Funzionalità

La tabella seguente fornisce un elenco delle funzionalità disponibili nel servizio Visione personalizzata di Azure AI.

Funzionalità Descrizione
Classificazione immagini Stimare una categoria o una classe in base a un set di input, denominati funzionalità. Calcolare un punteggio di probabilità per ogni classe possibile e restituire un'etichetta che indica la classe a cui appartiene l'oggetto più probabile. Per usare questo modello, sono necessari dati costituiti dalle caratteristiche e dalle relative etichette.
Rilevamento oggetti Ottiene le coordinate di un oggetto in un'immagine. Per usare questo modello, sono necessari dati costituiti dalle caratteristiche e dalle relative etichette

Casi d'uso

Nella tabella seguente è riportato un elenco dei possibili casi d'uso per il servizio Azure ai Visione personalizzata.

Caso d'uso Descrizione
Usare Visione personalizzata con un dispositivo IoT per segnalare gli stati visivi Usare Visione personalizzata per addestrare un dispositivo con una fotocamera a rilevare gli stati visivi. È possibile eseguire questo scenario di rilevamento su un dispositivo IoT usando un modello ONNX esportato. Uno stato visivo descrive il contenuto di un'immagine, ovvero una stanza vuota o una stanza con persone, una strada vuota o una strada con un camion e così via.
Riconosci i loghi nelle immagini della fotocamera Analizzare le foto, cercando logo specifici.

Viso di Azure AI

Il servizio Viso di Azure AI offre algoritmi di intelligenza artificiale che rilevano, riconoscono e analizzano i visi umani nelle immagini. Il software di riconoscimento facciale è importante in molti scenari, ad esempio identificazione, controllo di accesso touchless e sfocatura automatica del viso per la privacy.

Funzionalità

La tabella seguente fornisce un elenco delle funzionalità disponibili nel servizio Viso di Azure AI.

Funzionalità Descrizione
Rilevamento e analisi del volto Rileva l'identificazione delle aree di un'immagine che contengono un viso umano, in genere restituendo le coordinate del rettangolo di selezione che formano un rettangolo attorno al viso.
Individuare visi simili L'operazione di ricerca di visi simili confronta un viso di destinazione con un set di visi candidati e individua un set più piccolo di visi simili a quello di destinazione. Questo è utile per eseguire una ricerca di volti per immagine.
Raggruppare i volti L'operazione Gruppo divide un set di visi sconosciuti in vari gruppi più piccoli in base alla somiglianza. Ogni gruppo è un subset proprio indipendente del set di visi originale. Inoltre, restituisce una singola matrice "messyGroup" che contiene gli ID dei visi per i quali non sono state rilevate analogie.
Identificazione L'identificazione del viso nel servizio Viso può indirizzare la corrispondenza "uno-a-molti" di un viso in un'immagine, a una serie di visi in un repository sicuro. I candidati corrispondenti vengono restituiti in base alla precisione con cui i dati dei loro visi corrispondono al viso sottoposto a query.
Operazioni di riconoscimento facciale Le aziende e le app moderne possono usare le tecnologie di riconoscimento dei volti, tra cui la verifica del viso (corrispondenza “uno-a-uno”) e l'identificazione del viso (corrispondenza “uno-a-molti”) per verificare che un utente sia chi dichiara di essere.
Rilevamento della vitalità Il rilevamento della vitalità è una funzione anti-spoofing che verifica se un utente è fisicamente presente davanti alla telecamera. Viene usato per impedire attacchi di spoofing usando una foto stampata, un video registrato o una maschera 3D del viso dell'utente.

Casi d'uso

Nella tabella seguente è riportato un elenco dei possibili casi d'uso per il servizio Viso di Azure AI.

Caso d'uso Descrizione
Verificare l'identità dell'utente. Verifica una persona rispetto a un'immagine del viso attendibile. Questa verifica potrebbe essere utilizzata per concedere l'accesso a proprietà digitali o fisiche. Nella maggior parte dei casi, l'immagine del viso attendibile può provenire da un ID emesso dal governo, ad esempio un passaporto o una patente di guida, oppure può provenire da una foto di registrazione scattata di persona. Durante la verifica, il rilevamento dell'attività può svolgere un ruolo fondamentale per verificare che l'immagine provenga da una persona reale, non da una foto o una maschera stampata.
Offuscamento dei volti Oscura o sfoca i volti rilevati delle persone registrate in un video per proteggerne la privacy.
Controllo di accesso senza tocco. Rispetto a metodi come tessere o biglietti, l'identificazione facciale opt-in consente un'esperienza di controllo degli accessi migliorata, riducendo al contempo i rischi per l'igiene e la sicurezza derivanti dalla condivisione, dalla perdita o dal furto di supporti fisici. Il riconoscimento facciale fornisce assistenza nel processo di check-in, con un essere umano che partecipa all’operazione, durante il check-in aeroporti, stadi, parchi a tema, edifici, chioschi di ricevimento presso uffici, ospedali, palestre, club e scuole.

Video Indexer di Azure AI

Azure AI Video Indexer è un'applicazione cloud, parte dei servizi di intelligenza artificiale di Azure, basata sui servizi di intelligenza artificiale di Azure (ad esempio Face, Translator, Azure AI Vision e Speech). Consente di estrarre informazioni dettagliate dai video tramite i modelli audio e video di Video Indexer di Azure AI.

Funzionalità

La tabella seguente fornisce un elenco di alcune delle funzionalità disponibili nel servizio Video Indexer per intelligenza artificiale di Azure.

Funzionalità Descrizione
Identificazione e trascrizione vocale multilingue Identifica la lingua parlata in segmenti diversi dell'audio. Invia ogni segmento del file multimediale da trascrivere, quindi combina nuovamente la trascrizione in un'unica trascrizione unificata.
Rilevamento volti rileva e raggruppa i visi visualizzati nel video.
Identificazione di celebrità Identifica automaticamente oltre 1 milione di celebrità, ad esempio leader mondiali, attori, artisti, atleti, ricercatori, imprenditori e leader tecnologici in tutto il mondo. I dati relativi a queste celebrità possono anche essere trovati su diversi siti Web (IMDB, Wikipedia e così via).
Identificazione viso basata sull'account. Esegue il training di un modello per un account specifico. Riconosce quindi i visi nel video in base al modello sottoposto a training.
Rilevamento delle persone osservate (anteprima) Rileva le persone osservate nei video e fornisce informazioni come la posizione della persona nel fotogramma video (usando rettangoli delimitatori) e il timestamp esatto (inizio, fine) e la confidenza quando viene visualizzata una persona.
Trascrizione audio Converte il parlato in testo più di 50 lingue diverse e consente le estensioni.
Rilevamento lingua Identifica la lingua parlata dominante.
Riduzione del rumore ripulisce le registrazioni audio di telefonia o le registrazioni con rumori (in base ai filtri Skype).
Traduzione Crea traduzioni della trascrizione audio in lingue diverse.

Per esaminare altre funzionalità del servizio Azure AI Video Indexer, vedere la documentazione di Azure AI Video Indexer.

Casi d'uso

Nella tabella seguente è riportato un elenco dei possibili casi d'uso per il servizio Video Indexer di Azure AI.

Caso d'uso Descrizione
Ricerca avanzata usare le informazioni dettagliate estratte dal video per ottimizzare l'esperienza di ricerca in un catalogo video. L'indicizzazione del testo parlato e dei visi può ad esempio consentire di usare l'esperienza di ricerca per trovare i momenti in un video in cui una persona specifica ha pronunciato determinate parole o in cui due persone vengono viste insieme. La ricerca basata su tali informazioni dettagliate estratte dai video è utile per agenzie di stampa, istituti di istruzione, operatori che trasmettono eventi live, proprietari di contenuti per l'intrattenimento, app line-of-business aziendali e in genere per qualsiasi settore in cui gli utenti abbiano l'esigenza di eseguire ricerche in un catalogo video.
Creazione di contenuto con le informazioni dettagliate che Video Indexer di Azure AI estrae dal contenuto è possibile creare trailer, momenti salienti, contenuti per social media o clip di notizie. I fotogrammi chiave, i marcatori di scene e i timestamp per gli aspetti di persone ed etichette rendono il processo di creazione molto più semplice e veloce e consentono di recuperare le parti del video necessarie per il contenuto da creare.
Accessibilità sia per rendere disponibili i contenuti per persone con disabilità o per distribuire il contenuto in aree diverse con lingue diverse, è possibile usare le funzionalità di trascrizione e traduzione fornite da Video Indexer di Azure AI in più lingue.
Monetizzazione Video Indexer di Azure AI può contribuire a incrementare il valore dei video. Ad esempio, i settori che si basano sui ricavi della pubblicità (mezzi di informazione, social media e così via) possono pubblicare annunci pertinenti usando le informazioni dettagliate estratte come segnali aggiuntivi inviati al server di annunci.
Moderazione del contenuto usare i modelli di moderazione dei contenuti testuali e visivi per proteggere gli utenti da contenuti inappropriati e verificare che quelli pubblicati rispettino i valori dell'organizzazione. È possibile bloccare automaticamente determinati video o avvisare gli utenti sul contenuto.
Consigli le informazioni dettagliate dei video possono essere usate per migliorare l'engagement degli utenti evidenziando i momenti più pertinenti per loro. Contrassegnando ogni video con metadati aggiuntivi, è possibile consigliare agli utenti i video più pertinenti ed evidenziare le parti che soddisfano le loro esigenze.

Passaggi successivi