Raccogliere immagini
Per eseguire il training di un modello di rilevamento oggetti per il riconoscimento degli oggetti, è necessario raccogliere immagini che contengono questi oggetti. Per ottenere risultati migliori, segui le linee guida sulla quantità e sulla qualità delle immagini.
Formato e dimensioni
Le immagini che includerai nel tuo modello di rilevamento oggetti devono avere le seguenti caratteristiche:
Formato:
- JPG
- PNG
- BMP
Dimensioni:
- Fino a 6 MB per il training
- Larghezza/altezza minima di 256 pixel x 256 pixel
Quantità e bilanciamento dei dati
Per eseguire il training del modello di intelligenza artificiale, è importante caricare un numero sufficiente di immagini. Per iniziare, il set di training deve avere almeno 15 immagini per oggetto. Un numero inferiore di immagini comporta un rischio elevato per il modello, che potrebbe apprendere concetti poco significativi o non rilevanti. Eseguire il training del modello usando più immagini aumenta l'accuratezza.
È anche necessario assicurarsi che i dati siano equilibrati. Se si hanno 500 immagini per un oggetto e solo 50 immagini per un altro, il set di dati di training non è bilanciato. Il modello potrebbe quindi riconoscere meglio uno degli oggetti. Per ottenere risultati più coerenti, mantieni almeno un rapporto di 1:2 tra l'oggetto con il numero minore e quello con il numero maggiore di immagini. Se ad esempio l'oggetto con il numero maggiore di immagini ha 500 immagini, l'oggetto con il numero minore di immagini dovrà averne almeno 250 per il training.
Utilizzare le immagini più disparate
Fornisci immagini che siano rappresentative del contenuto che verrà inviato al modello durante il nomale utilizzo. Immagina ad esempio di eseguire il training di un modello per il riconoscimento delle mele. Se si esegue il training solo di immagini di mele su piatti, le mele sugli alberi potrebbero non essere riconosciute in modo coerente. L'uso di diversi tipi di immagini farà in modo che il modello non venga fuorviato e possa eseguire generalizzazioni corrette. Di seguito vengono illustrati alcuni modi in cui è possibile diversificare il set per il training.
Sfondo
Utilizza le immagini dei tuoi oggetti davanti a sfondi diversi, ad esempio, frutta nei piatti, in mano e sugli alberi. Le foto nel contesto sono migliori delle foto davanti a background neutri perché offrono più informazioni per la persona che deve eseguire la classificazione.
Illuminazione
Usa immagini di training con illuminazione diversa, soprattutto se le immagini usate per il rilevamento potrebbero avere un'illuminazione diversa. Ad esempio, includi le immagini scattate con il flash, con esposizione elevata e così via. È utile anche includere immagini con saturazione, tonalità e luminosità diverse. La fotocamera del dispositivo può consentire il controllo di queste impostazioni.
Dimensione degli oggetti
Fornisci immagini in cui gli oggetti sono di varie dimensioni, acquisendo diverse parti dell'oggetto: ad esempio, una foto di caschi di banane e un primo piano di una singola banana. Le diverse dimensioni consentono una maggiore generalizzazione del modello.
Angolazione della fotocamera
Prova ad acquisire immagini scattate da angolazioni diverse. Se tutte le foto sono scattate da un set di fotocamere fisse, ad esempio dalle videocamere di sorveglianza, assegna un'etichetta diversa a ogni fotocamera. In questo modo si evita di creare un modello di oggetti non correlati, ad esempio i lampioni, come funzionalità chiave. Assegna le etichette anche se le fotocamere acquisiscono gli stessi oggetti.
Risultati imprevisti
I modelli di intelligenza artificiale possono apprendere erroneamente alcune caratteristiche che le immagini hanno in comune. Supponiamo di voler creare un modello per distinguere una mela da un agrume. Se si usano immagini di mele in mano e di agrumi su piatti bianchi, il modello potrebbe eseguire il training di mani rispetto a piatti bianchi anziché di mele rispetto ad agrumi.
Per correggere questo problema, utilizzare le istruzioni descritte sopra sul training con immagini diversificate: fornisci immagini con diverse angolazioni, background, dimensioni degli oggetti, gruppi e altre varianti.