Förstå OpenAI:s funktioner för bildgenerering
Modeller för bildgenerering kan ta en uppmaning, en basavbildning eller båda och skapa något nytt. Dessa generativa AI-modeller kan skapa både realistiska och konstnärliga bilder, ändra layout eller stil för en bild och skapa variationer på en angivet bild.
DALL-E
Förutom funktioner för naturligt språk kan generativa AI-modeller redigera och skapa bilder. Modellen som fungerar med bilder kallas DALL-E. Precis som GPT-modeller läggs efterföljande versioner av DALL-E till i namnet, till exempel DALL-E 2. Bildfunktioner hör vanligtvis till de tre kategorierna för bildskapande, redigering av en bild och skapande av varianter av en bild.
Bildgenerering
Originalbilder kan genereras genom att ange en textfråga om vad du vill att bilden ska vara av. Ju mer detaljerad uppmaningen är, desto mer sannolikt är det att modellen ger ett önskat resultat.
Med DALL-E kan du till och med begära en bild i en viss stil, till exempel "en hund i stil med Vincent van Gogh". Format kan också användas för redigeringar och variationer.
Till exempel, med tanke på uppmaningen "en elefant som står med en hamburgare på toppen, stil digital konst", genererar modellen digitala konstbilder som visar exakt vad som efterfrågas.
När du tillfrågas om något mer generiskt som "en rosa räv" är de bilder som genereras mer varierade och enklare samtidigt som de uppfyller det som efterfrågas.
Men när vi gör frågan mer specifik, till exempel "en rosa räv som går genom ett fält, i monetstil", skapar modellen mycket mer liknande detaljerade bilder.
Redigera en bild
När en bild tillhandahålls kan DALL-E redigera bilden på begäran genom att ändra dess format, lägga till eller ta bort objekt eller generera nytt innehåll att lägga till. Redigeringar görs genom att ladda upp den ursprungliga bilden och ange en transparent mask som anger vilket område i bilden som ska redigeras. Tillsammans med bilden och masken instruerar en uppmaning som anger vad som ska redigeras modellen att generera lämpligt innehåll för att fylla området.
När du får en av ovanstående bilder av en rosa räv, en mask som täcker räven och uppmaningen att "blå gorilla läser en bok i ett fält", skapar modellen redigeringar av bilden baserat på de angivna indata.
Bildvariationer
Bildvariationer kan skapas genom att tillhandahålla en bild och ange hur många varianter av bilden du vill ha. Det allmänna innehållet i bilden förblir detsamma, men aspekter kommer att justeras, till exempel var ämnen finns eller letar, bakgrundsscen och färger kan ändras.
Om jag till exempel laddar upp en av bilderna på elefanten som bär en hamburgare som hatt, får jag varianter av samma ämne.
Kommentar
Åtkomst till DALL-E beviljas för närvarande endast på inbjudan.