Förstå OpenAI:s funktioner för bildgenerering

5 minuter

Modeller för bildgenerering kan ta en uppmaning, en basavbildning eller båda och skapa något nytt. Dessa generativa AI-modeller kan skapa både realistiska och konstnärliga bilder, ändra layout eller stil för en bild och skapa variationer på en angivet bild.

DALL-E

Förutom funktioner för naturligt språk kan generativa AI-modeller redigera och skapa bilder. Modellen som fungerar med bilder kallas DALL-E. Precis som GPT-modeller läggs efterföljande versioner av DALL-E till i namnet, till exempel DALL-E 2. Bildfunktioner hör vanligtvis till de tre kategorierna för bildskapande, redigering av en bild och skapande av varianter av en bild.

Bildgenerering

Originalbilder kan genereras genom att ange en textfråga om vad du vill att bilden ska vara av. Ju mer detaljerad uppmaningen är, desto mer sannolikt är det att modellen ger ett önskat resultat.

Med DALL-E kan du till och med begära en bild i en viss stil, till exempel "en hund i stil med Vincent van Gogh". Format kan också användas för redigeringar och variationer.

Till exempel, med tanke på uppmaningen "en elefant som står med en hamburgare på toppen, stil digital konst", genererar modellen digitala konstbilder som visar exakt vad som efterfrågas.

Four AI generated art depictions of an elephant with a burger on top of it.

När du tillfrågas om något mer generiskt som "en rosa räv" är de bilder som genereras mer varierade och enklare samtidigt som de uppfyller det som efterfrågas.

Four AI generated art depictions of different pink foxes.

Men när vi gör frågan mer specifik, till exempel "en rosa räv som går genom ett fält, i monetstil", skapar modellen mycket mer liknande detaljerade bilder.

Four AI generated art depictions of a pink fox in the style of Monet.

Redigera en bild

När en bild tillhandahålls kan DALL-E redigera bilden på begäran genom att ändra dess format, lägga till eller ta bort objekt eller generera nytt innehåll att lägga till. Redigeringar görs genom att ladda upp den ursprungliga bilden och ange en transparent mask som anger vilket område i bilden som ska redigeras. Tillsammans med bilden och masken instruerar en uppmaning som anger vad som ska redigeras modellen att generera lämpligt innehåll för att fylla området.

När du får en av ovanstående bilder av en rosa räv, en mask som täcker räven och uppmaningen att "blå gorilla läser en bok i ett fält", skapar modellen redigeringar av bilden baserat på de angivna indata.

Four AI generated art depictions of a blue gorilla in a field.

Bildvariationer

Bildvariationer kan skapas genom att tillhandahålla en bild och ange hur många varianter av bilden du vill ha. Det allmänna innehållet i bilden förblir detsamma, men aspekter kommer att justeras, till exempel var ämnen finns eller letar, bakgrundsscen och färger kan ändras.

Om jag till exempel laddar upp en av bilderna på elefanten som bär en hamburgare som hatt, får jag varianter av samma ämne.

Four AI generated art variations of an elephant with a burger on its head.

Kommentar

Åtkomst till DALL-E beviljas för närvarande endast på inbjudan.

Fortsätt

Förstå OpenAI:s funktioner för bildgenerering

DALL-E

Bildgenerering

Redigera en bild

Bildvariationer

Feedback