ChatGPT:s nya bildgenerering

2025-03-29

OpenAI har nyligen introducerat en betydande uppgradering av ChatGPT genom att integrera avancerad bildgenerering direkt i GPT-4o-modellen. Denna förbättring gör det möjligt för användare att skapa detaljerade och fotorealistiska bilder enbart baserat på textbeskrivningar. Till skillnad från tidigare modeller, som DALL·E 3, är denna funktion inbyggd i GPT-4o, vilket förenklar processen och gör den mer tillgänglig för användarna.

Den nya bildgenereringsfunktionen har redan fått stor uppmärksamhet, särskilt för dess förmåga att återskapa konstnärliga stilar, såsom Studio Ghiblis distinkta estetik. Användare har delat bilder där de förvandlat sina fotografier till Ghibli-liknande konstverk, vilket har lett till en blandad respons. Vissa imponeras av den visuella kvaliteten, medan andra uttrycker oro för upphovsrättsliga och etiska implikationer.

Tekniskt sett representerar GPT-4o en betydande framsteg inom multimodala AI-modeller. Den kan bearbeta och generera text, bilder och ljud, vilket möjliggör en mer integrerad och effektiv användarupplevelse. För att uppnå hög precision och realism i bildgenereringen har OpenAI använt sig av förstärkande inlärning med mänsklig feedback, där mänskliga tränare har hjälpt till att korrigera felaktigheter i AI-genererade bilder.

Trots dessa framsteg finns det fortfarande vissa begränsningar. Modellen kan ibland göra misstag, såsom att felaktigt reproducera bildelement eller generera bilder som inte överensstämmer helt med användarens avsikt.

Jag har labbat lite med den och måste säga att jag är rätt imponerad. Det blir fortfarande tokigt ibland, men att den numera är bättre på text samt kan skapa transparenta bakgrunder är två saker åtminstone jag uppskattar. En annan sak är att den kan skapa en karaktär och sedan placera den i olika miljöer och generera den i olika stilar.

Uppgraderingen är för närvarande tillgänglig för användare på olika prenumerationsnivåer, inklusive Plus, Pro, Team och även i gratisversionen, vilket gör den bredare tillgänglig för allmänheten. Det markerar ett viktigt steg framåt i integrationen av avancerad bildgenerering i vardagliga AI-verktyg, och öppnar upp för nya kreativa och praktiska tillämpningar för användare världen över.