Wie gpt-image-2 Illustrationen erstellt | MeinEigenesBuechlein

Du klickst auf “Generieren” und dreißig Sekunden später erscheint eine Illustration. Was in diesen dreißig Sekunden passiert, ist komplizierter - und interessanter - als es aussieht. Edwin, der Data-Engineer, der die Pipeline bei MeinEigenesBuechlein aufgebaut hat, erklärt es Schritt für Schritt. Keine Marketingtexte - eine technische Erklärung für alle, die wirklich verstehen wollen, was hinter den Kulissen passiert.

Was gpt-image-2 ist

gpt-image-2 ist das neueste Bildgenerierungsmodell von OpenAI, veröffentlicht im Jahr 2025. Im Gegensatz zu früheren Modellgenerationen kombiniert es GPT-Niveau-Textverständnis mit einem diffusionsbasierten Bild-Decoder. In der Praxis bedeutet das: Das Modell kann nuancierte Textanweisungen wesentlich zuverlässiger umsetzen als seine Vorgänger. “Eine Illustration eines Mädchens mit roten Locken, einer gelben Regenjacke und einem braunen Hund im Regen auf einer gepflasterten Straße” - das funktioniert. Nicht immer perfekt, aber erheblich zuverlässiger als DALL-E 2 oder Stable Diffusion bei vergleichbar komplexen Prompts.

Wie Diffusion funktioniert: von Rauschen zum Bild

Das Grundprinzip diffusionsbasierter Modelle wurde 2020 von Ho et al. in dem einflussreichen Paper “Denoising Diffusion Probabilistic Models” (NeurIPS 2020) beschrieben. Die Idee: Ein Modell wird trainiert, indem Bilder schrittweise mit Rauschen überlagert werden - der sogenannte “Forward-Process” - und das Modell lernt dann den Weg zurück: von Rauschen zum kohärenten Bild, dem “Reverse-Process”.

Bei der Nutzung beginnt das Modell mit reinem Rauschen, einem Bild aus vollständig zufälligen Pixeln. In Dutzenden von Schritten entrauscht es dieses Bild, geführt durch den Textprompt. Edwin: “Etwa bei Schritt 27 von 50 wurde der Charakter erkennbar. Davor: reines Rauschen. Dieser Übergang ist jedes Mal noch beeindruckend.”

Code auf einem Laptopbildschirm veranschaulicht die KI-Pipeline für Illustrationen

Das schwierigste Problem: Charakterkonsistenz über elf Seiten

Eine schöne Illustration zu generieren ist nicht das Schwierigste. Das Schwierigste ist, denselben Charakter über elf Seiten - in elf verschiedenen Szenen - konsistent zu halten. Dieselben roten Locken auf Seite drei wie auf Seite neun. Dieselbe gelbe Jacke.

Unsere Lösung: Reference-Passing. Die erste genehmigte Charakterillustration wird als Referenzbild bei jedem weiteren Prompt mitgesendet. In Kombination mit detaillierten schriftlichen Charakterbeschreibungen in jedem Prompt sorgt das für ausreichend Konsistenz.

Nicht fehlerlos. Edwin: “Bei etwa einer von acht Seiten generieren wir automatisch neu, weil der Charakterdrift merklich ist. Wir haben einfache Checks eingebaut, die anspringen, wenn sich die Haarfarbe plötzlich ändert.”

Das Foto, das du hochlädst, wird als zweite Referenz mitgesendet: Das Modell nutzt es, um Haartyp, Haarfarbe und Hautton anzunähern. Nach der Verarbeitung wird das Foto automatisch gelöscht. Persönliche Fotos werden nicht dauerhaft auf unseren Servern gespeichert.

Farbenfroher Code auf einem Bildschirm - die Bausteine hinter KI-Illustrationen

Wann gpt-image-2 an Grenzen stößt

Ehrlichkeit über Einschränkungen gehört zu einer ordentlichen technischen Erklärung. gpt-image-2 hat bekannte Schwachstellen.

Text in Abbildungen funktioniert selten gut: wir vermeiden Prompts, die lesbaren Text innerhalb der Illustration erfordern. Fotorealistische Ähnlichkeit ist keine Stärke des Modells: wenn eine genaue fotografische Ähnlichkeit mit deinem Kind das entscheidende Kriterium ist, ist ein Fotobuch oder ein handgezeichnetes Porträt von einem professionellen Illustrator die bessere Wahl. Unser ehrlicher Vergleich zwischen persönlichem Buch und einem Fotoshooting erklärt, wann welches Format besser passt.

Kulturell spezifische Kleidung und Schauplätze sind weniger zuverlässig: Das Modell wurde überwiegend mit westlichem Material trainiert. Sehr spezifische Trachten oder Architekturstile können uneinheitlich ausfallen.

Es gibt auch Situationen, in denen ein personalisiertes Buch unabhängig von der Technologie nicht die richtige Wahl ist. Unsere ehrliche Übersicht zu wann ein Buch mit dem Kindernamen nicht passt geht darauf ein.

Warum es trotzdem funktioniert

Kinder brauchen keine fotorealistische Genauigkeit. Sie brauchen Wiedererkennung. Rote Locken. Eine gelbe Jacke. Der Hund von zuhause. Diese erkennbaren Merkmale - kombiniert mit ihrem Namen in der Geschichte - lösen die “Das bin ich!”-Reaktion aus, die ein personalisiertes Buch anders fühlen lässt als ein Standardbilderbuch.

Opa und Enkel genießen ein Buch zusammen - das Ziel, auf das die Pipeline hinarbeitet

Edwin: “Ich habe den Prototyp zuerst mit einem Foto meiner eigenen Tochter getestet - rotes Haar, Sommersprossen, blaue Augen. Als sie sich auf dem Cover wiedererkannte, verstand ich wirklich, was wir bauten. Sie sagte: ‘Das bin ich, Papa.’ Sie hat nicht kritisch auf die Augenform oder den Nasenwinkel geschaut. Sie hat sich einfach gesehen.”

Das ist genau das Ziel, auf das die Technologie hinarbeitet. Dialogisches Vorlesen verstärkt diese Beteiligung noch weiter, wenn ein Kind sich in der Geschichte erkennt - der personalisierte Charakter wird zum Ausgangspunkt echter Gespräche.

Keine Magie, sondern sorgfältige Entwicklung

gpt-image-2 produziert nicht “einfach so” ein Kinderbuch. Hinter jeder Illustration stecken bewusste Entscheidungen: welche Stilbeschreibungen mitgesendet werden, wie die Charakterkonsistenz aufrechterhalten wird, wie das Foto als Referenz verarbeitet wird, welche automatischen Checks für jedes Ergebnis laufen. Die Technologie liefert den Pixel-Output; die Pipeline entscheidet, ob eine Illustration entsteht, in der ein Kind sich wirklich selbst erkennt.

Die Technologie verschwindet, wenn es funktioniert. Das ist das Einzige, was zählt.

👉 Erstelle das Buch deines Kindes