Wie erzeugt KI wirklich ein Bild? Diffusionsmodelle erklärt

Wenn du bei MeinEigenesBuechlein.de ein personalisiertes Kinderbuch bestellst, generiert eine KI innerhalb von Sekunden eine Illustration, die es so noch nie gegeben hat. Aber wie funktioniert das genau? Kein Pixel wird kopiert, kein vorhandenes Bild wiederverwendet. Hier erfährst du, was wirklich hinter den Kulissen passiert.

Schritt 1: den Text verstehen

Die KI beginnt nicht mit einer leeren Leinwand. Sie beginnt mit deiner Beschreibung: “Ein 4-jähriges Mädchen mit roten Haaren und einem blauen Kleid läuft durch einen verzauberten Wald.”

Dieser Satz wird zunächst von einem Text-Encoder verarbeitet - einem separaten neuronalen Netzwerk, das die Bedeutung von Sprache in eine Reihe von Zahlen umwandelt. Jede Wortkombination erzeugt einen einzigartigen numerischen “Fingerabdruck”. “Verzauberter Wald” ergibt eine andere Zahlenreihe als “normaler Wald”. Diese Zahlen steuern den gesamten Generierungsprozess.

Das am häufigsten verwendete System hierfür ist CLIP (Contrastive Language-Image Pretraining), trainiert auf Hunderten von Millionen Text-Bild-Paaren. Es hat gelernt, wie Wörter wie “malerisch”, “warmes Licht” und “Aquarell” mit visuellen Eigenschaften zusammenhängen.

Schritt 2: mit Rauschen beginnen

Hier liegt das Clevere. Ein Diffusionsmodell erzeugt ein Bild, indem es das Gegenteil von dem tut, was man erwarten würde.

Training: das Modell hat Tausende von Bildern gesehen, die schrittweise in zufälliges Rauschen umgewandelt wurden - wie ein Foto, das langsam zu TV-Rauschen verblasst. Bei jedem Schritt lernte das Modell vorherzusagen, welches Rauschen hinzugefügt worden war.

Generierung: jetzt kehrt das Modell diesen Prozess um. Es beginnt mit einer Leinwand aus reinem Zufallsrauschen und entfernt Schritt für Schritt Rauschen, geleitet vom Text-Encoder. Nach Dutzenden bis Hunderten von Schritten entsteht ein erkennbares Bild.

Dies wird als Denoising Diffusion bezeichnet. Bei jedem Schritt sagt das Modell voraus: “Was ist hier das wahrscheinlichste Bild, gegeben diesen Text und diesen halb-verrauschten Zustand?”

Schritt 3: der latente Raum

Moderne Modelle arbeiten nicht direkt mit vollständigen Bildern - das würde enorm viel Rechenleistung erfordern. Stattdessen arbeiten sie in einem komprimierten latenten Raum. Ein Bild von 1024x1024 Pixeln wird zunächst in eine viel kleinere Darstellung komprimiert - die Essenz des Bildes, ohne jeden einzelnen Pixel.

Der Diffusionsprozess findet in diesem komprimierten Raum statt. Erst am Ende dekomprimiert ein Decoder das Ergebnis zurück in das vollständige Bild. Das macht den Prozess deutlich effizienter, ohne Qualitätseinbußen.

Schritt 4: Stilkonsistenz

Wenn du bei MeinEigenesBuechlein.de einen Stil wählst - zum Beispiel sanftes Aquarell - wird diese Stilbeschreibung in jeden Prompt für jede Seite einbezogen. Der Text-Encoder “weiß”, dass Aquarell mit weichen Kanten, transparenten Schichten und warmen Tönen verbunden ist.

Da jedes Bild denselben Text-Encoder und dasselbe Diffusionsmodell mit einer ähnlichen Stilbeschreibung verwendet, entsteht visuelle Kohärenz - auch wenn jede Illustration unabhängig voneinander generiert wird.

Was macht es einzigartig?

Ein Diffusionsmodell kopiert kein vorhandenes Bild. Es hat Muster gelernt: wie Licht fällt, wie Haare sich bewegen, wie ein Wald “verzaubert” aussehen kann. Diese Muster kombiniert es auf neue Weise für deinen spezifischen Prompt.

Jedes so generierte Bild existiert zum ersten Mal in dem Moment, in dem du danach fragst.

Möchtest du sehen, wie diese Technologie für ein vollständiges Bilderbuch eingesetzt wird? Lies: Wie erstellt KI Illustrationen für Kinderbücher?

Oder erfahre, wie du dein eigenes erstellst: Kinderbuch erstellen mit KI.

👉 Erstelle jetzt dein personalisiertes Kinderbuch

Schritt 1: den Text verstehen

Schritt 2: mit Rauschen beginnen

Schritt 3: der latente Raum

Schritt 4: Stilkonsistenz

Was macht es einzigartig?

Dein Kind als Hauptfigur?