Diffusion Model
Diffusion Models (Diffusionsmodelle) sind die derzeit dominierende Technologie hinter modernen KI-Bildgeneratoren wie Stable Diffusion, DALL-E 3 und Midjourney. Sie haben die älteren GANs in Qualität und Vielfalt weitgehend abgelöst. Das Funktionsprinzip ist von der Thermodynamik inspiriert:
Im Training lernt das Modell zunächst, ein Bild schrittweise zu zerstören, indem es immer mehr Rauschen (Noise) hinzufügt, bis nur noch statisches 'Schneegestöber' übrig ist. Der eigentliche Clou ist der Umkehrprozess: Das neuronale Netz lernt, aus diesem puren Rauschen schrittweise wieder Struktur und Details herauszufiltern, gesteuert durch einen Text-Prompt. Um ein neues Bild zu generieren, startet man mit zufälligem Rauschen und lässt das Modell 'den Nebel lichten', bis ein Bild entsteht, das dem Text entspricht.