Architektur

Diffusion Model

Diffusion Models (Diffusionsmodelle) sind die derzeit dominierende Technologie hinter modernen KI-Bildgeneratoren wie Stable Diffusion, DALL-E 3 und Midjourney. Sie haben die älteren GANs in Qualität und Vielfalt weitgehend abgelöst. Das Funktionsprinzip ist von der Thermodynamik inspiriert:

Im Training lernt das Modell zunächst, ein Bild schrittweise zu zerstören, indem es immer mehr Rauschen (Noise) hinzufügt, bis nur noch statisches 'Schneegestöber' übrig ist. Der eigentliche Clou ist der Umkehrprozess: Das neuronale Netz lernt, aus diesem puren Rauschen schrittweise wieder Struktur und Details herauszufiltern, gesteuert durch einen Text-Prompt. Um ein neues Bild zu generieren, startet man mit zufälligem Rauschen und lässt das Modell 'den Nebel lichten', bis ein Bild entsteht, das dem Text entspricht.

Generative AI Vision

Alle Begriffe anzeigen

Verwandte Begriffe