Architektur

Vision Transformer (ViT)

Der Vision Transformer wendet die reine Transformer-Architektur (ursprünglich für Text) auf Bilder an. Man zerlegt das Bild in kleine Quadrate ('Patches'), behandelt sie wie Wörter in einem Satz und füttert sie in einen Transformer. ViTs haben CNNs in vielen Bereichen als State-of-the-Art abgelöst.

Vision

Alle Begriffe anzeigen

Verwandte Begriffe