Vision Transformer (ViT)
Der Vision Transformer wendet die reine Transformer-Architektur (ursprünglich für Text) auf Bilder an. Man zerlegt das Bild in kleine Quadrate ('Patches'), behandelt sie wie Wörter in einem Satz und füttert sie in einen Transformer. ViTs haben CNNs in vielen Bereichen als State-of-the-Art abgelöst.