Mixture of Experts (MoE)
Mixture of Experts (MoE) ist eine effiziente Modellarchitektur, bei der das neuronale Netz in viele kleine Sub-Netzwerke ('Experten') unterteilt ist. Für jeden Token einer Eingabe aktiviert das System nur die relevantesten Experten (z.B. die Experten für 'Mathematik' oder 'Grammatik'). Dies erlaubt es, Modelle mit enorm vielen Parametern zu bauen, die aber bei der Inferenz (Nutzung) viel weniger Rechenleistung und Speicherbandbreite benötigen als dichte Modelle.