Daten

Synthetic Data

Synthetische Daten sind Daten, die nicht durch direkte Messung in der realen Welt gewonnen, sondern künstlich algorithmisch erzeugt wurden. Sie gewinnen massiv an Bedeutung, da echte, hochwertige Daten oft teuer, rar oder datenschutzrechtlich geschützt sind.

Beispiele: Um autonome Autos zu trainieren, lässt man sie Millionen Kilometer in einer fotorealistischen Videospiel-Engine fahren. Um Finanz-KI zu trainieren, generiert man Fake-Transaktionen, die echte Betrugsmuster enthalten, ohne echte Kundendaten zu nutzen. Mit dem Aufstieg generativer KI werden auch LLMs zunehmend mit Texten trainiert, die von anderen KIs geschrieben wurden ('Model Collapse' ist hier ein Risiko).

Privacy Cost