Daten

Validation Set

Das Validation Set (Validierungsdatensatz) ist ein oft unterschätzter, aber kritischer Teil der Datenaufteilung im Machine Learning. Man teilt Daten meist in drei Töpfe: Training (zum Lernen), Validation (zum Tunen) und Test (zur Endprüfung).

Das Validation Set wird *während* des Trainings genutzt, um zu prüfen, wie gut das Modell auf unbekannten Daten performt. Basierend auf diesem Feedback optimiert der Entwickler die Hyperparameter (Lernrate, Modellgröße) oder stoppt das Training (Early Stopping), wenn Overfitting einsetzt. Es ist quasi die 'Probeklausur', bevor im Test Set die echte Prüfung folgt.

Tuning