Daten

Corpus

Ein Korpus (Plural: Korpora) ist eine große, strukturierte Sammlung von Texten, die für linguistische Analysen oder das Training von Sprachmodellen verwendet wird. Beispiele sind der 'Common Crawl' oder Wikipedia-Dumps. Die Qualität, Vielfalt und Größe des Korpus bestimmen die Fähigkeiten des Modells.

NLP Dataset