Daten

Common Crawl

Common Crawl ist ein riesiges Archiv von Webseiten, das frei verfügbar ist. Es dient als primäre Datenquelle für das Training fast aller großen Sprachmodelle (LLMs). Die Qualität dieses Datasets ist jedoch schwankend, weshalb umfangreiche Filterung nötig ist.

Dataset

Alle Begriffe anzeigen

Verwandte Begriffe