Common Crawl
Common Crawl ist ein riesiges Archiv von Webseiten, das frei verfügbar ist. Es dient als primäre Datenquelle für das Training fast aller großen Sprachmodelle (LLMs). Die Qualität dieses Datasets ist jedoch schwankend, weshalb umfangreiche Filterung nötig ist.