In der dynamischen Welt der Künstlichen Intelligenz (KI) rückt die Frage nach der Herkunft und rechtmäßigen Nutzung von Trainingsdaten immer stärker in den Fokus. Aktuelle Debatten, wie die um Metas KI-Training oder die Pläne von Doctolib, zeigen die Spannungen zwischen Innovationsbedarf und strengen Datenschutzauflagen. Vor diesem Hintergrund verdient eine jüngste Entwicklung besondere Beachtung: die Veröffentlichung des The Common Pile, ein lizenzierter Datensatz, der ausschließlich auf öffentlich zugänglichen und offen lizenzierten Texten basiert. Ist dies ein Wegweiser für ein ethischeres KI-Ökosystem?
Data-Scraping: Das Problem der Datenbeschaffung für LLMs
Moderne große Sprachmodelle (LLMs) benötigen enorme Mengen an Textdaten für ihr Vortraining. Bislang wurden hierfür oft riesige Mengen an unlizenziertem Text aus dem öffentlichen Internet verwendet. Diese Praxis hat zu erheblicher Kritik geführt, nicht zuletzt wegen möglicher Urheberrechtsverletzungen und ethischer Bedenken. Es gab bereits zahlreiche Klagen gegen LLM-Entwickler.
Die GEMA hatte zuletzt zwei Klagen gegen OpenAI und den KI-Musikgenerator Suno AI eingereicht. Der Vorwurf: Urheberrechtsverletzung durch massenhaftes Training auf nicht-lizenzierten Musikwerken. Auch wenn es sich hierbei um Musikdaten handelt, illustrieren die Klagen ein Grundproblem. Die unklare oder fehlende Rechtsgrundlage für das massenhafte Daten-Scraping aus dem Internet betrifft fast alle KI-Bereiche.
License Due Diligence – Eine ethische Alternative?
The Common Pile begegnet der Herausforderung rechtssicherer Datenbeschaffung für KI-Modelle mit einem innovativen Ansatz: einem acht Terabyte großen lizenziertem Datensatz, der ausschließlich aus öffentlich zugänglichem und offen lizenziertem Text besteht. Unter „offen lizenziert“ versteht man Inhalte, deren Urheber die explizite Erlaubnis zur Nutzung, Veränderung und Weitergabe für beliebige Zwecke gegeben haben. Die Inhalte stammen aus über 30 Quellen von wissenschaftlichen Publikationen über Open-Source-Code bis hin zu Gesetzestexten aus den USA und Großbritannien sowie Public-Domain-Büchern.
Ein zentraler Bestandteil des Projekts ist die sogenannte License Due Diligence, also die sorgfältige Prüfung der Lizenzen zur Vermeidung von „Lizenzwäsche“. So wurden etwa Quellen wie OpenAlex und bestimmte YouTube-Commons-Daten ausgeschlossen, ebenso wie synthetisch generierte Inhalte, deren rechtlicher Status unsicher ist. Um die Qualität und rechtliche Konformität der Daten weiter zu sichern, wurden ausschließlich englischsprachige Inhalte beibehalten, fehlerhafte oder verrauschte Texte entfernt und eine unscharfe Deduplizierung über Dokumentgrenzen hinweg vorgenommen. Auch im Hinblick auf den Datenschutz setzt der Common Pile v0.1 Maßstäbe. Persönlich identifizierbare Informationen wie E-Mail-Adressen, IPs oder Telefonnummern wurden konsequent entfernt und durch Platzhalter ersetzt.
Die Ersteller des The Common Pile haben zwei 7-Milliarden-Parameter-LLMs, Comma v0.1-1T und Comma v0.1-2T, auf diesem Datensatz trainiert. Diese Modelle erreichen nach Angaben der Forscher eine wettbewerbsfähige Leistung im Vergleich zu LLMs, die mit ähnlichem Budget auf unlizenziertem Text trainiert wurden, wie z.B. Llama 1 und 2 7B.
Grenzen für personalisierte Geschäftsmodelle
Ein lizenzierter Datensatz ist ein wertvoller Beitrag zu einem ethischeren KI-Ökosystem, da er ausschließlich offen lizenzierte Daten nutzt, die sich für das Training leistungsfähiger Sprachmodelle eignen. Für Unternehmen wie Meta oder Doctolib, deren Geschäftsmodelle jedoch auf der Analyse und Personalisierung basieren – also auf hochsensiblen, oft informellen Nutzerdaten – reicht dieser Ansatz nicht aus. Beide setzen auf Trainingsdaten aus unmittelbaren Nutzerinteraktionen, bei Doctolib betrifft dies sogar gesundheitsbezogene Angaben, wie jüngst durch bekannt gewordene Pläne zur Nutzung medizinischer Daten für KI-Zwecke deutlich wurde.
Während Meta und Doctolib sich dabei auf das „berechtigte Interesse“ (Art. 6 Abs. 1 lit. f DSGVO) stützen, fordern Datenschützer eine explizite Einwilligung. Der Europäische Datenschutzausschuss (EDSA) hat hierzu einen dreistufigen Prüfmechanismus formuliert. Der Common Pile umgeht diese komplexen Abwägungen weitgehend, da alle enthaltenen Inhalte entweder gemeinfrei oder durch klare Lizenzen zur Nutzung, Veränderung und Weiterverbreitung freigegeben sind. Die für personalisierte Systeme notwendige Interaktions- und Verhaltensdaten fehlen jedoch bewusst – ein ethischer Gewinn, zugleich aber ein funktionaler Nachteil für datenhungrige Geschäftsmodelle. In der Debatte um Metas Nutzung von Nutzerdaten für KI-Training lehnte zuletzt das OLG Köln einen Eilantrag der Verbraucherzentrale NRW ab. Zumindest vorerst ein Gewinn für Meta.
Fazit
Der Common Pile v0.1 zeigt, dass leistungsfähiges KI-Training auch auf Basis eines lizenzierten Datensatzes möglich ist – ganz ohne rechtlich bedenkliches Web-Scraping. Doch ein lizenzierter Datensatz hat auch Grenzen: Für stark personalisierte oder kontextabhängige Systeme wie die von Meta oder Doctolib fehlen zentrale Datenarten. Der Common Pile ist damit weniger eine universelle Lösung als vielmehr ein ethischer Gegenentwurf zur gegenwärtigen Praxis. Ein Korrektiv – aber (noch) kein Ersatz.