Die französische Datenschutzbehörde CNIL hat im Zuge einer öffentlichen Konsultation neue Empfehlungen veröffentlicht, die den rechtlichen Rahmen für die Entwicklung von KI-Systemen, insbesondere hinsichtlich der Nutzung des berechtigten Interesses, Web Scraping und Open Source-Modellen, präzisieren. Diese Leitlinien, die in mehreren Praxisblättern dargelegt sind, zielen darauf ab, Rechtssicherheit für Unternehmen zu schaffen und gleichzeitig den Schutz personenbezogener Daten gemäß der Datenschutz-Grundverordnung (DSGVO) zu gewährleisten.
Berechtigtes Interesse für die KI-Entwicklung
Wie uns Meta, Doctolib und eBay zuletzt gezeigt haben, stützen sich Verantwortliche für die Entwicklung von KI-Systemen am liebsten auf ihr berechtigtes Interesse als Rechtsgrundlage. Dies ist insbesondere der Fall, wenn die Einholung von Einwilligungen der betroffenen Personen in großem Umfang schwierig ist oder personenbezogene Daten indirekt erhoben werden. Die Anwendung dieser Rechtsgrundlage ist jedoch wie die CNIL betont an strenge Bedingungen geknüpft. Das verfolgte Interesse muss legitim, die Verarbeitung notwendig und die Rechte und Interessen der betroffenen Personen dürfen nicht unverhältnismäßig beeinträchtigt werden. Eine sorgfältige Dokumentation dieser Prüfung ist dabei essenziell.
Die Anforderungen der CNIL spiegeln die der EDSA-Stellungnahme zu KI-Modellen wider, die einen dreistufigen Test für die Anwendung des berechtigten Interesses vorschlägt. Aktuelle Debatten um Metas geplantes KI-Training unterstreichen die hohen Hürden dieser Rechtsgrundlage, insbesondere wenn es um die massenhafte Verarbeitung von Nutzerdaten geht. Dennoch hatte die Verbraucherzentrale NRW mit ihrem Eilantrag gegen Meta keinen Erfolg.
Vorteile und Risiken von Open Source-KI-Systemen
Die CNIL erachtet Open Source-Praktiken als relevant für die Bewertung des berechtigten Interesses eines KI-Systemanbieters. Open Source könne das berechtigte Interesse stärken, indem es die Transparenz des Modells und seiner Funktionsweise erhöht. Auch die Überprüfung und Korrektur von Bias könne erleichtert, die Sicherheit verbessert und die wissenschaftliche Forschung und Innovation gefördert werden.
Trotz dieser Vorteile birgt Open Source jedoch potenziell erhebliche Risiken. Dazu gehören die unzulässige oder böswillige Wiederverwendung der Modelle sowie Sicherheitslücken. Ebenso bestehen Risiken, dass personenbezogene Daten in den Trainingsdaten des Modells gespeichert sein könnten. Zudem sieht die CNIL Schwierigkeiten bei der Gewährleistung der Betroffenenrechte entlang der gesamten Nutzungs- und Weitergabekette. Die Veröffentlichung von Trainingsdaten muss beispielsweise sorgfältig geprüft werden, da sie die Rechte und Freiheiten der Personen unverhältnismäßig beeinträchtigen kann.
Um diese Risiken zu mindern, empfiehlt die CNIL zusätzliche Schutzmaßnahmen. Dazu gehören die Veröffentlichung von Modellparametern (Gewichten), dem Code zur Nutzung des Modells und einem Modellbeschreibungsblatt. Auch die Implementierung von restriktiven Lizenzen zur Begrenzung der Wiederverwendung und technischer Maßnahmen wie digitale Wasserzeichen zur Nachverfolgung ist ratsam. Zudem müssen strenge technische Datensicherheitsmaßnahmen wie Anonymisierung oder Pseudonymisierung der Daten sowie Maßnahmen zur Information der Betroffenen und zur Erleichterung der Ausübung ihrer Rechte ergriffen werden.
CNIL zu Web Scraping
Die CNIL hat auch die Sammlung von online zugänglichen Daten mittels Web Scraping beleuchtet. Eine solche Datenerhebung muss mit Maßnahmen einhergehen, die die Rechte der Betroffenen gewährleisten. Wiederverwendende Stellen müssen sicherstellen, dass die Herkunft und Rechtmäßigkeit des Datensatzes nicht offensichtlich rechtswidrig sind. Die Risiken umfassen die Verletzung der Privatsphäre, der Meinungsfreiheit und die unzulässige Sammlung urheberrechtlich geschützter Inhalte.
Die bislang oft unlizenzierte und massenhafte Nutzung von Textdaten aus dem Internet für große Sprachmodelle (LLMs) sorgt regelmäßig zu erheblicher Kritik. Oft wegen möglicher Urheberrechtsverletzungen. Als ethische Alternative wirbt das Projekt „The Common Pile“. Ein lizenzierter Datensatz, der ausschließlich auf öffentlich zugänglichen und offen lizenzierten Texten basiert und persönliche Informationen konsequent entfernt.
Praxisrelevanz für Unternehmen
Die CNIL-Leitlinien geben Unternehmen, die KI-Systeme entwickeln oder betreiben, konkrete Hilfestellung für eine DSGVO-konforme Umsetzung. Die Praxisblätter bieten ein wertvolles Instrument zur Risikobewertung und Compliance-Planung. Insbesondere hinsichtlich der Anforderungen zu Transparenz, Risikominimierung und Rechenschaftspflicht. Anbieter von Open Source-Modellen, Entwickler großer Sprachmodelle (LLMs) oder Dienstleister mit Zugriff auf Nutzerdaten sollten die Praxisblätter lesen – und ihre Datenschutzstrategie entsprechend anpassen.
Fazit
Die umfassenden Empfehlungen der CNIL bieten eine wichtige Orientierung für die rechtskonforme Entwicklung von KI-Systemen in der EU. Sie betonen die Bedeutung des berechtigten Interesses als Rechtsgrundlage, stellen aber gleichzeitig hohe Anforderungen an dessen Anwendung, insbesondere bei Web Scraping und Open Source-Modellen. Die Notwendigkeit strenger Schutzmaßnahmen und der kontinuierlichen Abwägung zwischen Innovation und dem Schutz der Grundrechte der betroffenen Personen wird dabei durchweg hervorgehoben. Diese Balance zu finden, bleibt eine zentrale Herausforderung für die weitere Entwicklung und Regulierung von Künstlicher Intelligenz.
Der „KI-Beauftragte“ – Ihre Lösung für rechtssichere KI-Compliance
