Web-Scraping personenbezogener Daten als Fundament moderner KI-Datensätze

Die Entwicklung großer KI-Systeme, wie beispielsweise ChatGPT und Midjourney, stützt sich maßgeblich auf Trainingsdaten, die in gigantischem Umfang aus dem Internet gescrapt werden. Eine neue Veröffentlichung beleuchtet die Inhalte dieser aus dem Web gewonnenen Datensätze und untersucht die rechtlichen Auswirkungen auf die Privatsphäre. Die Untersuchung zeigt, dass bei bekannten und häufig genutzten Datensammlungen erhebliche Bedenken hinsichtlich des Datenschutzes bestehen.

KI-Datensatz: DataComp CommonPool

Für das Training aktueller Sprach- oder Bildmodelle verlassen sich KI-Entwickler oft auf Web-Scraping-Daten. Zentrales Fallbeispiel dieser Untersuchung ist der DataComp CommonPool. Der öffentlich verfügbare Bild-Text-Datensatz umfasst über 12,8 Milliarden Samples. Dieser Datensatz wurde zum Zeitpunkt der Erstellung der Studie bereits über 2 Millionen Mal heruntergeladen. Angesichts des Umfangs ist eine manuelle Annotation jedes einzelnen Samples durch menschliche Kuratoren oder Compiler nicht mehr möglich.

Auswirkungen des Web-Scraping

Die Nutzung von DataComp CommonPool für die KI-Entwicklung kann für Entwickler und nachgeschaltete Betreiber Compliance-Pflichten nach der Datenschutz-Grundverordnung (DSGVO) auslösen. Grundsätzlich fällt jede Information, die sich auf eine identifizierte oder identifizierbare natürliche Person bezieht, unter die weitreichende Definition von „personenbezogenen Daten“ der DSGVO, was beispielsweise ein Foto eines Gesichts oder Auszüge aus einem Lebenslauf einschließt.

Trotz Datenbereinigung signifikante Präsenz personenbezogener Daten

Die Auditierung des Trainingsdatensatzes DataComp CommonPool ergab eine signifikante Präsenz von persönlich identifizierbaren Informationen und das trotz der von den Kuratoren unternommenen Bereinigungsbemühungen. Die Untersuchung deckte konkrete Beispiele für personenbezogene Daten auf, darunter Kreditkartennummern und Reisepassnummern. Schätzungen zufolge sollen mindestens 142.000 Bilder Lebensläufe von Einzelpersonen zeigen.

Infolgedessen befürchten die Autoren, dass jeder aus dem Internet gescrapte Datensatz in großem Maßstab personenbezogene Daten enthalten kann. Die Risiken der Datensatzkurationspraktiken sind dabei nicht spezifisch für DataComp, sondern gelten wahrscheinlich auch für andere große Web-Scraping-Datensätze.

Unzureichende Anonymisierung

Die Auditierung legt die Datenschutzrisiken der aktuellen Datenkurationspraktiken offen und kritisiert diese im Hinblick auf die geltenden Datenschutzgesetze. Es wird argumentiert, dass keine automatisierte Bereinigung von Web-Scraping-Daten in der Lage ist, alle personenbezogenen Daten zu entfernen und dass die derzeitigen Bereinigungsmethoden nicht ausreichen. Die DataComp-Kuratoren verwendeten beispielsweise ein Tool zur Gesichtsunkenntlichmachung (Blurring), um die Privatsphäre zu schützen. Diese Maßnahme scheiterte jedoch, da Schätzungen zufolge etwa 102 Millionen Bilder realer menschlicher Gesichter von diesem Tool nicht erfasst und somit nicht unkenntlich gemacht wurden. Dies demonstriert, dass die Versuche zur Anonymisierung unzureichend waren.

Weitergabe personenbezogener Daten an nachgelagerte Modelle

Die unzureichenden Datenkurationspraktiken bergen das Risiko der Weitergabe von persönlichen Informationen an nachgeschaltete Modelle, die auf diesen Datensätzen trainiert werden. Modelle, die auf Datensätzen wie DataComp CommonPool basieren, können problematische Verhaltensweisen zeigen, einschließlich der potenziellen Preisgabe persönlich identifizierbarer Informationen durch Memorierung. Die Weiternutzung dieser zentralisierten Datenquellen kann zu einem Monokultur-Effekt führen. Dabei können einmal enthaltene personenbezogene Daten durch nachgeschalteter Modelle repliziert oder verstärkt werden.

DSGVO verletzt

Zusammenfassend zeige die Analyse, dass die Nutzung eines Datensatzes wie DataComp CommonPool (neben urheberrechtlichen Fragestellungen) zu erheblichen Compliance-Herausforderungen mit sich bringt. Nach der DSGVO bedeutet die technische Zugänglichkeit von Daten im Internet nicht, dass diese als „öffentlich verfügbar“ gelten. Die Veröffentlichung personenbezogener Daten online entziehe betroffene Personen nicht ihren Datenschutzrechten. Auch freiwillig geteilte Informationen dürfen nicht beliebig weiterverarbeitet werden, wenn der neue Zweck nicht mit dem ursprünglichen Kontext vereinbar ist (Art. 6 Abs. 4 DSGVO). Jede sekundäre Nutzung bedarf einer eigenständigen Rechtsgrundlage und muss Zweckbindung, Transparenz und Betroffenenrechte wahren. Die Praxis des DataComp CommonPool-Datensatzes widerspricht den Autoren zu Folge damit zentralen Grundprinzipien der DSGVO.

Fazit

Für Unternehmen, die KI-Modelle entwickeln oder nutzen, die auf Web-Scraping-Datensätzen wie DataComp CommonPool basieren, entstehen erhebliche Herausforderungen bei der Einhaltung der Datenschutzbestimmungen. Die bloße Existenz von personenbezogenen Daten in diesen Datensätzen begründet rechtliche Pflichten, die ohne eine erfolgreiche Anonymisierung nicht ignoriert werden dürfen. Da die Gewährung von Betroffenenrechten (wie dem Recht auf Löschung) nach derzeitigem Stand mit großen Hürden verbunden ist, sollten Organisationen einen äußerst vorsichtigen Ansatz wählen. Dieser sollte die konsequente Filterung bekannter persönlicher Identifikatoren oder die Durchführung von Datenschutz-Folgenabschätzungen beinhalten.

Als externer KI-Beauftragter übernehmen wir die laufende Koordination, das Monitoring und Reporting. Dabei fungieren wir als Schnittstelle zwischen Recht, Datenschutz, Informationssicherheit und Produktentwicklung und sorgen für kontinuierliche Compliance. 

KINAST: KI-Compliance aus einer Hand

  • individuelle KI-Beratung
  • externer KI-Beauftragter
  • modulare KI-Schulungskonzepte
Mehr erfahren