Memorisierung personenbezogener Daten in KI & LLM

Die Debatte um den datenschutzkonformen Einsatz von Large Language Models (LLMs) erreicht eine neue Intensität. Die wissenschaftliche Veröffentlichung „Machine Learners Should Acknowledge the Legal Implications of Large Language Models as Personal Data“ von Henrik Nolte, Michèle Finck und Kristof Meding beleuchtet die ernsten rechtlichen Herausforderungen, die sich aus der Eigenschaft von LLMs ergeben, Trainingsdaten zu speichern. Die Autoren fordern die Anerkennung von LLMs als personenbezogene Daten über den gesamten Entwicklungszyklus hinweg. Für Unternehmen, die KI-Anwendungen entwickeln oder nutzen, würde dies die vollumfängliche Anwendung der EU-Datenschutz-Grundverordnung (DSGVO) bedeuten.

Personenbezug im KI-Modell

Der zentrale Befund des Papiers ist, dass die meisten LLMs Trainingsdaten memorisieren, sei es wörtlich oder in verallgemeinerter Form. Da diese Trainingsdaten oft aus massiven, öffentlichen Web-Datasets stammen, enthalten sie unweigerlich personenbezogene Informationen. Die Autoren stellen klar, dass personenbezogene Daten ihren Rechtsstatus nicht dadurch verlieren, dass sie öffentlich zugänglich gemacht wurden. Wenn eine Person durch die im Modell gespeicherten Informationen identifiziert oder identifizierbar ist, findet die DSGVO Anwendung, und zwar auch nachdem die Trainingsphase abgeschlossen ist.

Die Studie argumentiert, dass die LLMs selbst als personenbezogene Daten angesehen werden können, da sie Trainingsdaten während der Inferenzzeit ausgeben können. Das Format, in dem diese Informationen kodiert sind – selbst als abstrakte mathematische Repräsentationen und Wahrscheinlichkeitsgewichte in den Modellparametern – ist nach Ansicht der Autoren irrelevant für die rechtliche Einstufung. Entscheidend ist, ob es „vernünftigerweise wahrscheinlich“ ist, dass eine natürliche Person durch die Informationen identifiziert werden kann. Die Speicherung im Modell wird dabei als eine Form der Pseudonymisierung betrachtet, welche den Status als personenbezogene Daten nicht aufhebt. Bereits die Speicherung einer minimalen Menge personenbezogener Daten ist ausreichend, um die Anwendbarkeit der DSGVO auszulösen.

Anhaltende Debatte um den Personenbezug

Die Schlussfolgerungen des wissenschaftlichen Papiers stehen im Kontext einer andauernden und komplexen Debatte unter den deutschen Datenschutzaufsichtsbehörden. Der Hamburgische Beauftragte für Datenschutz und Informationsfreiheit (HmbBfDI) vertrat in einem Diskussionspapier die Ansicht, dass die bloße Speicherung eines LLM keine Verarbeitung personenbezogener Daten im Sinne der DSGVO darstellt. Begründet wurde dies damit, dass personenbezogene Daten durch die sogenannte „Tokenisierung“ ihre spezifischen Charakteristiken verlieren. Sie würden nur noch als abstrakte numerische Werte gespeichert werden. Entsprechend bezögen sich Betroffenenrechte nur auf die Ergebnisse der KI-Systeme.

Andere Landesbehörden sehen die Situation ähnlich des Papers nuancierter. Der Landesbeauftragte für Datenschutz Schleswig-Holstein (ULD) vertritt die Position, dass ein Personenbezug in LLMs nicht pauschal ausgeschlossen werden kann, da Informationen aus Trainingsdaten im Modell verbleiben und extrahiert werden könnten. Auch der LfDI Baden-Württemberg (LfDI BW) betonte, dass der Personenbezug durch Nutzerinteraktionen, schlecht anonymisierte Trainingsdaten oder gezielte Angriffe (Model Attacks) entstehen kann und das gesamte KI-System betrachtet werden muss. Der Europäische Datenschutzausschuss (EDSA) stützt die strengere Auslegung, indem er feststellte, dass KI-Modelle, die mit personenbezogenen Daten trainiert wurden, nicht automatisch als anonym gelten.

Konsultation der BfDI zur Memorisierung

Die Bundesbeauftragte für den Datenschutz und die Informationsfreiheit (BfDI) erkannte die technische und rechtliche Komplexität der Memorisierung personenbezogener Daten in KI-Modellen als so gravierend an, dass sie eine Konsultation startete, um technische und praktische Erfahrungen zur Entwicklung datenschutzkonformer Ansätze einzuholen. Ziel ist es herauszufinden unter welchen Umständen ein LLM als anonym erachtet werden könnte und wie Betroffenenrechte wie Auskunft, Berichtigung und Löschung in der Praxis umgesetzt werden können.

Schlussfolgerungen für Unternehmen

Ob Large Language Models (LLMs) tatsächlich als personenbezogene Daten im Sinne der DSGVO einzustufen sind, ist derzeit nicht abschließend geklärt. Die Positionen der Aufsichtsbehörden divergieren. Die laufende Konsultation der BfDI soll genau für diese Frage praktische sowie technische Einschätzungen zur künftigen Regulierung datenschutzkonformer KI-Systeme liefern. Die Ergebnisse der BfDI-Konsultation können entscheidend dafür sein, wie weitreichend die Datenschutzpflichten künftig reichen. Dennoch lassen sich auf Basis der bisherigen Argumentationslinien und der bestehenden DSGVO-Systematik unter der Annahme, dass LLMs personenbezogene Daten enthalten oder selbst als solche anzusehen wären, ein paar wesentliche Punkte ableiten.

Unternehmen benötigen eine Rechtsgrundlage (z. B. berechtigtes Interesse oder Einwilligung), nicht nur für das Training, sondern für jede Verarbeitung des Modells. Dies umfasst das Speichern, Hochladen, Herunterladen oder die Bereitstellung des Modells auf Plattformen wie GitHub oder Hugging Face. Das berechtigte Interesse (Art. 6 Abs. 1 lit. f DSGVO) erfordert dabei aufgrund der individuellen Unterschiede der LLMs eine Einzelfallabwägung. Die Rechte auf Auskunft (Art. 15) und Löschung (Art. 17) erstrecken sich auf die im LLM eingebetteten Informationen. Die Umsetzung des Rechts auf Vergessenwerden ist technisch äußerst schwierig. Denn ein einfaches Nachtrainieren ist meist unmöglich bzw. unwirtschaftlich und spezialisierte Methoden wie Machine Unlearning sind noch nicht ausgereift.

Insgesamt sollten LLM-Entwickler von Anfang an (Privacy by Design) technische und organisatorische Maßnahmen zur Einhaltung der Datenschutzprinzipien implementieren. Denn die Nichteinhaltung von DSGVO-Pflichten kann zu empfindlichen Bußgeldern führen.

Fazit

Noch ist nicht abschließend entschieden, ob und in welchem Umfang LLMs als personenbezogene Daten gelten und wie sich das Memorierungsverhalten entwickelt. Die Ergebnisse der BfDI-Konsultation bleiben abzuwarten. Bis dahin sollten Entwickler und Betreiber proaktiv handeln. Datenschutzkonformität sollte bereits im Entwicklungsprozess verankert werden, technische Lösungen wie Output-Filter und Unlearning-Verfahren sollten erforscht und vorbereitet werden. Denn selbst wenn die Modelle nur indirekt Informationen speichern, bleibt die Möglichkeit der Identifizierbarkeit ein zentraler Risikofaktor. Hierbei unterstützen wir Sie als externer KI-Beauftragter oder individueller KI-Beratung.

KINAST: KI-Compliance aus einer Hand

  • individuelle KI-Beratung
  • externer KI-Beauftragter
  • modulare KI-Schulungskonzepte
Mehr erfahren