Influence-guided Machine Unlearning und das Recht auf Vergessenwerden

Das in der Datenschutz-Grundverordnung (DSGVO) verankerte Recht auf Löschung („Vergessenwerden“) (Art. 17 DSGVO) stellt Verantwortliche im Zeitalter der Künstlichen Intelligenz (KI) vor erhebliche technische Herausforderungen. Da Large Language Models (LLMs) Trainingsdaten memorisieren und oft nur abstrakte Muster speichern, ist die nachträgliche, gezielte Entfernung personenbezogener Daten schwierig und ein einfaches Nachtrainieren meist unwirtschaftlich oder unmöglich. In diesem Kontext gewinnt Machine Unlearning (MU) als Ansatz zur gezielten Datenentfernung an Relevanz. Eine neue Veröffentlichung stellt nun mit Influence-guided Machine Unlearning eine Methode vor, die diese Prozesse effizienter und datenschutzkonformer gestalten soll, indem sie ohne den sonst notwendigen Zugriff auf die „Retain-Daten“ auskommt.

Die Komplexität des Löschens in KI-Modellen

Die Anwendung des Rechts auf Löschung auf KI-Modelle ist deshalb so kompliziert, weil die Modelle – im Gegensatz zu traditionellen Datenbanken – Rohdaten nicht isoliert speichern, sondern Wissen in Form von abstrakten Mustern und Verallgemeinerungen kodieren. Forschende argumentieren zudem, dass LLMs selbst als personenbezogene Daten angesehen werden könnten, wenn sie in der Lage sind, während der Inferenzzeit Informationen aus den Trainingsdaten auszugeben, wodurch die DSGVO vollumfänglich zur Anwendung käme. Die Speicherung von Informationen im Modell kann als eine Form der Pseudonymisierung betrachtet werden, was den Status als personenbezogene Daten nicht aufhebt. Die Umsetzung von Betroffenenrechten wie der Löschung stellt Verantwortliche vor komplexe Aufgaben.

IMU: Gezieltes Verlernen ohne Trainingsdaten-Zugriff

Die meisten existierenden Machine-Unlearning-Algorithmen setzen eine teil- oder vollumfängliche Feinabstimmung auf dem sogenannten Retain Set voraus, also den Daten, die im Modell verbleiben sollen. Dies ist in der Praxis oft unmöglich, da der Zugriff auf die ursprünglichen Trainingsdaten aus Speicher- oder Datenschutzgründen nicht praktikabel ist.

IMU (Influence-guided Machine Unlearning) ist hingegen eine „retain-data-free“ MU-Methode, die das Verlernen ausschließlich mithilfe des „Forget Set“ (der zu löschenden Daten) durchführt. Die Methode nutzt den Gradient Ascend und führt dynamisch eine gewichtete Anpassung der Verlernintensität ein, basierend auf dem Einfluss der einzelnen Datenpunkte. Um die notwendige Einflussfunktion in komplexen, nicht-konvexen Deep-Learning-Netzwerken stabil und rechnerisch effizient zu schätzen, berechnet IMU den Einfluss nur auf der Ebene des finalen, konvexen Klassifikators, was die teure Inversion der vollständigen Hessematrix vermeidet. Durch diese adaptive Strategie erhalten hoch einflussreiche Stichproben aggressivere Parameter-Updates, während das Wissen aus weniger einflussreichen Datenpunkten bewahrt wird.

Überlegenheit im Vergleich zu Unlearning-Methoden

Die Studie zeigt anhand von Anwendungen wie Bildklassifikation (CIFAR-10, CIFAR-100), Personenerkennung und Sequenzmodellierung, dass IMU bestehenden retain-data-free MU-Methoden durchgehend überlegen ist. IMU schaffe dabei ein gutes Gleichgewicht zwischen der effektiven Löschung von Daten und der Leistungsfähigkeit des Modells auf verbleibenden oder neuen Daten.

Bei der Entfernung ganzer Klassen auf CIFAR-10 blieb die Modellleistung mit IMU nahezu erhalten. Die Genauigkeit sank nur um etwa 2 %. Andere Methoden wie SCAR* verloren dagegen rund 14 %. Zudem sei IMU deutlich effizienter und auf CIFAR-10 mehr als dreimal so schnell wie SCAR*. Die Ergebnisse zeigen außerdem, dass es oft genüge, nur einen kleinen Teil der einflussreichsten Datenpunkte (z. B. 5 %) zu bearbeiten, um den gewünschten Lösch­effekt zu erzielen. Das verbessere sowohl die Effizienz als auch die Generalisierungsfähigkeit. Auch bei Large Language Models konnte IMU dieses ausgewogene Verhältnis zwischen Modellleistung und Löschqualität bestätigen.

Der Hauptnachteil von IMU sei hingegen sein hoher Rechenaufwand, da es die Einflussfunktion für jeden einzelnen zu vergessenden Datenpunkt schätzen muss. Eine mögliche Alternative, um die Rechenzeit zu reduzieren, wäre die Schätzung des Einflusses auf Mini-Batch-Ebene statt pro Datenpunkt. Diese Maßnahme könnte jedoch Schätzfehler einführen, so die Forscher.

Schlussfolgerungen für Unternehmen

Obwohl Machine Unlearning vielversprechend ist, bleibt es ein begrenzter Ansatz zur Erfüllung des Rechts auf Vergessenwerden. Unternehmen benötigen eine Rechtsgrundlage (z. B. berechtigtes Interesse oder Einwilligung) nicht nur für das Training, sondern auch für jede weitere Verarbeitung des KI-Modells, etwa dessen Speicherung oder Bereitstellung. Die Nichteinhaltung der DSGVO-Pflichten kann zu empfindlichen Bußgeldern führen. Machine Unlearning kann als Teil einer umfassenden Datenschutzstrategie (Privacy by Design) dienen, muss aber durch ergänzende Maßnahmen wie Anonymisierung, Pseudonymisierung und Datenschutz-Folgenabschätzungen (DSFA) ergänzt werden. Unternehmen sind gut beraten, umfassende DSFAs bereits in der Planungsphase von KI-Projekten durchzuführen, um Risiken frühzeitig zu erkennen und zu minimieren.

Fazit

Die Entwicklung von Methoden wie IMU, die das Machine Unlearning ohne Zugriff auf die gesamten Trainingsdaten ermöglichen, stellt einen wichtigen Fortschritt für die datenschutzkonforme Gestaltung von KI-Systemen dar. Sie bietet einen praktikablen Weg, um dem steigenden Druck des Rechts auf Vergessenwerden, insbesondere im komplexen Umfeld der LLMs, technisch zu begegnen. Ungeachtet dieser technischen Fortschritte müssen Unternehmen jedoch proaktiv handeln: Datenschutzkonformität muss im Entwicklungsprozess verankert und die Einhaltung der Betroffenenrechte durch eine Kombination aus technischen und organisatorischen Maßnahmen sowie dem konsequenten Einsatz von Privacy by Design sichergestellt werden, um rechtliche Risiken zu minimieren.

Wenn Sie Ihre KI-Projekte von Anfang an datenschutzkonform gestalten möchten, unterstützen wir Sie mit maßgeschneiderter KI-Beratung für Innovationskraft ohne Compliance-Risiko.

KINAST: KI-Compliance aus einer Hand

  • individuelle KI-Beratung
  • externer KI-Beauftragter
  • modulare KI-Schulungskonzepte
Mehr erfahren