DSK konkretisiert TOMs für KI-Entwicklung

Die Konferenz der unabhängigen Datenschutzaufsichtsbehörden des Bundes und der Länder (DSK) legte eine zweite umfassende Orientierungshilfe zum datenschutzkonformen Einsatz von Künstlicher Intelligenz (KI) vor. Dieses aktuelle Dokument konzentriert sich spezifisch auf die empfohlenen technischen und organisatorischen Maßnahmen (TOMs) bei der Entwicklung und dem Betrieb von KI-Systemen und richtet sich primär an Hersteller und Entwickler. Es ergänzt die erste Orientierungshilfe und soll diesen Akteuren als praktische Hilfestellung dienen, um bereits im Design-Prozess datenschutzkonforme KI-Systeme zu schaffen.

Ergänzung zur ersten DSK-Orientierungshilfe

Die erste Orientierungshilfe vom 6. Mai 2024 bot Unternehmen und Behörden eine wertvolle Leitlinie, insbesondere für kleine und mittlere Unternehmen, um die datenschutzrechtlichen Anforderungen umzusetzen. Kernziel des Vorgängers war es, datenschutzrechtliche Kriterien für die Auswahl, Implementierung und Nutzung von KI-Anwendungen zu etablieren und als praktische Checkliste zu dienen. Dabei konzentrierte sie sich insbesondere auf Large Language Models (LLM) wie ChatGPT, bot aber auch Anhaltspunkte für andere KI-Modelle.

DSGVO-Grundsätze entlang des KI-Lebenszyklus

Die neue Orientierungshilfe, veröffentlicht im Juni 2025, strukturiert die datenschutzrechtlichen Anforderungen entlang des gesamten Lebenszyklus eines KI-Systems. Der Lebenszyklus unterteilt sich in vier entscheidende Phasen: Design, Entwicklung, Einführung sowie Betrieb und Monitoring. In jeder dieser Phasen werden personenbezogene Daten verarbeitet, was den Datenschutz von Beginn an essenziell macht. Hersteller und Entwickler sind hier in der Verantwortung, Systeme so zu gestalten, dass sie datenschutzkonform eingesetzt werden können.

Datenschutzberatung

Ihr Weg zur Datenschutz-Compliance

Jetzt Termin vereinbaren

Das Standard-Datenschutzmodell als Kern der Maßnahmen

Als methodische Grundlage zur Überführung abstrakter rechtlicher Anforderungen in konkrete technische und organisatorische Maßnahmen dient weiterhin das Standard-Datenschutzmodell (SDM) mit seinen sieben bewährten Gewährleistungszielen: Datenminimierung, Verfügbarkeit, Vertraulichkeit, Integrität, Intervenierbarkeit, Transparenz und Nichtverkettung.

1. Datenminimierung

Hinsichtlich der Datenminimierung betont die DSK die Notwendigkeit, bereits vor der Datenerhebung genau festzulegen, welche Daten für das KI-System benötigt werden. Es muss sichergestellt werden, dass die verarbeiteten personenbezogenen Daten dem Zweck angemessen, erheblich und auf das für die Verarbeitung notwendige Maß beschränkt sind. Wo immer möglich, sollten synthetische oder anonymisierte Daten bevorzugt werden. Es gilt zu prüfen, ob ein KI-System dieselbe Funktion mit weniger personenbezogenen Daten erreichen kann. Besondere Kategorien personenbezogener Daten nach Art. 9 DSGVO und „Proxy Features“, die indirekt auf sensible Attribute verweisen könnten, müssen dabei besonders kritisch beleuchtet und, falls nicht zwingend erforderlich, entfernt werden, um Bias und Diskriminierung vorzubeugen. Techniken wie Federated Learning können dabei helfen, Daten lokal zu verarbeiten, ohne sie zentral zusammenzuführen.

2. Verfügbarkeit

Der Zugriff auf personenbezogene Daten muss gesichert sein und Systeme müssen ihre Verarbeitungen bei Anforderung durchführen können. Dies umfasst auch die Resilienz des Trainings gegen Störungen wie Defekte oder Stromausfälle, um einen zuverlässigen Dauerbetrieb zu gewährleisten. Es wird empfohlen, Datenmanagement-Systeme, beispielsweise Big Data Datenbanken, zu integrieren, um den schnellen Zugriff zu ermöglichen.

3. Vertraulichkeit

Zudem widmet sich die Orientierungshilfe der Vertraulichkeit von Daten. Unbefugte dürfen nicht auf personenbezogene Daten zugreifen können. KI-Modelle, insbesondere generative, können unbeabsichtigt Trainingsdaten preisgeben. Hersteller und Entwickler müssen prüfen, ob ihre Modelle anfällig für solche Extraktionen sind und Gegenmaßnahmen ergreifen, etwa Privacy-Preserving-Techniken wie Differential Privacy oder Regularisationstechniken. Bei der Verteilung von KI-Modellen, die personenbezogene Daten enthalten, sollten kryptographische Verfahren eingesetzt werden. Es muss zudem das Need-to-Know-Prinzip sichergestellt werden, sodass beteiligte Infrastrukturkomponenten nur die für den jeweiligen Trainingslauf notwendigen Daten erhalten.

4. Integrität

Die personenbezogenen Daten müssen unversehrt, vollständig, zurechenbar und aktuell bleiben. Die Richtigkeit der Rohdaten ist durch Prüfung der Datenqualität, Vertrauenswürdigkeit der Quelle und vorhandener Bias zu gewährleisten. Hash-Werte über den Datensatz können helfen, Verfälschungen zu erkennen. Eine ausgewogene Verteilung der Trainingsdaten ist essenziell, um die Integrität des KI-Systems nicht zu gefährden. Maßnahmen gegen Data Poisoning müssen wirksam verhindert werden, und die Robustheit des KI-Modells gegenüber fehlerhaften Eingaben ist zu gewährleisten. Die Einhaltung der Qualitätsanforderungen ist regelmäßig zu evaluieren.

5. Intervenierbarkeit

Ein weiteres zentrales Anliegen ist die Intervenierbarkeit. Verantwortliche müssen jederzeit in der Lage sein, in die Datenverarbeitung einzugreifen, um Betroffenenrechte wie Auskunft, Berichtigung und Löschung umzusetzen. Das muss wie die DSK betont, bereits in der Designphase berücksichtigt werden. Bei Löschungsanfragen kann es notwendig sein, ein neues KI-Modell ohne die betreffenden Daten zu trainieren oder Techniken wie „Machine Unlearning“ einzusetzen, deren Erfolg nachweisbar sein muss. Für entscheidungsunterstützende KI-Systeme sollten technische Maßnahmen vorgesehen werden, die eine fundierte menschliche Einwirkung ermöglichen, etwa Warte-Status oder Hinweise auf Unsicherheitsfaktoren in den Ausgaben.

6. Transparenz

Einerseits ist Transparenz zur Gewährleistung der Rechenschaftspflicht nach Art. 5 Abs. 2 DSGVO, andererseits zur Erfüllung der Informationspflichten nach Art. 12, 13 und 14 DSGVO erforderlich. Dies erfordert die Dokumentation des Zwecks der Verarbeitung und der Rechtsgrundlage für die Datenerhebung. Eine standardisierte Methodik wie „Datasheets for datasets“ soll dabei helfen, Datensätze detailliert zu beschreiben, ihre Herkunft und den ursprünglichen Zweck zu klären. Auch die Systemarchitektur und menschliche Eingriffsmöglichkeiten sind für eine nachvollziehbare Funktionsweise zu dokumentieren und möglichst auch für Nicht-Entwickler verständlich aufzubereiten. Erklärbare KI-Methoden können die Nachvollziehbarkeit der Ergebnisse eines KI-Systems verbessern.

7. Nichtverkettung

Verantwortliche dürfen personenbezogene Daten ausschließlich für die eindeutig festgelegten und legitimen Zwecke erheben, verarbeiten und nutzen. Sie müssen aktiv verhindern, dass sich aus scheinbar harmlosen Daten unzulässige Rückschlüsse auf sensible Informationen ziehen lassen. Hersteller sind verpflichtet, KI-Systeme gezielt nur für die in der Designphase definierten Zwecke zu trainieren. Dabei müssen sie sicherstellen, dass die Systeme keine unerwünschten Zwischenergebnisse oder Ausgaben erzeugen, die über diesen Zweck hinausgehen.

DSK betont “Privacy by Design”

Das neue Orientierungshilfe stellt mit den technischen und organisatorischen Maßnahmen (TOMs) für Hersteller und Entwickler eine praxisnahe Ergänzung zur ersten Orientierungshilfe dar. Die DSK unterstreicht damit die Notwendigkeit eines „Privacy by Design“-Ansatzes in der KI-Entwicklung. Nur durch frühzeitige Integration von Datenschutzmaßnahmen kann eine verantwortungsvolle und zugleich innovative KI-Landschaft entstehen.

Der KINAST „KI-Beauftragte“

Ihre Lösung für rechtssichere KI-Compliance

Jetzt Kontakt aufnehmen!