Die Künstliche Intelligenz (KI) hat seit dem Inkrafttreten der EU-Verordnung über künstliche Intelligenz (KI-VO) am 1. August 2024 nochmal mehr an Bedeutung gewonnen und ist Gegenstand vieler Diskussionen. Lena Schäfer, Doktorandin an der Professur für Bürgerliches Recht, Wirtschaftsrecht, Medienrecht, Daten- und Digitalisierungsrecht an der Universität Osnabrück, analysiert in ihrem Beitrag (Schäfer: Datenschutz-Compliance im KI-Training, ZD 2025, 12) die Schwierigkeiten, die sich aus den datenschutzrechtlichen Vorgaben für das Training von KI-Systemen ergeben. Schäfer macht deutlich, dass die Datenschutz-Grundverordnung (DSGVO) unter Berücksichtigung ihrer Bestimmungen die Nutzung personenbezogener Daten für das Training von KI-Systemen grundsätzlich gestattet. Unter Erörterung der rechtlichen Rahmenbedingungen als auch technischen Möglichkeiten gibt der Artikel praxisnahe Empfehlungen für datenschutzkonformes KI-Training.

Anwendbarkeit der DS-GVO

Zur Beantwortung der Frage, wie datenschutzrechtliche Anforderungen im KI-Training umgesetzt werden können, untersucht Schäfer die Anwendbarkeit der DS-GVO auf die verschiedenen Phasen des KI-Entwicklungsprozesses: Von der Datensammlung über das Training bis hin zur Nutzung. Im Fokus stehen personenbezogene Daten, wie IP-Adressen oder Cookies, welche häufig in großen Mengen für das KI-Training genutzt werden. Hierbei stellt Schäfer heraus, dass die technologieneutrale Ausrichtung der DSGVO sie dabei uneingeschränkt anwendbar macht.

KI-Training gemäß der DSGVO

Die Verarbeitung personenbezogener Daten erfordert eine tragfähige Rechtsgrundlage gemäß Art. 6 DSGVO. Einen solchen Erlaubnistatbestand zur Verarbeitung personenbezogener Daten für das KI-Training findet sich in der KI-VO nicht. Von den Erlaubnistatbeständen der DSGVO kämen die Einwilligung und die Vertragserfüllung in den meisten Fällen nicht zum Tragen. Schäfer argumentiert, dass die Einwilligung der Betroffenen in die Datennutzung für das KI-Training in den meisten Fällen praktisch unmöglich wären, da die Betroffenen im Vorfeld der Datensammlung oft nicht identifizierbar sind. Ähnliches gilt für die Vertragserfüllung als Rechtsgrundlage, da es unrealistisch sei, mit allen potenziellen Betroffenen Verträge zu schließen. Meist käme hier der Erlaubnistatbestand des berechtigten Interesses (Art. 6 Abs. 1 lit. f) zur Anwendung. Das berechtigte Interesse des Verantwortlichen an der Entwicklung und Nutzung von KI-Systemen kann als Rechtsgrundlage für die Datenverarbeitung dienen. Allerdings müssen die Interessen der Betroffenen sorgfältig abgewogen werden. Der EDSA hatte zuletzt in seiner Stellungnahme einen dreistufigen Test zur Feststellung des berechtigten Interesses vorgestellt.

Neben der Rechtmäßigkeit der Datenverarbeitung sind die in Art. 5 DSGVO normierten allgemeinen Datenschutzgrundsätze zu berücksichtigen. Schäfer betont insbesondere die Wichtigkeit von Zweckbindung und Datenminimierung. Da KI-Systeme gigantische Datenmengen benötigen, stellt die Datenminimierung eine besondere Herausforderung im KI-Training dar. Schäfer meint jedoch, dass die Verarbeitung großer Datenmengen für das KI-Training nicht per se als datenschutzwidrig sei, solange die Datenverarbeitung auf das „notwendige Maß“ beschränkt bleibt.

3 Methoden für datenschutzkonformes KI-Training

Der EDSA betonte zuletzt die Wichtigkeit der Anonymität von KI-Modellen. Um dies zu gewährleisten, zeigt Schäfer Möglichkeiten zur datenschutzkonformen Gestaltung des KI-Trainings auf, darunter die Nutzung anonymisierter oder synthetischer Daten. Ebenso wird der Einsatz pseudonymisierter Daten als praktikable Lösung hervorgehoben. Die Nutzung von anonymisierten oder synthetischen Daten biete eine Möglichkeit, den Anwendungsbereich der DSGVO zu verlassen und somit datenschutzrechtliche Hürden zu umgehen. Die Pseudonymisierung sei dagegen ein Mittel zur Risikominderung. Pseudonyme Daten würden im Vergleich zu personenbezogenen Daten wahrscheinlicher zu einer positiven Interessenabwägung für den Verantwortlichen führen. Sie empfiehlt im Zusammenhang mit KI-Training jedoch starke Pseudonymisierungstechniken einzusetzen, die über das bloße „Verstecken“ von personenbezogenen Daten in großen Datenmengen hinausgehen.

Einschätzungen der Branche

Der KI-Expertenkreis des Landesbeauftragten für den Datenschutz Niedersachsen (LfD) kritisiert, dass viele KI-Anbieter die technischen Möglichkeiten für einen verbesserten Datenschutz etwa zum Anonymisieren von Trainingsmaterial und zum Filtern von Ergebnissen nicht ausreichend nutzen würden. Bitkom sieht dagegen große Hürden bei den vorgestellten und von der EDSA vorgeschlagenen Methoden. Die Anonymisierung sei zum einen nicht immer technisch vollständig machbar und insbesondere für kleine und mittlere Unternehmen mit Hohem Aufwand verbunden.

Fazit

Der Artikel von Lena Schäfer zeigt, dass datenschutzkonformes KI-Training eine komplexe Aufgabe ist mit sowohl rechtlichen als auch technischen Herausforderungen. Darüber hinaus betont der Artikel die Bedeutung von „Privacy by Design“, also der frühzeitigen Berücksichtigung von Datenschutzaspekten bereits in der Entwicklungsphase eines KI-Systems. Die Einhaltung der Datenschutzanforderungen ist dabei weniger durch spezifische KI-Regelungen als vielmehr durch die allgemeinen datenschutzrechtlichen Prinzipien der DS-GVO geprägt. Die Nutzung von datenschutzfreundlichen Alternativen wie anonymisierten oder synthetischen Daten sowie die Anwendung von starken Pseudonymisierungstechniken können dazu beitragen, die Anforderungen der DSGVO zu erfüllen. Im Ergebnis ist jedoch jeder KI-Anwendung und die verwendeten Daten einzigartig Es muss daher individuell geprüft werden, welche Anforderungen in welcher Form konkret an die Trainingsdatensammlung und das KI-Training zu stellen sind.