KI-Expertengespräche des LfD Niedersachsen zu KI-Training & Output

Die Datenschutz-Grundverordnung (DSGVO) und die rasante Verbreitung Künstlicher Intelligenz (KI) stehen im Spannungsfeld zwischen Innovationsdruck und grundrechtlichem Schutz. Im Tätigkeitsbericht 2024 des Landesbeauftragten für den Datenschutz Niedersachsen (LfD Niedersachsen) rücken die „KI-Expertengespräche“ zentrale Fragen zum datenschutzkonformen Training und Output von KI-Systemen in den Fokus.

Datenschutz beim KI-Training

Ein zentraler Diskussionspunkt ist die Rechtmäßigkeit der Datenerhebung für das Training von KI-Modellen, insbesondere generativer Modelle. Der LfD Niedersachsen betont, dass hier die strengen Anforderungen der DSGVO uneingeschränkt gelten. Dies steht im Kontrast zur gängigen Praxis des „Web-Scraping„, bei dem oft riesige Mengen unlizenzierter Texte aus dem öffentlichen Internet gesammelt werden. Dies hat bereits zu zahlreichen Klagen wegen Urheberrechtsverletzungen und ethischer Bedenken geführt hat.

KI-Training mit Nutzerdaten bei Meta, eBay & Co.

Aktuell kündigen immer mehr Unternehmen und insbesondere Tech-Giganten KI-Training mit Nutzerdaten an. So erlaubte das OLG Köln Meta, Facebook- und Instagram-Inhalte für sein KI-Training zu nutzen – solange Nutzer nicht aktiv widersprechen (sog. Opt-Out). Auch eBay stützt sich für das KI-Training auf das berechtigte Interesse. Doctolib plante, seine KI-Modelle mit Gesundheitsdaten zu trainieren allerdings nur auf Basis ausdrücklicher Einwilligungen, während andere Nutzungsdaten unter Berufung auf das berechtigte Interesse verarbeitet werden sollen. Die Hamburger Polizei plante sogar, personenbezogene Daten für das Training ihrer KI-Systeme zu verwenden – unter Umständen ohne Anonymisierung oder Pseudonymisierung, wenn dies als „unverhältnismäßiger Aufwand“ gelte.

Berechtigtes Interesse vs. Einwilligung

Die Debatte um die Rechtsgrundlage des berechtigten Interesses gemäß Art. 6 Abs. 1 lit. f DSGVO ist angesichts der KI-Trainingspläne von Unternehmen wie Meta und eBay besonders virulent. Der Europäische Datenschutzausschuss (EDPB) hat hierzu in seiner Opinion 28/2024 einen dreistufigen Prüfmechanismus formuliert. Dieser Test verlangt ein legitimes, klares und aktuelles Interesse. Zweitens die Erforderlichkeit der Datenverarbeitung – einschließlich der Prüfung milderer Mittel wie Anonymisierung und Datenminimierung – sowie Drittens eine sorgfältige Abwägung der Interessen des Verantwortlichen mit den Rechten und Freiheiten der betroffenen Personen.

Der LfD Niedersachsen weist darauf hin, dass die Opinion indirekt auf das „Dilemma“ hindeutet, dass einerseits sehr große Trainingsdatensätze für KI benötigt werden (was nur eine pauschale Prüfung der Rechtsgrundlage zulässt), andererseits der EDSA Bewertungskriterien benennt, die eine Einzelfallbetrachtung erfordern.

Anonymisierung, Deanonymisierung & Löschen personenbezogener Daten

Das Löschen personenbezogener Daten aus den riesigen, durch Web-Scraping erlangten Trainingsdatensätzen ist eine enorme Herausforderung. Eine Technik zur Löschung ist Machine Unlearning. In den KI-Expertengesprächen des LfD Niedersachsen herrschte Einigkeit, dass erstens keine vollständige Anonymisierung solcher Datensätze erreicht werden kann und zweitens bei der Nutzung von KI-Modellen stets ein erhebliches Risiko der Deanonymisierung besteht. Selbst aufwändige Maßnahmen wie das Entfernen bekannter Verzeichnisse oder die Unkenntlichmachung von E-Mail-Adressen bieten dafür keine Gewähr, erfordern hohe Ressourcen und können die Datenqualität beeinträchtigen. Die Umsetzung der Betroffenenrechte gemäß der DSGVO bleibt schwierig.

KI-Experten sehen regulativen Handlungsbedarf

Unabhängig davon, welche Optimierungsstrategie letztlich verfolgt wird, stellt sich ein klarer datenschutzrechtlicher Regelungsbedarf. Es wird KI-Modelle geben, die ohne massenhafte personenbezogene Daten nicht auskommen. Die Konsequenzen für rechtliche Rahmenbedingungen und Datenschutzpolitik bewertet der LfD Niedersachsen derzeit intern und wird sich zu einem späteren Zeitpunkt dazu äußern.

KI-Output: Richtigkeit, Transparenz und Nachkontrolle

Neben dem KI-Training rückten die KI-Expertengespräche die Fragen rund um die Qualität und Transparenz des Outputs in den Mittelpunkt. KI-Modelle können personenbezogene Daten u. U. falsch zusammenführen oder halluzinieren. Eine Garantie für fehlerfreie Ergebnisse sei technisch nicht realisierbar. Deshalb betont der LfD Niedersachsen die Notwendigkeit menschlicher Kontrollinstanzen und einer datenschutzrechtlichen Transparenz „aus Empfängersicht“.

Fazit

Die „KI-Expertengespräche“ des LfD Niedersachsen 2024 verdeutlichen, dass Datenschutz von der Datenquelle bis zum Output integraler Bestandteil von KI-Projekten sein muss. Ob berechtigtes Interesse oder Einwilligung – transparente Prozesse, klare Zweckbindung und menschliche Nachkontrolle bleiben unverzichtbar, um Vertrauen in KI-Technologien zu schaffen. Der zweigleisige Ansatz von Doctolib zeigt, wie Unternehmen versuchen, zwischen Innovationsdrang und Datenschutzvorgaben zu navigieren. Welche datenschutzrechtlichen und datenschutzpolitischen Folgerungen das LfD Niedersachsen daraus ziehen wird, bleibt zunächst abzuwarten.

Wenn Sie Ihre KI-Projekte von Anfang an datenschutzkonform gestalten möchten, unterstützen wir Sie mit maßgeschneiderter KI-Beratung für Innovationskraft ohne Compliance-Risiko.

Der „KI-Beauftragte“

Ihre Lösung für rechtssichere KI-Compliance

Wir bieten Unternehmen eine umfassende Lösung für die rechtlichen und regulatorischen Herausforderungen, die der Einsatz von KI mit sich bringt. 

Jetzt unverbindliches Angebot anfordern