Die Konferenz der unabhängigen Datenschutzaufsichtsbehörden des Bundes und der Länder (DSK) hat im Oktober 2025 die „Orientierungshilfe zu datenschutzrechtlichen Besonderheiten generativer KI-Systeme mit RAG-Methode“ (Version 1.0) veröffentlicht. Retrieval Augmented Generation-Systeme (RAG) sollen dabei helfen, die Vorteile moderner künstlicher Intelligenz zu nutzen und zugleich die damit einhergehenden Risiken für die Rechte und Freiheiten betroffener Personen zu vermindern.
Dieses Papier richtet sich dezidiert an Unternehmen und Behörden, die KI-Systeme mit RAG bereits einsetzen oder einsetzen möchten. Die DSK unterstreicht, dass Verantwortliche jederzeit Transparenz, Zweckbindung und die Wahrung der Betroffenenrechte sicherstellen müssen. Obwohl die RAG-Methode einige Herausforderungen adressiert, bleiben allgemeine datenschutzrechtliche Fragestellungen bestehen, weshalb die Bewertung des konkreten Einsatzes stets einzelfallabhängig erfolgen muss.
Was ist RAG?
Die RAG-Methode (Retrieval Augmented Generation) ist eine KI-Technologie, die darauf abzielt, die Nutzung generativer KI-Modelle wie Large Language Models (LLMs) zu optimieren, indem Wissen aus einer bisher unbekannten oder unvollständigen Wissensdomäne zugänglich gemacht wird. Bei RAG wird ein LLM mit einer dedizierten Datenbasis kombiniert. LLMs sind typischerweise vortrainierte Transformatoren (wie GPT). Diese bergen Risiken, die sich unter anderem aus dem Training mit personenbezogenen Daten und dem Phänomen des Halluzinierens ergeben. Ein RAG-System selbst wird als KI-System nach Art. 3 Nr. 1 KI-VO betrachtet.
Aufbau & Funktionsweise
Ein RAG-System im Sinne der Orientierungshilfe besteht im Kern aus einem Retriever, einem Embedding-Modell, einer Vektordatenbank und einem textgenerierenden Sprachmodell (LLM). Das RAG-Subsystem ergänzt die Eingabe des Nutzers (Eingabeprompt) um relevante Texte, die aus unternehmens- oder behördeneigenen Referenzdokumenten stammen. Dabei wird die Eingabe zunächst in einen Vektor überführt (Anfragevektor), welcher dann vom Retriever genutzt wird, um in der Vektordatenbank nach semantisch ähnlichen Textabschnitten (Chunks) zu suchen. Diese relevanten Chunks werden zusammen mit dem ursprünglichen Prompt als „erweiterte Anfrage“ an das LLM gesendet.
Der entscheidende Punkt ist, dass die Informationen aus den Referenzdokumenten die Ausgabe des LLMs wesentlich beeinflussen, aber im Gegensatz zu den Trainingsdaten das LLM selbst nicht verändern. Das LLM soll dann lediglich der Spracherzeugung dienen, während das faktische Wissen idealerweise vollständig aus den Referenzdokumenten stammt. Die DSK betrachtet exemplarisch RAG-Systeme mit Embeddings und Vektordatenbanken, da diese eine Suche ermöglichen, die sich an der Semantik orientiert.
Grenzen der RAG-Methode
Obwohl die RAG-Methode positive Effekte auf die Richtigkeit und Nachvollziehbarkeit der KI-Ausgaben entfalten kann, unterliegt sie auch systembedingten Beschränkungen. Die DSK weist darauf hin, dass die RAG-Methode die datenschutzrechtliche Beurteilung des Trainings des verwendeten LLM als solches unberührt lässt. Ein rechtswidrig trainiertes KI-Modell bleibt auch in einem RAG-System ein rechtswidrig trainiertes KI-Modell. Das RAG kann das antrainierte Wissen des LLM nicht verändern, sondern nur den Eingabeprompt beeinflussen.
Weitere Grenzen ergeben sich aus den technischen Notwendigkeiten. Die Eingabe in das LLM darf nicht beliebig lang sein, wodurch die Textpassagen zur Ergänzung des Prompts begrenzt sind. Zudem erfolgt die Anreicherung nur im semantisch benachbarten Einbettungsraum. Dies kann dazu führen, dass komplexe Wenn-Dann-Gedankenketten über lange Textpassagen hinweg, die logisch zusammengehören, aber keine ausreichende semantische Nähe aufweisen, unvollständig der erweiterten Anfrage hinzugefügt werden. Wichtig ist auch, dass in vielen RAG-Systemen keine rein syntaktische Suche zur Anwendung
kommt, sondern in der Regel die Suche nach der semantischen Nähe gemeint ist.
Der KINAST „KI-Beauftragte“
Ihre Lösung für rechtssichere KI-Compliance
Auswirkungen auf die datenschutzrechtliche Bewertung
Die DSK nimmt in ihrer Orientierungshilfe eine differenzierte datenschutzrechtliche Bewertung einer Implementierung der RAG-Methode in einem KI-System vor.
1 Richtigkeit
RAG-Systeme können sich positiv auf die Richtigkeit der generierten Ausgabe auswirken, da sie das Halluzinieren von KI-Modellen reduzieren und kontextbezogene, überprüfbare Inhalte liefern können. Ein wesentlicher Vorteil ist, dass die Daten in den Referenzdokumenten im Falle von Fehlern oder Veraltung gelöscht oder aktualisiert werden können, was bei im LLM enthaltenen Informationen nicht direkt möglich ist. Die Zuverlässigkeit hängt jedoch stark von der Qualität, Aktualität und Vollständigkeit der verwendeten Referenzdokumente und der korrekten Datenaufbereitung (Chunking, Entfernen irrelevanter Inhalte) ab.
2 Transparenz
Die Transparenz wird erhöht, wenn das RAG-System die für die Antwort genutzten Quellen (Referenzen auf Dokumente oder Chunks) dokumentiert, was die Nachvollziehbarkeit des verwendeten Inputs ermöglicht. Die Transparenz ist jedoch darauf beschränkt, Aussagen über die erweiterte Anfrage an die LLM-Komponente zu treffen. Wie die Ausgaben der KI-Modelle entstehen, bleibt weiterhin schwer nachvollziehbar und damit intransparent.
3 Integrität und Vertraulichkeit
Mit RAG kann die Vertraulichkeit und Integrität von zusätzlich eingebundenen personenbezogenen Daten im RAG-Subsystem verbessert werden. Durch die Anwendung bewährter technischer und organisatorischer Maßnahmen wie Mandantentrennung/funktionale Trennung und Rechte- und Rollenkonzepte in der Vektordatenbank können auch personenbezogene Daten mit höherem Schutzbedarf verarbeitet werden, da diese nicht dauerhaft im LLM verbleiben. Der Einsatz eines RAG-Systems kann zudem den on-premise Betrieb ermöglichen, wodurch die Übermittlung personenbezogener Daten an Online-Betreiber großer Sprachmodelle vermieden wird.
4 Zweckbindung
Eine Bereitstellung bestimmter Dokumente für das LLM ermöglicht zielgerichtete Abfragen, die strikt auf definierte Verarbeitungszwecke beschränkt sind. Die Zweckbindung in der Vektordatenbank lässt sich durch eine Mandantentrennung technisch umsetzen. Eine Bedrohung für die Zweckbindung entsteht jedoch, wenn personenbezogene Daten aus der Vektordatenbank an das LLM übergeben werden, da es zu einer unbemerkten Verkettung mit bereits im LLM enthaltenen personenbezogenen Daten kommen kann.
5 Datenminimierung und Speicherbegrenzung
Die Datenminimierung wird im RAG-Subsystem dadurch unterstützt, dass Verantwortliche bestimmen können, welche Dokumente in der Vektordatenbank gespeichert werden. Hinsichtlich der Speicherbegrenzung bieten RAG-Systeme Vorteile, da Referenzdokumente und Einträge in der Vektordatenbank direkt adressierbar und damit gezielt löschbar sind, was die Umsetzung klassischer Löschmechanismen erleichtert. Der Einsatz eines kleinen Sprachmodells (SLM) ist zudem vorteilhaft, da es u. U. weniger personenbezogene Daten memoriert.
6 Rechtmäßigkeit
Der Einsatz eines RAG-Systems bedarf stets einer datenschutzrechtlichen Rechtsgrundlage, insbesondere für die Verarbeitung personenbezogener Daten in den Referenzdokumenten und deren Speicherung in der Vektordatenbank. Obwohl das Training eines rechtswidrig trainierten LLM unberührt bleibt, kann die Verwendung der RAG-Methode die damit einhergehenden Risiken für die Rechte und Freiheiten betroffener Personen mindern. Der Einsatz der RAG-Methode kann daher im Einzelfall als risikomindernde Maßnahme geprüft werden, die gegebenenfalls die Voraussetzung für eine Rechtsgrundlage erleichtert.
7 Umgang mit Betroffenenrechten
Die Umsetzung von Betroffenenrechten nach Art. 15 ff. DSGVO in Bezug auf das LLM bleibt weitgehend ungelöst. Jedoch können die Rechte (Auskunft, Berichtigung, Löschung) in Bezug auf den Eingabeprompt, die Ausgabe, die Referenzdokumente und die Vektordatenbank, sofern dort personenbezogene Daten verarbeitet werden, in der Regel umgesetzt werden.
Bedeutung für Unternehmen
RAG-Systeme können Unternehmen dabei unterstützen, Datenschutz-by-Design abzubilden und digitale Souveränität zu fördern. Insbesondere der mögliche lokale Betrieb des gesamten RAG-Systems („on-premise“) und die damit verbundene Vermeidung der Übermittlung personenbezogener Daten an Dritte (z. B. Hyperscaler) trägt zur digitalen Souveränität bei und bildet den Grundsatz Datenschutz-by-Design ab.
RAG-Systeme können Unternehmen und Behörden dabei unterstützen, die Vorteile moderner KI zu nutzen und zugleich die damit einhergehenden Risiken für die Rechte und Freiheiten von betroffenen Personen zu vermindern. Entscheidend ist jedoch, dass ihr Einsatz von Anfang an datenschutzkonform gestaltet wird. Verantwortliche müssen Transparenz, Zweckbindung und die Wahrung der Betroffenenrechte jederzeit gewährleisten.
Meike Kamp, Berliner Beauftragte für Datenschutz und Informationsfreiheit & DSK-Vorsitzende
Unternehmen müssen jedoch beachten, dass die RAG-Methode keine universelle Lösung für alle datenschutzrechtlichen Probleme generativer KI darstellt. Verantwortliche müssen den Einsatz jedoch von Anfang an datenschutzkonform gestalten und die datenschutzrechtliche Bewertung der einzelnen Verarbeitungen einzelfallabhängig vornehmen. Die Qualität, Aktualität und Vollständigkeit der Referenzdokumente müssen regelmäßig überprüft werden, um die Richtigkeit der Ausgaben sicherzustellen. Zudem sind alle technisch-organisatorischen Maßnahmen, insbesondere im RAG-Subsystem, ständig auf dem aktuellen Stand zu halten.
Fazit
Die DSK-Orientierungshilfe bestätigt, dass ein KI-System unter Verwendung der RAG-Methode einige Schwächen traditioneller KI-Systeme ohne RAG, wie Halluzinationen und unrichtige Ausgaben, reduzieren kann. Die Nutzung der RAG-Methode kann somit je nach Gestaltung als eine mitigierende Maßnahme im Sinne der EDSA-Stellungnahme 28/2024 erachtet werden. Verantwortliche Stellen sind aufgefordert, die spezifischen Herausforderungen und Erleichterungen, die mit der RAG-Methode einhergehen, sorgfältig zu prüfen. Dies gilt im besonderen Maß im Hinblick auf Transparenz, Zweckbindung und die Umsetzung der Betroffenenrechte.
Der „KI-Beauftragte“ –
Ihre Lösung für rechtssichere KI-Compliance
Wir bieten Unternehmen eine umfassende Lösung für die rechtlichen und regulatorischen Herausforderungen, die der Einsatz von KI mit sich bringt.










