Die Europäische Kommission hat eine Vorlage veröffentlicht, die Anbietern von KI-Modellen mit allgemeinem Verwendungszweck (General-Purpose AI, GPAI) helfen soll, die für das Training ihrer Modelle verwendeten Inhalte zusammenzufassen. Diese Vorlage unterstützt Anbieter bei der Umsetzung der GPAI-Pflichten, welche am 2. August 2025 in Kraft getreten sind. Ziel ist es, in Einklang mit der KI-Verordnung (KI-VO) die Transparenz zu erhöhen und den Anbietern ein einfaches, einheitliches und effektives Mittel zur Verfügung zu stellen, um die geforderte öffentliche Zusammenfassung zu erstellen.
Transparenzpflichten nach der KI-Verordnung
Die KI-Verordnung (Verordnung (EU) 2024/1689) schreibt in Artikel 53 Absatz 1 Buchstabe d vor, dass alle Anbieter von GPAI-Modellen eine ausreichend detaillierte öffentliche Zusammenfassung der für das Training verwendeten Inhalte erstellen und veröffentlichen müssen, basierend auf einer vom AI Office bereitgestellten Vorlage. Diese Verpflichtung gilt für alle GPAI-Modelle, die auf dem Unionsmarkt bereitgestellt werden, einschließlich jener, die unter freier und Open-Source-Lizenz veröffentlicht werden.
Die Transparenz dient primär dazu, Rechteinhabern, wie Urheberrechtsinhabern, die Ausübung und Durchsetzung ihrer Rechte nach Unionsrecht zu erleichtern. Gleichzeitig unterstützt die Zusammenfassung auch die Einhaltung der Datenschutzbestimmungen der Union, schützt Verbraucherrechte und ermöglicht die Bewertung der Datendiversität zur Einhaltung der Grundrechte auf Nichtdiskriminierung.
Struktur und Inhalte der Vorlage
Die Vorlage definiert eine gemeinsame Mindestgrundlage für die offenzulegenden Informationen und versucht dabei, Transparenz und den Schutz von Geschäftsgeheimnissen auszubalancieren. Sie ist darauf ausgelegt, allgemein verständlich und umfassend zu sein, anstatt technisch detaillierte Angaben zu verlangen. Die Vorlage gliedert sich in drei Hauptbereiche.
1. Allgemeine Informationen
Der erste Abschnitt umfasst Allgemeine Informationen, darunter die Identifizierung des Anbieters und des Modells. Weitere Angaben sind die verwendeten Modalitäten, die ungefähre Größe der Trainingsdaten pro Modalität in weiten Spannen sowie die sprachlichen und weiteren allgemeinen Merkmale der Daten.
2. Liste der Datenquellen
Der zweite Abschnitt, Liste der Datenquellen, fordert die Offenlegung spezifischer Datenquellen. Hierzu zählen öffentlich zugängliche Datensätze, wobei große Datensätze namentlich genannt werden müssen. Für Daten, die online gesammelt und gescraped wurden, sind Angaben zu den Crawlern, dem Sammelzeitraum und eine umfassende Beschreibung der Inhaltstypen erforderlich. Insbesondere müssen Anbieter eine Liste der Top 10 % der am häufigsten gescrapten Domainnamen offenlegen. Für KMU gilt jedoch eine proportionale Grenze (Top 5 % oder 1.000 Domains). Zudem müssen Informationen über Benutzerdaten aus der Interaktion mit den Diensten des Anbieters und über synthetisch generierte Daten bereitgestellt werden.
3. Aspekte der Datenverarbeitung
Der dritte Teil befasst sich mit relevanten Datenverarbeitungsaspekten. Hierzu gehören Maßnahmen zur Einhaltung des Vorbehalts von Rechten aus der Text- und Data-Mining-Ausnahme gemäß der Urheberrechtsrichtlinie. Ebenso zählt eine allgemeine Beschreibung der ergriffenen Maßnahmen zur Entfernung illegaler Inhalte aus den Trainingsdaten unter diesen Punkt.
Konsequenzen für Anbieter von GPAI-Modellen
Anbieter von General-Purpose AI-Modellen sind zur Nutzung dieser Vorlage verpflichtet, um ihre Transparenzanforderungen in einer konsistenten Weise zu erfüllen. Die Zusammenfassung muss spätestens dann öffentlich zugänglich gemacht werden, wenn das Modell auf dem Unionsmarkt platziert wird. Die Veröffentlichung muss auf der offiziellen Website des Anbieters und über alle öffentlichen Vertriebskanäle stattfinden. Wird ein Modell durch zusätzliche Daten nachtrainiert, muss die Zusammenfassung mindestens alle sechs Monate oder bei einer materiell signifikanten Änderung des Inhalts aktualisiert werden.
Die Pflicht zur Veröffentlichung gilt ab dem 2. August 2025. Für Modelle, die bereits vor diesem Datum auf dem Markt waren, gilt eine längere Übergangsfrist bis zum 2. August 2027. Sollten Informationen für Bestandsmodelle trotz größter Bemühungen nicht verfügbar sein oder deren Beschaffung einen unverhältnismäßigen Aufwand darstellen, müssen diese Informationslücken klar begründet werden. Die Einhaltung der Verpflichtungen wird ab dem 2. August 2026 durch das AI Office überwacht. Verstöße können mit empfindlichen Bußgeldern von bis zu 3 % des weltweiten Jahresumsatzes oder 15.000.000 Euro geahndet werden.
Bedeutung für GPAI-Anwender
Unternehmen, die GPAI-Modelle in ihre eigenen Anwendungen integrieren (Downstream-Akteure), profitieren stark von der erhöhten Transparenz. Die bereitgestellten Informationen sind unerlässlich, um die eigenen Compliance-Anforderungen zu erfüllen, Risiken zu minimieren und datenschutzrechtliche Sorgfaltspflichten besser bewerten zu können. Die Transparenzpflichten der Anbieter verbessert die Position der Anwender. Durch die einheitliche Vorlage erhalten sie strukturierte und nachvollziehbare Einblicke in die Eigenschaften der Trainingsdaten. Dies kann das Verständnis und die Einordnung erleichtern.
Fazit
Die von der Kommission veröffentlichte Vorlage für die Zusammenfassung der Trainingsinhalte von GPAI-Modellen ist ein zentrales Compliance-Dokument. Sie soll als obligatorischer Leitfaden für Anbieter dienen, um die Transparenzanforderungen der KI-VO zu erfüllen und Rechtsunsicherheit zu mindern. Für alle Unternehmen, ob als Anbieter oder als Anwender von KI-Technologie, ist es nunmehr entscheidend, sich proaktiv mit den Anforderungen der Vorlage auseinanderzusetzen.
KINAST bietet eine umfassende und praxisorientierte KI-Beratung, die sämtliche Aspekte der EU KI-Verordnung abdeckt und mit angrenzenden Rechtsgebieten verzahnt. Erhalten Sie punktgenaue Antworten zu Ihren Fragen rund um KI: Ob Risikoklassifizierung, Verträge, Datenschutz oder Konformitätsbewertung. Wir beraten Sie genau dort, wo Ihr Unternehmen Unterstützung braucht.









