Wie die österreichische Presse vor der Entwicklung Künstlicher Intelligenz geschützt wird

Künstliche Intelligenz-Systeme speisen sich aus Informationen aus verschiedenen Quellen: Bücher, Enzyklopädien, Abhandlungen, Forschungsergebnisse und, besonders bei aktuellen Themen, aus Zeitungsartikeln. Online-Nachrichtenmedien gehören zu den Hauptinformationsquellen für Systeme wie ChatGPT, Claude oder Gemini, doch das wirft ein Problem für Zeitungen auf. Denn immer häufiger wenden sich Nutzer an KI-Programme, die gewissermaßen die Arbeit von Journalisten nutzen, ohne dass diese davon profitieren. Im Gegenteil, viele Verlage verlieren Abonnements und Klicks, weil sie von vielen nicht mehr als notwendig erachtet werden.

Die Welt der Künstlichen Intelligenz ist neu und entwickelt sich ständig weiter; deswegen sind die Rechtsrahmen dazu lückenhaft. Aus diesem Grund hat das Europäische Parlament dringend einschreitende Maßnahmen zum Schutz von Zeitungen und grundsätzlich aller urheberrechtlich geschützten Inhalte in diesem neuen digitalen Umfeld gefordert.

Die Resolution

Um dies zu erreichen, hat das Straßburger Plenum mit überwältigender Mehrheit (460 Ja-Stimmen, 71 Nein-Stimmen, 88 Enthaltungen) eine Resolution angenommen, in der die Europäische Kommission zu neuen Regelungen und konkreten Mechanismen aufgefordert wird, Autoren, Verlegerinnen und Verlagen sowie Pressetitel zu schützen. Der Text benennt die politische Richtung und die Instrumente, die eingesetzt werden sollen: obligatorische Transparenz über die Nutzung urheberrechtlich geschützter Werke, das Recht, eigene Inhalte vom Training von KI-Systemen auszuschließen, sowie eine faire Vergütung, die auch vergangene Nutzungen einschließt.

„Wir brauchen klare Regeln zur Nutzung von urheberrechtlich geschützten Inhalten für das Training von KI. Rechtssicherheit würde Entwicklern ermöglichen zu wissen, welche Inhalte verwendet werden dürfen und wie man Lizenzen erhält“, erklärte der Berichterstatter des Textes, der bekannte deutsche Politiker Axel Voss ist. „Gleichzeitig würden die Rechteinhaber vor der unautorisierten Nutzung ihrer Inhalte geschützt und würden eine Vergütung erhalten“, ergänzte er.

„Die Innovation muss Hand in Hand gehen mit dem Respekt vor den Rechten derjenigen, die Inhalte schaffen“, forderte der EU-Abgeordnete Mario Furore von der Movimento 5 Stelle (M5S) und betonte, dass „Regeln nötig sind, die die kreative Arbeit und den journalistischen Beruf schützen“.

Der Kontext

Generative KI bezeichnet jene Kategorie von Computersystemen, die eigenständig Texte, Bilder, Videos und Audio basierend auf enormen Datenmengen erzeugen, mit denen sie „trainiert“ wurden. Um diese Modelle zu erstellen, haben Tech-Unternehmen gigantische Mengen an Inhalten aus dem Netz gesammelt, darunter Zeitungsartikel, Bücher, Fotografien und Musikwerke, oft ohne jegliche Genehmigung und ohne eine Entschädigung der Rechteinhaber.

Der bestehende europäische Rechtsrahmen, insbesondere die Richtlinie über das Urheberrecht im Digitalen Binnenmarkt von 2019, sieht bereits einige Ausnahmen vor, die das automatisierte Text- und Data-M mining zu Forschungszwecken erlauben. Allerdings erlaubt er auch den Inhabern von Rechten, einer kommerziellen Nutzung ihrer Inhalte zu widersprechen. Das Problem besteht darin, dass diese Ausschlussklausel weitgehend schwer durchsetzbar ist: Die Modalitäten für deren Ausübung sind nicht standardisiert, KI-Anbieter ignorieren oft die Vorgaben der Verlage, und es gibt keinen Mechanismus zur unabhängigen Überprüfung.

„Es gibt Hinweise auf eine weit verbreitete Verletzung der Urheberrechtsregeln durch Anbieter generativer KI, darunter das unautorisierte Sammeln von Werken aus dem Internet, die Missachtung der Rechte der Inhaber und die Nutzung rechtsverletzender Quellen“, mahnt das Parlament in seiner Resolution.

Transparenz

Die vorrangigste und dringendste Forderung betrifft die Transparenz. Wer auch immer ein generatives KI-System auf dem europäischen Markt anbietet – sei es der Hersteller des Modells oder das Unternehmen bzw. der Dienstleister, der es in eigene Dienste integriert – muss eine detaillierte Auflistung aller urheberrechtlich geschützten Werke vorlegen, die für das Training verwendet wurden. Es reicht nicht aus, abstrakt von „Datenkategorien“ zu sprechen; es müssen einzelne Inhalte identifiziert werden.

Die Resolution geht über das ursprüngliche Training hinaus und deckt auch nachfolgende Nutzungen wie die „Inferenz“ (den Prozess, durch den das Modell Nutzeranfragen in Echtzeit verarbeitet) sowie die sogenannte „Generierung, erweitert durch Retrieval“ (eine Technik, bei der das System bei der Beantwortung von Fragen externe Quellen heranzieht). Praktisch gesehen müsste auch der Vorschlag eines Suchmaschinenbetriebs, der Artikel zusammenfasst, dokumentiert und offengelegt werden.

Um diese Verpflichtung durchzusetzen, schlagen die Abgeordneten einen Vermutungsmechanismus vor: Wenn ein Anbieter die Transparenzpflichten verletzt, wird automatisch angenommen, dass urheberrechtlich geschützte Werke ohne Genehmigung verwendet wurden. Und sollte ein Gericht dem Rechteinhaber Recht geben, würden alle angemessenen Rechtskosten dem KI-Anbieter auferlegt. Es handelt sich um eine Umkehr der Beweislast mit potenziell weitreichenden Auswirkungen: Nicht mehr der Verleger muss den Verstoß beweisen, sondern der KI-Anbieter muss seine Übereinstimmung nachweisen.

Der Ausschlussmechanismus

Parallel zur Transparenz wollen die Abgeordneten, dass Rechteinhaber – darunter Verlage, Autoren, Fotografen und Verlage – Inhalte effektiv vom Training der KI-Systeme ausschließen können. Dieses Recht existiert bereits im geltenden Recht, funktioniert jedoch unzureichend. Die Opt-out-Signale, die von Nachrichtenredaktionen veröffentlicht werden, werden oft ignoriert, und es gibt kein zentrales Register, das die Einhaltung garantiert.

Der Vorschlag sieht vor, das Amt der Europäischen Union für geistiges Eigentum (EUIPO) mit der Verwaltung eines offiziellen Ausschlussregisters zu betrauen, in standardisierten Formaten, die von IT-Systemen automatisch gelesen werden können, damit KI-Anbieter dies vor der Datenerhebung prüfen können.

Die Frage der Vergütung

Der europäische Kultur- und Kreativsektor, zu dem Film, Musik, Verlagswesen und Journalismus gehören, macht rund 6,9 Prozent des EU-BIP aus und beschäftigt etwa acht Millionen Menschen. Wenn seine Inhalte kostenlos für das Training konkurrierender Systeme verwendet werden dürfen, bedeutet das laut den Abgeordneten eine indirekte Subvention der großen Tech-Unternehmen auf Kosten der Schöpfer.

Deshalb fordert das Parlament, dass die Vergütung „fair und angemessen“ gestaltet wird und durch Verhandlungen in gutem Glauben zwischen Rechteinhabern und KI-Anbietern festgelegt wird. Eine pauschale „Globallizenz“, die es Anbietern ermöglichen würde, eine Einmalzahlung für das Trainieren ihrer Modelle mit jeglichen Inhalten zu leisten, wird ausdrücklich abgelehnt.

Ein besonders wichtiger Punkt betrifft vergangene Nutzungen. Viele heute verfügbare KI-Modelle wurden vor Jahren trainiert, als die Normen noch unklar oder schlicht ignoriert wurden. Das Parlament bittet die Kommission, Mechanismen der Entschädigung auch für diese vorangegangenen Nutzungen zu prüfen, da darauf zu warten, bis ein funktionierender Lizenzmarkt entsteht, diejenigen schutzlos ließe, die bereits geschädigt wurden.

Die Presse als Sonderfall

Der Text widmet der Presse- und Informationssphäre besondere Aufmerksamkeit, weil sie wirtschaftlich wie demokratisch eine strategische Bedeutung hat. Die Sorge gilt nicht nur der Tatsache, dass Zeitungen Inhalte ohne Entschädigung verlieren könnten, sondern auch der Befürchtung, dass KI-Systeme Quellen nicht neutral auswählen könnten, wodurch bestimmte Titel gegenüber anderen bevorzugt würden oder die Informationsdienste derselben Technologieanbieter bevorzugt würden.