KI-Scraping: Was tun, wenn sich Künstliche Intelligenz meiner Arbeit bedient?

Autor: Gunter Becker · 28. Mai 2024

Seit Jahren streifen Maschinen wie KI-Crawler und Bots großer Tech-Konzerne durchs Internet und sammeln automatisiert Daten, Texte, Filme, Musik und Bilder. Mit denen werden Analysetools gefüttert, Wissensdatenbanken bestückt, aber auch KI-Modelle wie ChatGPT trainiert – die Urheber gehen dabei meist leer aus. Wie kann ich mich als Medienproduzent:in vor Scraping, dem „Abschürfen“ meiner Werke durch KI-Bots, schützen? Wo steht der Kampf um Nutzungsregeln und Lizenzgebühren für meine Werke? Ein KI-Berater und der Sprecher der Initiative Urheberrecht geben ein Update.

Hollywood-Star Scarlett Johansson ist wütend und hat ihre Anwälte in Marsch gesetzt. Anlässlich der Präsentation des neuen Sprachmodells GPT-4o von OpenAI stellte Johansson fest, dass die Stimme des Models ihrer eigenen „unheimlich ähnlich sei“. OpenAI Chef Altman selbst hatte mehrmals auf den Film „Her“ (2013) verwiesen, für den Johansson einer künstlichen Intelligenz ihre Stimme geliehen hatte. Jetzt gab OpenAI bekannt, dass die auf den Namen „Sky“ getaufte Stimme „pausiert“ werde.

Die Reaktion des Konzerns ist vermutlich Johanssons Popularität geschuldet. Freie Journalist:innen und andere Kreative haben möglicherweise weniger Aussicht auf solch eine Reaktion der KI-Industrie. Wie können sie sich und ihre Arbeit schützen?

Die Lage ist ambivalent. Auf der einen Seite nutzen Journalist:innen und Kreative KI und freuen sich über die Leistungsfähigkeit der Modelle. Andererseits möchten sie zu Recht verhindern, dass KI-Crawler, Programme, die das Web nach Inhalten „abgrasen“ – ohne ihre Erlaubnis, vielleicht sogar gegen ihren Wunsch und ohne Kompensation – die Früchte ihrer Arbeit ernten, um damit kommerzielle KI-Modelle zu trainieren. Gleichzeitig wächst die Furcht, dass die von ihnen unfreiwillig mitaufgepäppelten virtuellen Konkurrenten sie irgendwann einmal ersetzen könnten.

Für diesen Trend gibt es inzwischen zahlreiche Beispiele. So verkündete der Springer-Konzern im Dezember, sich von den Mitarbeiter:innen der Nachrichten-App Upday trennen und sie durch Künstliche Intelligenz ersetzen zu wollen. Man wolle testen, welche Möglichkeiten sich aus der KI-Technologie ergeben. Upday soll zukünftig als KI-basierter „Trend-News-Generator“ publizieren.

Die Rechtslage? Unklar!

Unabhängig von allen Befürchtungen und Befindlichkeiten gibt es zunächst einmal eine unklare Rechtslage bei der Nutzung der eigentlich urheberrechtlich geschützten Inhalte von Kreativen.

Matthias Hornschuh ist Film- und Hörspielkomponist, Publizist und Hochschullehrer. Als Sprecher der Kreativen in der deutschen Initiative Urheberrecht beschäftigt er sich intensiv mit Fragen rund um KI und Regulierung. Foto: Sebastian Linder / GEMA.

Die beschreibt Matthias Hornschuh, Sprecher der Initiative Urheberrecht, so: „Während es in den USA das Copyright gibt, haben wir in Kontinentaleuropa ein Author’s Right, das ein Exklusivrecht ist. Für jede Nutzung unserer Inhalte muss daher eine Erlaubnis vorliegen. Nur wir können entscheiden, ob und wie ein von uns geschaffenes Werk verwendet werden darf.“

So weit, so klar. Von dieser Rechtspraxis gibt es allerdings einige wenige – als sogenannte „Schrankenregeln“ formulierte – Ausnahmen, auf die sich die KI-Konzerne berufen könnten. Eine davon ist das „Text- und Data-Mining“ (TDM), das für bestimmte Nutzungszusammenhänge, etwa im Umfeld akademischer Forschung, den ungenehmigten Zugriff auf Daten und Werke zulässt.

Rechtlich ist allerdings noch nicht geklärt, ob auch das KI-Crawling für das KI-Training kommerzieller Modelle in diesen Bereich fällt.

Opt-out als formaler Widerspruch gegen KI-Scraping

Zunächst einmal können Journalist:innen und andere Medienschaffende als Urheber:innen ein Opt-out formulieren und damit einen formalen Widerspruch gegen diese Form der Nutzung einlegen. „Das ergibt sich aus der europäischen Urheberrichtlinie von 2019 und wurde 2021 in nationales Recht umgesetzt, in Deutschland in § 44b des Urheberrechtsgesetzes“, erklärt Matthias Hornschuh. Zentral wichtig: Dieser Opt-out muss maschinenlesbar sein, um von den Bots, den im Netz kursierenden Such-Robotern, wahrgenommen werden zu können.

Als Komponist kennt Hornschuh ein praktisches Beispiel aus dem Musikbereich für solch eine Opt-out-Erklärung. So hat die Verwertungsgesellschaft GEMA einen Generalvorbehalt in Textform für das von ihr vertretene Gesamtrepertoire erklärt, „mit der verschmitzten Begründung: Wenn Maschinen eines lesen können, dann ja wohl Texte“, sagt der Sprecher der Initiative Urheberrecht. „Ich zum Beispiel würde auf meiner Blogseite, mindestens im Impressum, immer klar reinschreiben, was man mit meinem Content darf oder nicht darf. Am besten mit dem Datum, ab dem das gilt“, ergänzt er.

Technische Schutzmaßnahmen für eigene Sites

Branko Trebsche ist IT- und KI-Berater und für den Verband der Gründer und Selbstständigen Deutschland e. V. (VGSD) aktiv. Er informiert auch über technische Lösungen zum Schutz eigener Inhalte vor KI-Scraping und stellt hier einige Maßnahmen vor.

So könne man zum Beispiel einen Mechanismus, ähnlich einer Paywall, in die eigene Site einbauen, um Besucher:innen zunächst nur die ersten fünf Zeilen eines Beitrags zu zeigen. Wer weiterlesen möchte, müsse dann die Cookie-Richtlinie bestätigen oder eine Zahlenkombination eingeben. Das hindere webbasierte Scripte zunächst daran, die eigenen Daten einfach abzugreifen. „Die Betonung liegt auf einfach. Ist das ein vollständiger Schutz? Nein. Programmierer können ein Skript schreiben, das den OK-Button automatisch drückt, dann Ihren Beitrag in einem sogenannten headless browser, also ohne die sonst dazugehörige grafische Nutzungsoberfläche, darstellt und ihn so zur Übernahme durch die Maschine freistellt“, schränkt Trebsche ein.

Branko Trebsche ist Koordinator beim Verband der Gründer und Selbstständigen Deutschland e. V. (VGSD), selbstständiger KI- und IT-Experte, Coach und Trainer. Foto: Privat.

Natürlich könne man die eigene Website oder den Blog auch durch einen Accountzugang schützen. Doch auch hier ließen sich Bots programmieren, die sich zunächst automatisiert registrieren, danach einloggen und dann die Texte abgreifen.

Als dritte Schutzmöglichkeit nennt Trebsche robots.txt. „Das ist eine Datei, die im Hauptverzeichnis Ihrer Site liegt und die – Achtung Wording! – fairerweise jeder Robot, der Ihre Site besucht, zunächst lesen sollte, um zu lernen, was er auf Ihrer Website tun darf und was nicht. Dort formuliert man dann Nutzungsregeln für den Bot, etwa diese: ,Diese Seite darfst du lesen und diese Seite nicht‘ “, beschreibt Trebsche. „Das ist aber nicht mehr als eine freiwillige Selbstverpflichtung. Sie merken schon: Keine dieser Schutzmaßnahmen ist unüberbrückbar“, zieht der KI-Experte Bilanz.

Schutz durch Metadaten und Data Poisoning

Matthias Hornschuh von der Initiative Urheberrecht nennt weitere technische Schutzmaßnahmen und verweist auf die Aktivitäten verschiedener Hardwareanbieter, die zum Beispiel bei Fotos und Videos Wasserzeichen in die Metadaten der Aufnahmen schreiben. Dadurch wird nachvollziehbar, wo und wann das Werk entstand.

Ein wichtiges Instrument ist dabei der International Standard Content Code, ISCC. Diese Open Source-Technologie ermöglicht die Identifikation, die Zuordnung und das Management digitaler Inhalte über verschiedene Plattformen und Branchen hinweg. Mithilfe des Codes können Inhalte – wohlgemerkt nicht Dateien – erkannt werden, um dann auf eine Datenbank referenziert zu werden, in der klar hinterlegt ist, was mit diesem Inhalt erlaubt ist und was nicht.

Als eine besondere Gegenbewegung gegen KI-Scraping (im Bereich der Fotografie) nennt Hornschuh das sogenannte Data Poisoning. Bei diesem Prozess können zum Beispiel Fotojournalist:innen ihre Bilder mit einer Art Code versehen, der das KI-Modell schädigt, wenn es diesen Inhalt ungenehmigt zum Training nutzt. Als Beispiele nennt er die Tools Glaze und Nightshade.

„Solche Tools werden übrigens nicht in irgendwelchen Hinterzimmern entwickelt, sondern unter anderem von der University of Chicago, also ganz offiziell und sichtbar und als ein Mittel legitimer Gegenwehr. Ähnliche Werkzeuge entstehen zurzeit im Audiobereich und sicher auch im Textbereich. Trotzdem befinden wir uns zweifellos in einer Art von Neuland, obwohl wir vor 25 Jahren mit dem Aufkommen von Napster eine rechtspolitisch ähnliche Situation erlebt haben“, sagt Hornschuh.

Kompensationen für gescrapte KI-Inhalte

Er vermutet, dass die Not der KI-Konzerne inzwischen sehr groß sein muss, weil so gut wie alles, was frei zugänglich ist, bereits gescrapt wurde. „Die Unternehmen suchen händeringend nach neuen Corpora menschengemachter Daten und Werke, die sie für das Training ihrer Modelle nutzen können“, sagt er.

Erste Verlage und Agenturen haben inzwischen Lizenzvereinbarungen mit den KI-Anbietern abgeschlossen. In deren Rahmen fließen auch erste Lizenzzahlungen für Verlagscontent, der zum KI-Training eingesetzt wird. Für Matthias Hornschuh sind das Belege für die Chance, einen Lizenzmarkt aufbauen zu können. „Gleichzeitig müssen wir unbedingt vor Gericht für Schadenersatz und Kompensation kämpfen“, fordert er und erinnert an die zahllosen Werke, die bisher bereits von den KI-Anbietern unhonoriert genutzt wurden.

Den Opt-out hält er für den zentralen Mechanismus, um über Lizenzierungen verhandeln zu können. „Ansonsten berufen sich die Tech-Firmen auf TDM für Europa oder Fair Use für die USA und gehen davon aus, dass sie sich alles nehmen dürfen. Wobei das, wie gesagt, rechtlich ja noch gar nicht entschieden ist. Für eine Klärung werden wir bis zum EuGH gehen müssen“, sagt Hornschuh.

Wie weit sind aber freie Journalist:innen und Kreative, zum Beispiel in Form pauschaler Ausschüttungen über ihre Verwertungsgesellschaften, von einer Kompensation entfernt?

Es gehe um solch gewaltige Datenmengen, dass ein individuelles Verhandeln, etwa einzelner Journalist:innen, gar keinen Sinn mehr ergebe, glaubt Hornschuh. „Wir als Urheber müssen den korporativen Werknutzern kollektiv entgegentreten, über Verlage und Verwertungsgesellschaften, über die Gewerkschaften und Berufsverbände. Individuell wird das nicht mehr gehen, es sei denn, man ist Taylor Swift“, ist sich Hornschuh sicher.

Produziert die KI Plagiate? Oder eine ganz neue Form von Content?

Branko Trebsche vom Verband der Selbstständigen und Gründer hat ganz generell noch ein Problem damit, sich ein realistisches pauschales Vergütungsmodell vorstellen zu können.

GPT-4o etwa verwende und reproduziere einen Text ja nicht im herkömmlichen Sinn. Der Text und die Worte würden mathematisch-statistisch aufbereitet und durch spezifische Wissensfragmente der KI ergänzt. „In der Maschine ist der Text nur noch in Form von Vektoren und Zahlentabellen vorhanden. Es werden von ihm in der KI nur Wahrscheinlichkeiten dargestellt: Wie hoch ist die Wahrscheinlichkeit, dass Worte oder Textteile in genau dieser Kombination wieder vorkommen“, beschreibt Trebsche.

Nun könne man eine pauschale Nutzungsgebühr dafür verlangen, dass der Text überhaupt zum Training einer KI verwendet wurde. Man könne aber schwerlich ein Modell entwickeln, in dem jedes Mal eine Lizenzgebühr anfällt, wenn der Text oder Teile des Textes durch die KI ausgespielt werden.

„Beim Ausspielen von Ergebnissen durch die KI wird ja keine ursprünglich journalistische Leistung veröffentlicht. Stattdessen handelt es sich um einzelne Elemente, die in hoher Wahrscheinlichkeit in genau dieser Kombination benutzt werden können“, erklärt Branko Trebsche.

Trotzdem lassen sich beim geschickten Prompten, also der Befehlseingabe in die KI, auch wortwörtliche Textpassagen reproduzieren. Hornschuh erinnert daran, dass die New York Times bei ihrer Klage gegen Microsoft und OpenAI gezeigt hatte, dass die KI auch zusammenhängende Texte aus dem Archiv der Zeitung anbietet.

Die sind urheberrechtlich relevant und, wenn nicht unter die Ausnahme des Text und Data Minings subsumierbar, auch lizenzpflichtig.

Fazit

Der maschinenlesbare Opt-out spielt aktuell für Urheber noch eine zentrale Rolle bei der Anmeldung ihres Nutzungsvorbehalts gegen KI-Scraping. Technische Schutzmaßnahmen wie zum Beispiel robot.txt sind noch unverbindlich, digitale Wasserzeichen und Codes stehen noch am Anfang. Parallel dazu verhandeln immer mehr Verlage und Interessenverbände über Nutzungs- und Lizenzmodelle für KI-Scraping. Der AI-Act der EU ist ein guter erster Schritt, muss jetzt aber national ausgestaltet werden.

Titelillustration: Esther Schaarhüls

Das Magazin Fachjournalist ist eine Publikation des Deutschen Fachjournalisten-Verbands (DFJV).

Foto: Eberhard Kehrer

Der Autor Gunter Becker schreibt seit Beginn der 1990er Jahre als freier Autor über elektronische Medien, Internet, Multimedia und Kino Anfangs für die taz, dann für den Tagesspiegel und im neuen Millennium vorwiegend für Fachmagazine, wie ZOOM und Film & TV Kamera. Für das verdi-Magazin Menschen Machen Medien verfolgt er die Entwicklung nachhaltiger Filmproduktion, die Diversität in den Medien und neue Medienberufe.

Kommentare sind geschlossen.

Fachjournalist

KI-Scraping: Was tun, wenn sich Künstliche Intelligenz meiner Arbeit bedient?

Die Rechtslage? Unklar!

Opt-out als formaler Widerspruch gegen KI-Scraping

Technische Schutzmaßnahmen für eigene Sites

Schutz durch Metadaten und Data Poisoning

Kompensationen für gescrapte KI-Inhalte

Produziert die KI Plagiate? Oder eine ganz neue Form von Content?

Fazit

20 Jahre DFJV

Fachjournalist-Podcast

Unbekannter Feed

Fachjournalist

KI-Scraping: Was tun, wenn sich Künstliche Intelligenz meiner Arbeit bedient?

Die Rechtslage? Unklar!

Opt-out als formaler Widerspruch gegen KI-Scraping

Technische Schutzmaßnahmen für eigene Sites

Schutz durch Metadaten und Data Poisoning

Kompensationen für gescrapte KI-Inhalte

Produziert die KI Plagiate? Oder eine ganz neue Form von Content?

Fazit

Tag Cloud

20 Jahre DFJV

Fachjournalist-Podcast

Unbekannter Feed