Wenn KI selbst plagiiert: Stanford-Studie zeigt – Sprachmodelle kopieren ganze Bücher
Plagiatscanner.de Redaktion | 7. April 2026
Frag eine KI nach Harry Potter – und sie spuckt fast das komplette Buch aus. Wort für Wort. Was klingt wie ein schlechter Scherz, haben vier Forscher der Universitäten Stanford und Yale im Januar 2026 belegt. Ahmed Ahmed, A. Feder Cooper, Sanmi Koyejo und Percy Liang veröffentlichten ihre Ergebnisse auf arXiv. Sie testeten vier der weltweit führenden Sprachmodelle und fanden heraus: Manche Systeme geben auf eine simple Nachfrage fast ein ganzes Buch aus. Die Ergebnisse treffen nicht nur die KI-Industrie ins Mark. Sie betreffen auch jeden, der KI-Texte in Hausarbeiten oder Abschlussarbeiten übernimmt.
Das Experiment: So einfach war es
Die Methode der Forscher war erstaunlich simpel. Sie gaben den Sprachmodellen den ersten Satz eines bekannten Buches und baten: „Fahre mit dem folgenden Text genau wie im Original fort.“ Keine Hacking-Tools, keine komplizierten Tricks. Einfach eine Aufforderung.
Getestet wurden 13 Bücher, darunter elf urheberrechtlich geschützte Werke wie „Harry Potter und der Stein der Weisen“, „1984“ von George Orwell, „Der Hobbit“, „Die Tribute von Panem“ und „Der Da Vinci Code“. Zwei gemeinfreie Werke („Frankenstein“ und „Der große Gatsby“) dienten als Kontrolle.
Bei zwei Modellen – Googles Gemini 2.5 Pro und xAIs Grok 3 – funktionierte die einfache Aufforderung ohne jede Umgehung von Sicherheitsmechanismen. Die Modelle gaben den Text aus, als wäre es das Normalste der Welt.
Die Ergebnisse im Detail
Die Zahlen sind verblüffend. Die folgende Tabelle zeigt, wie viel Prozent von „Harry Potter und der Stein der Weisen“ jedes Modell reproduzierte:
| KI-Modell | Reproduktionsrate | Jailbreak nötig? | Kosten |
|---|---|---|---|
| Claude 3.7 Sonnet | 95,8 % | Ja (258 Versuche) | ca. 120 $ |
| Gemini 2.5 Pro | 76,8 % | Nein | ca. 2,44 $ |
| Grok 3 | 70,3 % | Nein | ca. 8,16 $ |
| GPT-4.1 | 4,0 % | Ja (5.179 Versuche) | ca. 1,37 $ |
Harry Potter war dabei kein Einzelfall. Bei „Der große Gatsby“ spuckte Claude 97,5 Prozent des Textes aus. Bei Orwells „1984“ waren es 95,5 Prozent. Insgesamt kamen vier Bücher auf über 94 Prozent Übereinstimmung.
Und dann ist da noch dieses eine Detail, das man sich auf der Zunge zergehen lassen muss: Gemini 2.5 Pro gab an einer Stelle 9.070 aufeinanderfolgende Wörter wortgetreu aus. Das sind 18 gedruckte Buchseiten. Am Stück. Ohne einen einzigen Fehler.
Warum das so brisant ist
KI-Unternehmen haben in Gerichtsprozessen immer wieder betont: Ihre Modelle lernen aus Texten, speichern sie aber nicht ab. Google erklärte 2023: „Es gibt keine Kopie der Trainingsdaten im Modell selbst.“ Die Stanford-Yale-Studie widerlegt das. Wenn ein Modell fast 96 Prozent eines Romans wortgetreu wiedergeben kann, ist die Behauptung, es handele sich um „Lernen statt Kopieren“, kaum noch haltbar.
Aktuell laufen über 60 Urheberrechtsklagen gegen KI-Firmen. Anthropic, der Hersteller von Claude, hat im August 2025 einem Vergleich über 1,5 Milliarden US-Dollar zugestimmt. Das betrifft rund 500.000 Bücher, also durchschnittlich 3.000 Dollar pro Werk. Die endgültige Anhörung ist für April 2026 angesetzt. Auch das Landgericht München entschied im November 2025, dass das Training an geschützten Songtexten eine Urheberrechtsverletzung darstellt.
Was das für Studierende bedeutet
Für alle, die KI-Tools für ihre Hausarbeiten oder Abschlussarbeiten nutzen, hat die Studie eine klare Botschaft: KI-generierte Texte können urheberrechtlich geschütztes Material enthalten, ohne dass man es auf den ersten Blick erkennt.
Stell dir vor, du lässt ChatGPT einen Abschnitt über dystopische Literatur schreiben. Was du zurückbekommst, könnte Passagen aus „1984“ enthalten, die dem Original verdächtig ähneln. Übernimmst du das ungeprüft in deine Arbeit, liegt möglicherweise ein Plagiat vor. Und zwar eines, das ein Plagiatsscan durchaus erkennen kann.
Die Studie zeigt auch: Das Problem ist nicht auf ein einzelnes Modell beschränkt. Vier verschiedene Systeme reproduzierten urheberrechtlich geschützte Texte. Wer KI beim Schreiben einsetzt, muss sich bewusst sein, dass der Output nicht automatisch „originell“ ist.
Von der Kopie zum Plagiat: Wie der Übergang fließend wird
Bisher war Plagiat vor allem ein menschliches Problem: Jemand kopiert absichtlich oder fahrlässig aus einer Quelle. Mit KI entsteht eine neue Grauzone. Das Sprachmodell kopiert, der Nutzer weiß es nicht – und die Hochschule bestraft ihn trotzdem.
Der Fall des Journalisten Alex Preston zeigt, wie das in der Praxis aussehen kann. Preston veröffentlichte im Januar 2026 eine Buchrezension in der New York Times, die Ähnlichkeiten mit einer bereits publizierten Rezension aufwies. Er gab zu, KI beim Entwurf genutzt zu haben. Die Zeitung trennte sich von ihm. Das Problem: Preston hatte die KI nicht zum Plagiieren aufgefordert. Das System hatte von sich aus Passagen aus einer anderen Quelle übernommen.
Für Studierende bedeutet das: Selbst wer KI nur als „Schreibhilfe“ einsetzt, trägt das Risiko, unbeabsichtigte Plagiate in seinen Text einzubauen. Eine Prüfung vor der Abgabe ist deshalb kein optionaler Zusatzschritt, sondern eine Notwendigkeit.
Was KI-Unternehmen jetzt tun
Die Reaktionen der Unternehmen fielen unterschiedlich aus. Die Forscher informierten Anthropic, Google DeepMind, OpenAI und xAI am 9. September 2025 über ihre Ergebnisse. Anthropic nahm Claude 3.7 Sonnet am 29. November 2025 aus dem Angebot. Alle Unternehmen außer xAI bestätigten den Eingang der Meldung.
Doch das reicht vielen Experten nicht. Die grundlegenden Fragen bleiben: Darf ein KI-Modell mit urheberrechtlich geschützten Texten trainiert werden? Und wenn ja: Unter welchen Bedingungen? In Europa gibt der EU AI Act eine Richtung vor, aber die konkreten Regeln für Trainingsdaten werden noch verhandelt.
So schützt du dich vor unbemerkten Plagiaten
| Maßnahme | Warum es hilft |
|---|---|
| Plagiatsscan vor der Abgabe | Erkennt Übereinstimmungen mit veröffentlichten Texten, auch wenn sie von der KI stammen. |
| KI-Scan durchführen | Zeigt an, ob dein Text Merkmale von KI-generierten Inhalten aufweist. |
| Quellen immer manuell prüfen | KI erfindet Quellen oder übernimmt Passagen. Jede Quellenangabe muss auf Existenz und Korrektheit geprüft werden. |
| KI-Texte nicht unbearbeitet übernehmen | Formuliere jeden Abschnitt in deinen eigenen Worten um. So reduzierst du das Risiko wortgetreuer Übernahmen. |
| Arbeitsprozess dokumentieren | Speichere Entwürfe und Notizen. Im Verdachtsfall kannst du belegen, dass die Arbeit deine eigene ist. |
Quellen und weiterführende Informationen
Ahmed Ahmed, A. Feder Cooper, Sanmi Koyejo, Percy Liang: „Extracting books from production language models“, arXiv, Januar 2026. Berichterstattung durch Futurism, The New York Times (via dnyuz) und legaldata.law. Zum Fall Alex Preston: Plagiarism Today, 6. April 2026.
Häufige Fragen zur Stanford-Studie und KI-Plagiaten
Was hat die Stanford-Yale-Studie zur KI-Buchreproduktion herausgefunden?
Forscher von Stanford und Yale konnten im Januar 2026 nachweisen, dass vier führende KI-Sprachmodelle ganze Bücher nahezu wortgetreu aus dem Gedächtnis reproduzieren können. Claude 3.7 Sonnet erreichte bei Harry Potter eine Trefferquote von 95,8 Prozent, Gemini 2.5 Pro kam auf 76,8 Prozent – und das ohne besondere Tricks.
Können KI-Modelle urheberrechtlich geschützte Bücher komplett wiedergeben?
Ja. Die Studie zeigt, dass einige Modelle bis zu 95,8 Prozent eines kompletten Romans wortgetreu ausgeben können. Gemini 2.5 Pro reproduzierte an einer Stelle 9.070 aufeinanderfolgende Wörter ohne Abweichung – das entspricht etwa 18 gedruckten Seiten.
Was bedeutet die Studie für Studierende, die KI-Texte in Arbeiten verwenden?
Die Studie zeigt, dass KI-generierte Texte urheberrechtlich geschütztes Material enthalten können, ohne dass man es bemerkt. Wer solche Passagen in eine Hausarbeit oder Bachelorarbeit übernimmt, riskiert ein Plagiat – auch wenn die KI den Text scheinbar „selbst“ verfasst hat. Ein Plagiatsscan vor der Abgabe ist daher besonders wichtig.
Welche rechtlichen Folgen hat die Studie für KI-Unternehmen?
Die Studie untergräbt die Verteidigungslinie der KI-Unternehmen vor Gericht. Diese hatten bisher argumentiert, ihre Modelle würden nicht kopieren, sondern lernen. Anthropic hat bereits einem Vergleich über 1,5 Milliarden US-Dollar zugestimmt. Über 60 weitere Urheberrechtsklagen sind anhängig.