Blog

Das Mixed-Content-Problem: Warum KI-Detektoren bei bearbeiteten Texten versagen

Q: Wie genau sind KI-Detektoren bei bearbeiteten Texten?

Deutlich weniger genau als bei unbearbeitetem KI-Text. Unabhängige Tests zeigen: Kein Detektor erreichte bei gemischten Texten mehr als 62 Prozent Genauigkeit. Leichte Bearbeitung wie Synonym-Austausch reduziert die Erkennungsrate um 15 bis 25 Prozentpunkte. Starke Bearbeitung mit inhaltlicher Umstrukturierung senkt sie um 30 bis 45 Prozentpunkte. Nach drei Durchläufen durch einen Humanizer-Tool fiel die GPTZero-Erkennungsrate auf etwa 18 Prozent.

Q: Warum bewerben KI-Detektoren trotzdem 99 Prozent Genauigkeit?

Die beworbenen Genauigkeitswerte stammen aus kontrollierten Labortests, in denen vollständig KI-generierte Texte gegen vollständig menschlich geschriebene Texte getestet werden. Diese Bedingungen spiegeln die Realität nicht wider. In der Praxis werden Texte bearbeitet, gemischt und überarbeitet, was die tatsächliche Genauigkeit erheblich senkt. Unabhängige Tests kommen auf maximal 79 Prozent Gesamtgenauigkeit.

Q: Sollte man sich bei einem KI-Verdacht auf den Detektor-Score verlassen?

Nein. Ein KI-Detektor-Score allein ist kein verlässlicher Beweis. Der empfohlene Workflow bei hohen Einsätzen lautet: Detektor als erstes Screening, dann menschliche Überprüfung, dann Prüfung der Provenienz wie Entwürfe, Bearbeitungshistorie und Autorenstimme. Universitäten und Verlage sollten KI-Detektoren als Hinweis behandeln, nicht als Urteil.

Plagiat Scanner.de Redaktion | 31. März 2026

99 Prozent Genauigkeit. So werben viele KI-Detektoren. Doch die Realität sieht oft anders aus. Diese hohen Zahlen gelten meist nur für Texte, die komplett von einer KI stammen und nicht verändert wurden. Sobald du einen Text bearbeitest, eigene Ideen einfügst oder Sätze umstellst, sinkt die Genauigkeit massiv. In Tests erreichen Detektoren bei solchen gemischten Texten oft nur noch 62 Prozent Genauigkeit.

Das nennen Fachleute das „Mixed-Content-Problem”: KI-Detektoren versagen genau dann, wenn Texte bearbeitet und mit eigenen Inhalten gemischt wurden. Es trifft fast jeden, der heute mit KI arbeitet.

Was bedeutet Mixed Content?

Früher hieß es: Entweder schreibt ein Mensch oder eine Maschine. Heute mischen wir beides. Ein Student lässt sich eine Gliederung von ChatGPT erstellen, schreibt die Inhalte aber selbst. Ein Journalist nutzt die KI für einen Entwurf und überarbeitet ihn dann gründlich mit eigenen Fakten.

Das ist kein Betrug, sondern moderner Arbeitsalltag. Fast alle KI-Nutzer arbeiten heute so: Sie nutzen Tools zur Hilfe, prüfen die Ergebnisse und ergänzen eigene Gedanken. Reine KI-Texte ohne jede Änderung sind selten geworden.

Für Detektoren ist das ein riesiges Problem. Sie sind darauf trainiert, zwischen „Mensch“ und „Maschine“ zu unterscheiden. Ein Text, der beides ist, passt nicht in ihr Schema. Die Software ist dann oft ratlos.

Die Zahlen: Wie stark die Erkennung einbricht

Der unabhängige Test von SupWriter hat 2026 acht führende KI-Detektoren mit 150 Textproben getestet. Die Ergebnisse zeigen eine drastische Kluft zwischen Laborleistung und Praxistauglichkeit.

Gesamtgenauigkeit: Weit unter den Versprechen

Trotz beworbener Werte zwischen 95 und 99,52 Prozent hat kein einziges Tool in der unabhängigen Testung die 80-Prozent-Marke überschritten. Die drei genauesten Tools im Gesamtergebnis:

Tool	Beworbene Genauigkeit	Gemessene Gesamtgenauigkeit	Genauigkeit bei Mixed Content
Originality.ai	99 %	79 %	62 %
Copyleaks	99,1 %	77 %	58 %
GPTZero	99 %	76 %	55 %

Die Differenz zwischen beworbenem und gemessenem Wert ist frappierend. Und bei Mixed Content sinkt die Genauigkeit nochmals deutlich. Ein Tool, das nur in 55 von 100 Fällen richtig liegt, ist kaum besser als eine Münze zu werfen.

Wie sich Bearbeitung auf die Erkennung auswirkt

Der Test differenzierte zwischen verschiedenen Bearbeitungsgraden und deren Einfluss auf die Erkennungsrate:

Art der Bearbeitung	Einfluss auf Erkennungsrate	Beispiel
Unbearbeiteter KI-Text	Baseline (82-91 % Erkennung je nach KI-Modell)	Direkte ChatGPT-Ausgabe ohne Änderung
Leichte Bearbeitung	-15 bis -25 Prozentpunkte	Synonyme austauschen, einzelne Sätze umformulieren
Starke Bearbeitung	-30 bis -45 Prozentpunkte	Inhaltliche Umstrukturierung, eigene Absätze ergänzen
Humanizer-Tool (3 Durchläufe)	-60 bis -75 Prozentpunkte	Automatisierte Umschreibung durch spezialisierte Software

Besonders alarmierend: Nach drei Durchläufen durch ein hochwertiges Humanizer-Tool fiel die Erkennungsrate von GPTZero auf rund 18 Prozent (Axis Intelligence, 2026). Das bedeutet: Vier von fünf Texten wurden nicht erkannt. Mehr über die Dynamik zwischen Humanizern und Detektoren findest du in unserem Beitrag Humanizer vs. Detektor.

Warum Labortests oft täuschen

Die hohen Zahlen der Hersteller sind nicht gelogen, aber sie zeigen nicht die ganze Wahrheit. In Labortests werden meist nur reine KI-Texte gegen rein menschliche Texte geprüft. Dazwischen gibt es nichts.

In der Realität liegen Texte aber fast immer irgendwo dazwischen. Mal hilft die KI nur bei einer Formulierung, mal ist sie die Basis für eine große Überarbeitung. Für diese Grauzonen haben die meisten Detektoren kein sicheres Modell. Sie liegen dann oft daneben.

Das Konsistenz-Problem: Gleicher Text, anderes Ergebnis

Es kommt noch ein weiteres Problem hinzu: Viele Detektoren liefern bei wiederholter Analyse desselben Textes unterschiedliche Ergebnisse. Im SupWriter-Test lag die Konsistenzrate bei Turnitin bei 96 Prozent, also recht stabil. Bei Sapling waren es nur 84 Prozent. Das heißt: Bei jedem sechsten Test kam ein anderes Ergebnis heraus.

Für Studierende, die ihren Text vor der Abgabe prüfen, bedeutet das: Ein KI-Scan am Montagmorgen kann ein anderes Ergebnis liefern als derselbe Scan am Dienstagabend. Und das, obwohl kein einziges Wort verändert wurde. Diese Inkonsistenz untergräbt das Vertrauen in die Technologie grundlegend.

Welche KI-Modelle am schwierigsten zu erkennen sind

Die Erkennungsrate variiert nicht nur je nach Bearbeitungsgrad, sondern auch je nach KI-Modell. Ältere Modelle wie GPT-3.5 werden deutlich zuverlässiger erkannt als neuere Generationen.

KI-Modell	Durchschnittliche Erkennungsrate (unbearbeitet)
GPT-3.5	91 %
GPT-4 / GPT-4o	82 %
Claude 3.5 Sonnet	79 %
Mistral Large	74 %

Der Trend ist eindeutig: Je besser das KI-Modell, desto menschlicher klingt sein Output, und desto schwieriger wird die Erkennung. Wenn dann noch menschliche Bearbeitung hinzukommt, wird die Aufgabe für Detektoren nahezu unlösbar. GPT-5 und Claude Opus 4.6, die neuesten Modellgenerationen von Anfang 2026, dürften diese Tendenz weiter verschärfen.

False Positives: Wenn auch Unschuldige betroffen sind

Das Mixed-Content-Problem hat eine besonders unangenehme Kehrseite. Wenn Detektoren bei gemischten Texten unsicher werden, steigen auch die Fehlalarme. Der SupWriter-Test dokumentiert die False-Positive-Raten nach Texttyp:

Texttyp	Durchschnittliche False-Positive-Rate
Texte von Nicht-Muttersprachlern	38 %
Akademische Arbeiten	23 %
Geschäftsdokumente	19 %
Gesamtspanne aller Tools	6 % bis 28 %

38 Prozent bei Nicht-Muttersprachlern. Das ist keine statistische Randnotiz, das ist ein systemisches Problem. Eine Follow-up-Studie zu der bekannten Stanford-Untersuchung von 2023 ermittelte eine False-Positive-Rate von 61,3 Prozent für TOEFL-Aufsätze chinesischer Studierender, verglichen mit 5,1 Prozent bei US-Studierenden (Liang et al., PNAS). Trotz zwei Jahren Bewusstsein für dieses Problem hat sich an der Bias-Situation kaum etwas verbessert.

Der Grund liegt in der Funktionsweise der Detektoren. Sie messen unter anderem die sogenannte Perplexität eines Textes, also wie vorhersagbar er ist. Nicht-Muttersprachler verwenden tendenziell einfachere, vorhersagbarere Strukturen. Genau das tun auch Sprachmodelle. Die Folge: Menschlich geschriebene Texte von internationalen Studierenden werden regelmäßig als KI-generiert eingestuft. Mehr dazu in unserem Artikel zum KI-Detektor: Bias-Problem.

Was Universitäten und Verlage daraus lernen sollten

Das Mixed-Content-Problem stellt die Art und Weise infrage, wie KI-Detektoren heute eingesetzt werden. Wer einen prozentualen Score als Beweis für oder gegen KI-Nutzung behandelt, bewegt sich auf dünnem Eis.

Mehrere renommierte Institutionen haben daraus bereits Konsequenzen gezogen. Die australische Curtin University hat die Turnitin-KI-Erkennung zum 1. Januar 2026 campusweit abgeschaltet und behandelt Detektoren-Scores nicht mehr als Beweismittel. Die Freie Universität Berlin erklärt in ihren offiziellen FAQ: KI-Erkennungsalgorithmen seien „unzuverlässig und werden das sehr wahrscheinlich auch bleiben". Mehr dazu in unserem Beitrag über Turnitin KI-Erkennung Aus.

Was stattdessen empfohlen wird, lässt sich in einem dreistufigen Modell zusammenfassen. Erstens: KI-Detektoren als Screening-Instrument einsetzen, nicht als Urteil. Ein hoher Score ist ein Anlass für ein Gespräch, kein Beweis. Zweitens: Menschliche Überprüfung durch erfahrene Lehrende, die den Text inhaltlich und stilistisch einordnen können. Drittens: Provenienz prüfen. Gibt es Entwürfe, eine Bearbeitungshistorie, passt der Text zur bisherigen Stimme des Autors? Der sicherste Workflow bei hohen Einsätzen lautet: Detektor, dann Mensch, dann Provenienz.

Und was du als Studierende oder Studierender tun kannst

Ob du KI nutzt oder nicht: Das Mixed-Content-Problem betrifft dich direkt. Wenn du ehrlich arbeitest, ist die Gefahr eines False Positive real. Wenn du KI als Werkzeug einsetzt, musst du wissen, wie du dich absicherst.

Arbeitsprozess dokumentieren

Speichere jede Version deines Textes. Nutze die Versionierung von Google Docs oder Word. Halte in einem kurzen Protokoll fest, wann du an welchem Abschnitt gearbeitet hast. Falls du KI als Hilfsmittel nutzt und das erlaubt ist, dokumentiere auch das: Welche Prompts hast du verwendet? Was hast du übernommen, was verändert?

KI-Scan vor der Abgabe durchführen

Ein KI-Scan zeigt dir, welche Passagen ein Detektor als verdächtig einstufen könnte. Das gibt dir die Möglichkeit, diese Stellen vor der Abgabe zu überarbeiten oder zusätzliche Belege für deinen eigenständigen Arbeitsprozess zusammenzutragen.

Prüfungsordnung genau kennen

Die KI-Regelungen an deutschen Universitäten unterscheiden sich erheblich. An manchen Hochschulen darfst du KI-Tools als Hilfsmittel einsetzen, wenn du es dokumentierst. An anderen ist jede Nutzung untersagt. Unwissenheit schützt nicht, wie das VG-Kassel-Urteil zeigt.

Eigene Stimme bewahren

Der beste Schutz gegen einen falschen KI-Verdacht ist ein Text, der klar deine persönliche Handschrift trägt. Eigene Beispiele, individuelle Formulierungen und ein erkennbarer Argumentationsstil unterscheiden deinen Text von generischem KI-Output.

Ausblick: Wird sich das Problem lösen?

Kurzfristig eher nicht. Die KI-Modelle werden mit jeder Generation besser darin, menschlich klingende Texte zu produzieren. GPT-5.4 und Claude Opus 4.6, die beiden neuesten Modelle von März 2026, erzeugen Text, der selbst für erfahrene Lehrende kaum noch von menschlichem Schreiben zu unterscheiden ist. Gleichzeitig werden Humanizer-Tools immer ausgefeilter.

Die Detektoren-Hersteller investieren in neue Ansätze. Turnitin arbeitet an der Erkennung paraphrasierter KI-Texte. Andere setzen auf Schreibprozess-Analyse statt Textanalyse, etwa durch Browser-Erweiterungen, die das Tippverhalten aufzeichnen. Langfristig könnten technische Standards wie C2PA (Content Credentials) dabei helfen, die Herkunft von Texten schon bei der Erstellung zu dokumentieren. Wir haben diese Entwicklungen in unserem Beitrag zu KI-Wasserzeichen und C2PA detailliert beschrieben.

Eines aber steht fest: Die Ära der einfachen Binärentscheidung (menschlich oder KI) geht zu Ende. Die Zukunft gehört differenzierteren Ansätzen, die den fließenden Übergang zwischen menschlichem und maschinellem Schreiben abbilden können. Bis dahin bleibt der beste Rat: Vertraue keinem einzelnen Score. Nutze Detektoren als Werkzeug, nicht als Richter.

Quellen

SupWriter: Are AI Detectors Accurate in 2026? Unabhängiger Test von 8 Detektoren mit 150 Textproben. Axis Intelligence: Best AI Detectors 2026. Liang et al.: GPT detectors are biased against non-native English writers (PNAS). Paper Checker: False Positive AI Detection 2026. WalterWrites: Are AI Detectors Accurate?

Häufige Fragen zum Mixed-Content-Problem

Was ist das Mixed-Content-Problem bei KI-Detektoren?

Das Mixed-Content-Problem beschreibt die Schwierigkeit von KI-Detektoren, Texte korrekt einzustufen, die teilweise von Menschen und teilweise von KI geschrieben wurden. In der Praxis schreiben die meisten Nutzer nicht entweder komplett selbst oder komplett mit KI. Sie nutzen KI als Ausgangspunkt und überarbeiten den Text. Genau bei diesen gemischten Texten sinkt die Erkennungsgenauigkeit dramatisch auf maximal 62 Prozent.

Wie genau sind KI-Detektoren bei bearbeiteten Texten?

Deutlich weniger genau als bei unbearbeitetem KI-Text. Kein Detektor erreichte bei gemischten Texten mehr als 62 Prozent Genauigkeit. Leichte Bearbeitung reduziert die Erkennungsrate um 15 bis 25 Prozentpunkte. Starke Bearbeitung senkt sie um 30 bis 45 Prozentpunkte. Nach drei Durchläufen durch einen Humanizer fiel die GPTZero-Erkennungsrate auf etwa 18 Prozent.

Warum bewerben KI-Detektoren trotzdem 99 Prozent Genauigkeit?

Die beworbenen Werte stammen aus kontrollierten Labortests mit klar getrennten Datensätzen: rein menschlicher Text versus reiner KI-Text. In der Praxis werden Texte bearbeitet, gemischt und überarbeitet. Unabhängige Tests kommen deshalb auf maximal 79 Prozent Gesamtgenauigkeit. Die Laborbedingungen spiegeln schlicht nicht die reale Nutzung wider.

Sollte man sich bei einem KI-Verdacht auf den Detektor-Score verlassen?

Nein. Der empfohlene Workflow bei hohen Einsätzen lautet: Detektor als erstes Screening, dann menschliche Überprüfung, dann Prüfung der Provenienz (Entwürfe, Bearbeitungshistorie, Autorenstimme). Ein KI-Scan ist ein nützliches Werkzeug, sollte aber nie als alleiniges Urteil dienen.

Zurück zum Blog