Warum generative KI auf Deutsch schlechter performt

Lost in Translation

Im Bereich der dialogorientierten KI dominiert die englische Sprache, was für andere Sprachen schwerwiegende strukturelle Folgen hat, die nur mit erheblichem Aufwand behoben werden können.

Wenn man ChatGPT eine komplexe Frage auf Englisch stellt, kommt recht häufig eine korrekte, gut formulierte und zum Kontext passende Antwort. Wer dasselbe auf Hindi, Bengali oder Yoruba versucht, bekommt nicht selten eine kürzere, weniger genaue und gelegentlich auch unsinnige Aussage. Auf Deutsch, Französisch oder Spanisch sind die Antworten zwar treffender – erreichen aber weder die inhaltliche noch die sprachliche Qualität einer englischen Aussage.

Generative KI hat ein klares Sprachproblem. Und das wirkt sich nicht nur auf seltene oder gefährdete Sprachen aus, sondern auch auf durchaus gängige Idiome. Das Brookings Institute beschreibt das Qualitätsgefälle als Kontinuum: von Englisch über europäische Sprachen wie Deutsch, Französisch und Spanisch bis hin zu den weltweit rund 7.000 Sprachen, von denen nur etwa 20 als „datenreich“ gelten – mit dramatisch wachsendem Abstand. Mit diesem Problem kämpfen wir immer wieder, wenn wir GenAI-Projekte durchführen. Gerade deutsche Systeme haben Probleme mit der Sprache, sind ungenauer und halluzinieren häufiger, erfinden also Inhalte, die es gar nicht gibt.

Thema

Wir untersuchen die strukturellen und technischen Gründe für die starke Ausrichtung der meisten Modelle zur Verarbeitung natürlicher Sprache auf die englische Sprache und bewerten die Auswirkungen auf deren Umsetzung und Nutzung.

Zusammenfassung

Die Dominanz des Englischen im Bereich der natürlichen Sprachverarbeitung (NLP) ist strukturell bedingt und lässt sich nicht ohne Weiteres beseitigen. Dies bringt Nachteile für nicht englischsprachige Nutzer mit sich und erfordert zusätzlichen Aufwand, um mit nicht-englischer KI-Technologie gute Ergebnisse zu erzielen.

Dieser Text wurde von einem Menschen verfasst und einem KI-System zur abschließenden Überprüfung vorgelegt, beispielsweise zur Überprüfung der Grammatik, auf Tippfehler oder auf logische Konsistenz

“Wenn Menschen das Gefühl haben, dass die KI sie nicht versteht, oder sie keinen Zugang dazu bekommen, bringt sie ihnen keinen Vorteil.”

Leslie Teo, AI Singapore

Das Grundproblem: Die Systeme werden in Englisch konzipiert

Diese Beobachtungen sind nicht die Folge eines einfach korrigierbaren Fehlers, sondern die Auswirkung eines strukturellen Problems, das tief in der Architektur praktisch aller Sprachmodelle verankert ist. Das Training von Language Models spiegelt die Realität dieser Welt. Die Mehrzahl aller öffentlich verfügbaren Dokumente liegt in englischer Sprache vor. Der Common-Crawl-Datensatz, die wichtigste Quelle für das Training großer Sprachmodelle, besteht zu über 40% aus englischsprachigen Inhalten – und keine andere Sprache erreicht einen Anteil von mehr als 7%. Mit anderen Worten: Die Modelle lernen aus dem, was sie sehen – und das meiste davon ist Englisch.

Sprache	Common Crawl Share (CC-MAIN-2026-12)	Sprecher weltweit	Anteil an der Weltbevölkerung in %	Verhältnis (Web vs. Sprecher)
Englisch	41.06 %	~1.53 billion	~18.7	+2.2x
Deutsch	5.98 %	~135 million	~1.6	+3.7x
Chinesisch	4.99 %	~1.18 billion	~14.4	+0.35x
Spanisch	4.66 %	~560 million	~6.8	+0.7x
Französisch	4.61 %	~310 million	~3.8	+1.2x
Italienisch	2.38 %	~90 million	~1.1	+2.2x
Hindi	0.22 %	~610 million	~7.4	+0.03x

Quellen
https://commoncrawl.github.io/cc-crawl-statistics/plots/languages (accessed March 30, 2026).
Ethnologue 2025 (Eberhard, Simons & Fennig, eds., Ethnologue: Languages of the World, 27th ed., SIL International) — for total speaker counts (L1+L2).

Die Folge: Komplexe Anfragen im nicht-englischen Kontext können weniger präzise beantwortet werden, was sich insbesondere in fachsprachlichen Kontexten, wie zum Beispiel bei Rechts- oder Verwaltungstexten, auswirkt. Und auch wenn Deutsch als relativ „datenreiche“ Sprache vergleichsweise privilegiert ist, teilt es die strukturellen Grundprobleme in abgeschwächter Form. Doch es gibt auch Auswirkungen sekundärer Natur: Anweisungen zur Filterung von problematischen Inhalten – z.B. Hasskommentare oder Aussagen, die auf schwere psychische Probleme hindeuten – werden primär in Englisch konzipiert und trainiert. Entsprechend verlieren sie ihre Präzision in anderen Sprachen. Dadurch werden derartige Aussagen häufiger übersehen oder auch zu Unrecht herausgefiltert.

Deutsch, Französisch, Spanisch, Russisch, Japanisch und Chinesisch (inklusive aller Dialekte) machen jeweils unter 6% des Common Crawl Datensatzes aus. Während europäische Sprachen im Verhältnis zu ihrem Anteil an der Weltbevölkerung sogar eher noch überrepräsentiert sind, ist es bei anderen Sprachen deutlich anders. Eine Studie, die auf der AAAI-Konferenz 2025 vorgestellt wurde, untersuchte acht afrikanische Sprachen – darunter Amharisch, Igbo und Shona – mit insgesamt über 160 Millionen Sprechern. Die Autoren dokumentieren einen „Rich-get-Richer“-Effekt: KI-Modelle sind vor allem für englischsprachige Nutzer hilfreich, die wiederum bessere Inhalte produzieren, mit denen noch bessere Modelle trainiert werden (arXiv 2412.12417). Besonders auffällig: Hindi, das von mehr als einer halben Milliarde Menschen gesprochen wird und damit eine der meistgesprochenen Sprachen der Welt ist, hat gerade mal einen Anteil von 0,22% am Common Crawl Sprachschatz. Im medizinischen Bereich zeigt eine Studie der CLAWS-Lab, dass GPT-3.5 bei Hindi-Anfragen 38,6% weniger vollständige Antworten liefert als bei englischen – ein konkretes Beispiel dafür, wie Sprachungleichheit direkte Auswirkungen auf den Informationszugang und Nutzen von KI hat.

Diese Probleme akzentuieren sich noch bei der Verwendung von kleineren Modellen (sogenannte Small and Medium Language Models mit unter 15 bzw. 100 Mrd. Parametern). Diese Modelle, die vor allem auch für Retrieval-getriebene Lösungen (RAG) im Standalone-Betrieb geeignet sind und damit auch die vielen Datenschutzprobleme mit Cloudanbindungen umschiffen, sind im Nicht-Englischen noch ungelenker als die großen Modelle. In einigen Fällen gibt es spezifische Erweiterungen, wie die Embeddings der Berliner Firma Jina für die kleinen Gemma-Sprachmodelle, aber auch diese lösen das Grundproblem nicht vollständig. Selbst Mistral, die europäische LLM-Alternative aus Frankreich, performt auf Englisch besser als in den eigentlichen Zielsprachen Deutsch und Englisch. In den Standard-Benchmarks wirkt sich das noch nicht gravierend aus.

Zusammenfassung: Deutsch ist aufwändiger

Das Brookings Institut nutzte ein noch immer sehr zutreffendes Zitat als Ausgangspunkt seiner Analyse der KI-Sprachlücke 2024:

"Die Grenzen meiner Sprache bedeuten die Grenzen meiner Welt."

Ludwig Wittgenstein (1889-1951), Philosoph

Die Sprache, in der man arbeitet, bestimmt nachweislich, was KI für einen leisten kann. Für Menschen, die kein Englisch sprechen, bedeutet dies einen erheblichen Nachteil in einer Welt, in der generative KI zunehmend zu einem nützlichen Werkzeug für die Problemlösung und die Erstellung von Ergebnissen wird.
Aus geschäftlicher Sicht ist es daher nicht verwunderlich, dass Projekte im Bereich der nicht-englischsprachigen KI hinter den Erwartungen zurückbleiben und oft schon in der Prototypenphase scheitern. Was dabei regelmäßig unterschätzt wird, ist der zusätzliche Aufwand: das Training des Grundmodells für die spezifischen Sprachmuster der Anwendung, eine gut konzipierte RAG-Pipeline und die sorgfältige Feinabstimmung der Sprachgenerierung. All dies macht eine gute KI-Implementierung in nicht-englischsprachigen Umgebungen teurer.

Es erfordert Zeit, Geld und ein bewusstes Bekenntnis zur sprachlichen Vielfalt im Entwicklungsprozess. Der erste Schritt besteht jedoch schon darin, anzuerkennen, dass diese Lücke besteht. Wer sie ignoriert, zahlt den Preis einer KI-Anwendung, die nur wenig – oder schlimmer noch: gar keinen – Nutzen bringt.

Viele Sprachen, darunter auch Deutsch, sind strukturell komplexer als Englisch und benötigen meist längere Sätze, um denselben Inhalt auszudrücken. Beispielsweise benötigen zusammengesetzte Substantive im Deutschen wesentlich mehr Tokens (die Verarbeitungseinheiten für sinnvolle Textfragmente). „Bildungsministerium“ als einzelnes Wort ist für ein Modell komplexer zu verarbeiten als „ministry of education“ – drei einfache englische Wörter hintereinander. Die Konsequenzen sind höhere Kosten pro Anfrage, ein schneller gefülltes Kontextfenster und damit schlechtere Argumentationsfähigkeiten sowie eine nachweislich höhere Halluzinationsrate. Eine IEEE-Studie aus 2024 identifizierte untertrainierte Tokens als direkte Ursache für Halluzinationen in Modellen wie GPT-4o bei nichtenglischen Texten (arXiv 2406.11214). Halluzinationen sind eines der problematischsten Aspekte der KI-Nutzung: Ein zuverlässig funktionierendes Modell liefert voller Überzeugung Antworten, die nicht stimmen und auch nicht belegbar sind, wenn zu einem Thema relativ wenige Informationen vorliegen, also die Vektorsuche keine exakten Übereinstimmungen finden kann. Studien zeigen, dass große Modelle bei gängigen Themen sehr geringe Raten an falschen Inhalten ausgeben (zwischen 1-5% je nach Test). Sobald die Themen aber spezifischer werden, z.B. bestimmte wissenschaftliche oder rechtliche Fragen betreffen, oder weniger bekannte Personen, sind Halluzinationsraten von bis zu 50% keine Seltenheit. In Sprachen, die schon grundlegend weniger vertreten sind, potenziert sich dieser Effekt. Oder mit anderen Worten: Modelle sind da genau, wo sich die Nutzer sowieso in der Regel gut auskennen, und fabrizieren dort halluzinierte Inhalte, wo sehr spezifisches Wissen notwendig ist - der normale Nutzer also wenig Wissen hat, um das zu erkennen.