Werden uns KI-Dolmetscher bald ersetzen?

KI-Dolmetscher im professionellen Einsatz: Status-Quo und Ausblick

Wie in vielen Branchen stellt sich auch in unserem Beruf die Frage: „Werden uns intelligente Maschinen bald ersetzen?“ Unser Test eines KI-Dolmetschers vor einigen Wochen hat an einem ganz praktischen Beispiel gezeigt, was bereits möglich ist und wo die Reise hingehen kann. Aber auch, wo die Schwachstellen eines digitalen Dolmetschers (noch) liegen.

Wir haben die Leistungsfähigkeit des von uns getesteten KI-Dolmetschers einmal kritisch unter die Lupe genommen und wagen einen Ausblick, ob und wo wir uns künftig KI-Dolmetscher im professionellen Einsatz vorstellen können.

Die Schwachstellen eines KI-Dolmetschers

Bei einer Verdolmetschung kommt es nicht nur auf die fachlich korrekte Übersetzung des Gesagten an. Als Dolmetscher:innen wollen wir schließlich für echte Verständigung sorgen und es den zuhörenden Personen so leicht wie möglich machen, dem Gesagten zu folgen. In unserem KI-Dolmetscher-Test war es hingegen sehr schwierig, die automatische Verdolmetschung wirklich zu verstehen. Wir haben vier wesentliche Gründe dafür ausgemacht:

1. Sinneinheiten
Gesprochene Satzzeichen wie Kommas und Gedankenstriche werden von der Spracherkennung nicht erkannt. Allerdings strukturieren sie die Sprache und sind für das Verstehen essenziell. Sind sie nicht vorhanden, kommt es zu Fehlern bei der Verschriftlichung, was dann zu schlechten Ergebnissen bei der maschinellen Übersetzung führt. Für die maschinelle Sprachausgabe bedeutet das, dass sie teilweise mitten im Satz eine Pause macht, anstatt am Ende des Satzes oder nach einer Sinneinheit.

2. Geschwindigkeit
Die englische Übersetzung wurde in unserem Test sehr schnell gesprochen. Der Grund dafür dürfte sein, dass die einzelnen Schritte des „Übersetzungsprozesses“ – also Sprache-zu-Text, maschinelle Übersetzung und Sprachwiedergabe – eben Zeit benötigen. Durch schnelleres Sprechen soll dieser Zeitverlust zumindest teilweise wettgemacht werden. Allerdings geht das auf Kosten der Verständlichkeit.

3. Satzstruktur
Sätze sind im Deutschen wesentlich komplexer als im Englischen. Die Syntax des Deutschen wird von dem KI-Dolmetscher jedoch bei der Übersetzung ins Englische teilweise übernommen und entspricht dann nicht der gewohnten Satzstruktur im Englischen. Ein weiterer Grund für die schwere Verständlichkeit der englischen Sprachausgabe.

4. Intonation
Eine Computerstimme kann heute zwar einigermaßen natürlich klingen, bleibt aber oft sehr eintönig, flach und unemotional. Typische Sprachmuster eines Menschen wie Akzentuierungen, Sprachmelodie, der Wechsel von Tonhöhen sowie Sprechpausen fehlen. Selbst einen wütenden und aufgebrachten Sprecher würde ein KI-Dolmetscher monoton übersetzen und dabei das Zwischenmenschliche ignorieren. Dieser monotonen Stimme zuzuhören, erforderte in unserem Test eine hohe Konzentration, die man nur für sehr kurze Zeit aufrechterhalten konnte.

Die Kombination dieser Schwachstellen machen die daraus resultierende Verdolmetschung ziemlich unverständlich. Denn Verstehen hängt ganz entscheidend von der Art des Sprechens ab. Reduzierte Sprachgeschwindigkeit, richtig gesetzte, dezidierte Pausen, klare Satzstrukturen und einiges mehr sind hierfür essenziell. Aber auch das Training der KI vor dem Einsatz sowie die Qualität der Spracherkennung sind wesentliche Erfolgskriterien für eine gelungene automatische Verdolmetschung.

Englisch Top, Deutsch und „kleine“ Sprachen Flop

Die besten Ergebnisse beim maschinellen Dolmetschen werden mit den hierzulande verfügbaren Tools derzeit mit der Ausgangssprache Englisch erzielt, also bei einer Übersetzung aus dem Englischen in andere Sprachen. Grund hierfür ist, dass die Engines in erster Linie mit Englisch trainiert werden und dafür auch die größten Datenmengen zur Verfügung stehen. Der digitale Dolmetscher kommt auch mit den unterschiedlichen englischen Akzenten recht gut zurecht.

Hinterher hinkt jedoch die Entwicklung bei den anderen Sprachen. Je „kleiner“ eine Sprache ist, d. h. je weniger Sprecher:innen sie hat, desto schlechter ist derzeit noch das Ergebnis. Dazu gehört auch die deutsche Sprache. Auch ist eine Verdolmetschung vom Deutschen ins Englische weniger gut als vom Englischen ins Deutsche.

Das ideale Setting für KI-Dolmetscher

Damit ein KI-Dolmetscher bei einer Veranstaltung ein einigermaßen verständliches Ergebnis liefert, müssten Stand heute diese Bedingungen gegeben sein:

Vortrag ausschließlich in englischer Sprache
Keine Emotionen, sondern kurze informations- und faktenbasierte Präsentation
KI wird vorab mit Terminologie, Eigennamen und Redewendungen trainiert
Gut strukturierte und vollständige Sätze, keine freie Rede
Klare Pausen nach Sinneinheiten und am Satzende
Redner:in will weder überzeugen noch motivieren
Keine Mehrdeutigkeiten, Wortspiele, Witze oder Anspielungen
Keine Interaktion, z. B. eine Fragerunde mit dem Publikum

Theoretisch lässt sich so ein Setting natürlich schaffen. Im üblichen Konferenz- bzw. Kommunikationsalltag sind diese Voraussetzungen jedoch nicht realistisch.

KI-Dolmetscher bei einer Hauptversammlung

Am ehesten können wir uns die Nutzung eines KI-Systems derzeit im Kontext einer Hauptversammlung vorstellen, vorerst allerdings nur für den formalen, einleitenden Teil. Der Vorteil hier: Der Text der Versammlungsleitung liegt meist in Form eines vorbereiteten Leitfadens vor, von dem es für das Dolmetschteam vorab ohnehin eine Convenience-Übersetzung gibt. Würde man die KI vorab mit diesen beiden Sprachversionen trainieren, wäre das Ergebnis vermutlich akzeptabel.

Allerdings: Sobald es interaktiv wird – z. B. bei den Fragen der Aktionär:innen und den Antworten der Geschäftsleitung – hätte ein KI-Dolmetscher die oben beschriebenen Probleme. Menschliche Dolmetscher:innen würden daher diesen Part nach wie vor übernehmen müssen.

Stand heute ist eine solche Mischform, bei der der formale Teil von einem KI-Dolmetscher und der informelle Teil von menschlichen Dolmetscher:innen übersetzt wird, aus unserer Sicht durchaus denkbar.

Wann menschliche Dolmetscher:innen der KI überlegen sind

Bei den meisten Kommunikationssituationen, in denen wir als Dolmetscher:innen üblicherweise eingesetzt werden, fehlen stark formalisierte Teile. Und genau das ist und bleibt unser Spielfeld:

Nicht alle Vortragenden sind auch geübte Redner:innen. Dennoch wollen sie überzeugen und motivieren. Als gute Dolmetscher:innen unterstützen wir sie dabei.
Manche Vortragende weichen spontan vom Skript ab, andere sprechen komplett frei. Menschliche Dolmetscher:innen können sich ad hoc darauf einstellen.
Wenn mehrere Personen durcheinander sprechen, z. B. bei einer hitzigen Diskussion, können menschliche Dolmetscher:innen dennoch folgen. Eine KI kann die verschiedenen Stimmen nicht unterscheiden.
Menschliche Dolmetscher:innen können das Gesagte kognitiv verstehen, in einen Kontext einordnen und bei Bedarf redundante Inhalte zusammenfassen. Diese Fähigkeit zur Abstraktion fehlt einer KI.
Menschliche Dolmetscher:innen berücksichtigen auch die nonverbale Kommunikation, wie z. B. ein zustimmender oder ablehnender Gesichtsausdruck, Raunen oder Beifall in der Menge.

Die Zukunft des maschinellen Dolmetschens

Vor allem Dialoge und interaktive Situationen werden für einen KI-Dolmetscher noch einige Zeit schwierig bleiben, insbesondere bei verschiedenen Ausgangssprachen und mehreren Sprecher:innen.

Das maschinelle Dolmetschen wird jedoch immer besser funktionieren, je mehr sich Mensch (= Redner:innen) und Maschine an das Verhalten des jeweils anderen anpassen. Wenn sich Vortragende an eine Reihe von Vorgaben halten und der KI-Dolmetscher immer besser lernt, mit den Unwägbarkeiten der gesprochenen Sprache zurecht zu kommen, wird auch das Dolmetschergebnis besser.

Perspektivisch wird es auch ohne Weiteres möglich sein, die natürliche Stimme eines Vortragenden für die Verdolmetschung in jede andere Sprache zu nutzen – mit perfekter Lippensynchronisation und im eigenen Sprechstil. Unter anderen zeigen HeyGen Labs und ElevenLabs bereits heute eindrücklich, was in diesem Bereich möglich ist.

Unser Fazit: KI-Dolmetscher können eine Ergänzung sein

KI-Dolmetscher sind noch weit davon entfernt, die Komplexität der gesprochenen Kommunikation zu erfassen – vor allem wenn sie mehrsprachig und spontan stattfindet. Im professionellen Kontext sind sie daher aktuell noch nicht einsetzbar. Doch die ersten, stellenweise beeindruckenden Schritte sind getan.

Unserer Einschätzung nach wird maschinelles Dolmetschen als erstes im Low Budget-Bereich zum Einsatz kommen. Sicherlich gibt es Settings, bei denen es reicht, wenn nur 60 % der Informationen ankommen – wobei nie klar ist, welche 40 % der Informationen dann nicht ankommen. Für den geringeren Preis wird eine deutlich geringere Übersetzungsqualität jedoch bewusst in Kauf genommen.

Doch bei Aufsichtsratssitzungen, die höchste Vertraulichkeit erfordern, Gerichtsverfahren, in denen es auf jedes Wort ankommt, Mergers & Acquisitions, bei denen es um Kommunikationskompetenz und Zwischentöne geht, bei EBR-Sitzungen, die bei babylonischer Sprachenvielfalt enormes kulturelles Wissen erfordern, oder bei Town Hall Meetings, die Überzeugungskraft und Empathie verlangen, werden menschliche Dolmetscher:innen noch lange zum Einsatz kommen.

Wir beobachten die technischen Entwicklungen weiterhin neugierig, kritisch und offen. Denn technischer Fortschritt hat sich in der Geschichte immer durchgesetzt. Warum sollte unsere Branche hier eine Ausnahme bilden?

Sobald es sinnvoll ist, werden wir die Vorteile, die KI-Dolmetscher bieten, für unsere Kund:innen nutzbar machen. Wir werden sie zu möglichen Mischformen beraten, aber auch die Grenzen von KI-Dolmetschern in dem jeweiligen Setting deutlich machen. Und überall dort, wo KI-Dolmetscher keine sinnvolle Option bieten, sind wir mit unserer ganzen Kompetenz und Erfahrung als Dolmetscher:innen für unsere Kund:innen da.

Referenzprojekt: Konsekutivdolmetschen bei einem Town Hall Meeting

Bei einer Mitarbeiterversammlung dolmetschen wir für den neuen CEO

Konsekutivdolmetschen bei Town Hall Meeting (Bensheim)Matthias Haldimann2025-07-15T12:13:36+02:00