|
Maschinelle ÜbersetzungHinter der Disziplin Machine Translation (MT) verbirgt sich der Traum, Sprachbarrieren einmal mit Hilfe des Computers automatisch zu überwinden. Jeder kennt Dienste wie Google Translate, die automatisch Webseiten übersetzen. Die Weiterentwicklung solcher Anwendungen ist momentan von großem Interesse und wird nicht zuletzt vom Militär vorangetrieben. Ein relativ junges, aber vielversprechendes Teilgebiet ist die syntaxbasierte statistische MT. Wir untersuchen die Anwendung der Theorie der gewichteten Baumautomaten und Baumübersetzer in diesem Teilgebiet der MT. Wir bieten regelmäßig eine Vorlesung Machine Translation und eine forschungsnahe Lehrveranstaltung an (Seminar oder Reading Group). Desweiteren können Studenten im Rahmen unseres Softwareprojekts Vanda MT ein Komplexpraktikum bei uns absolvieren. Im Folgenden geben wir einen kleinen Einblick in das spannende Gebiet der syntaxbasierten statistischen MT und die Anwendung der gewichteten Baumautomaten und Baumübersetzer. Rechnen mit WahrscheinlichkeitenEine inhaltlich und grammatikalisch korrekte Übersetzung muss noch lange nicht natürlich sein. Die Natürlichkeit lässt sich nur anhand menschlicher Übersetzer (oder bekannter Übersetzungen) bemessen. Der Prozess des menschlichen Übersetzens beinhaltet jedoch eine große Zahl von Unwägbarkeiten (z. B. Herkunft, Ausbildung oder Gemütslage des Übersetzers). Von diesen Unwägbarkeiten abstrahiert man mittels Wahrscheinlichkeiten. Syntax-basierte statistische MTIn der statistischen MT werden diese Wahrscheinlichkeiten durch Training anhand großer Mengen bereits bekannter Übersetzungspaare gewonnen. In der syntax-basierten MT macht man sich die Analyse der Satzstruktur zunutze, welche im Ergebnis in Form eines oder mehrerer Parsebäume vorliegt. Die reichere Struktur der Bäume im Vergleich zu den Sätzen erlaubt bessere Übersetzungen. Beide Ansätze lassen sich kombinieren zur syntax-basierten statistischen MT. Linguistische und operationelle ModelleEin linguistisches Modell beschreibt auf einer hohen Abstraktionsebene den Prozess der menschlichen Übersetzung. So mag ein englischer Satz in einen japanischen übersetzt werden, indem erst Wörter umsortiert werden, dann japanische (Füll-)Wörter eingefügt werden, und schließlich die verbleibenden englischen Wörter übersetzt werden. Operationelle Modelle können genutzt werden, um diese Beschreibung derart zu präzisieren, dass sie im weitesten Sinne ausführbar werden. Vorteile gegenüber einer direkten Implementation in einer gängigen Programmiersprache sind Plattformunabhängigkeit und eine bessere mathematische Zugänglichkeit, wodurch Optimierungen auf einem hohen Niveau ermöglicht werden können. Anwendung der Baumautomaten und BaumübersetzerDas mathematische Rahmenwerk der gewichteten Baumautomaten und Baumübersetzer stellt mögliche operationelle Modelle bereit, um Sprachen und Übersetzungen zu beschreiben. Das von der MT-Gruppe um Prof. Kevin Knight an der University of Southern California entwickelte Toolkit Tiburon zeigt, dass dieser Ansatz tatsächlich von praktischer Bedeutung sein kann. Eine aktuell große Herausforderung ist, die Automaten und Resultate aus diesem Gebiet auf die Bedürfnisse der MT hin anzupassen. Vortragsfolien zum Thema |
Kontakt
Prof. Dr.-Ing. habil.
Heiko Vogler Tel.: +49 (0) 351 463-38232 Fax: +49 (0) 351 463-37959 Dipl.-Inf. Matthias Büchse Tel.: +49 (0) 351 463-38237 Fax: Dr. rer. nat. Torsten Stüber Tel.: +49 (0) 351 463-39057 Fax: |