TUD Logo

TUD Home » ... » Staff » Matthias Büchse » Abstract

Chair of Foundations of Programming

against racism

Produktkonstruktionen für das Maschinelle Übersetzen

Vortrag vor dem Computerlinguistischen Kolloquium der Universität Potsdam am 19. Dezember 2011

Das Ziel des Maschinellen Übersetzens ist es, den Computer zum Übersetzen natürlichsprachlicher Texte zu befähigen. Der gegenwärtig vorherrschende Ansatz ist rein statistisch: aus einer vorgegebenen Klasse von Übersetzungsfunktionen wählt ein entsprechender Algorithmus diejenige Funktion aus, die bei bestehenden Übersetzungsbeispielen die wenigsten Fehler macht.

Es gibt zwei wesentliche Ansätze, Übersetzungsfunktionen zu konstruieren. Der erste basiert auf Alignments zwischen den Phrasen des Quellsatzes und des Zielsatzes; jedes Phrasenpaar schlägt mit einer gewissen Wahrscheinlichkeit zu Buche. Der zweite basiert auf Ableitungen von synchronen Grammatiken; hierbei werden ausgehend von einem Startsymbol wiederholt Regeln angewendet, bis ein Paar übersetzungsäquivalenter Sätze entsteht. Die Übersetzungsfunktion sucht nun zu dem gegebenen Satz der Quellsprache einen Satz der Zielsprache, so dass es ein möglichst plausibles Alignment bzw. eine möglichst plausible Ableitung für das Satzpaar gibt.

Dieses Suchproblem lässt sich im grammatikbasierten Ansatz elegant lösen, wenn man sich der Theorie der formalen Sprachen bemächtigt. Diese Theorie stellt elementare Operationen bereit, mit deren Hilfe Suchalgorithmen nahezu algebraisch beschrieben werden können. Die wesentlichste Operation ist hierbei die Produktkonstruktion, wie sie klassischerweise für das Resultat angewendet wird, dass kontextfreie Sprachen unter Schnitt mit regulären Sprachen abgeschlossen sind.

In diesem Vortrag werde ich die Grundlagen aus dem Maschinellen Übersetzen sowie der Theorie der formalen Sprachen vorstellen und dann zeigen, wie die Produktkonstruktion in der Suche eingesetzt werden kann.

Last modified: 21st Dec 2011, 11.44 AM
Author: Dipl.-Inf. Matthias Büchse

Contact