Grundlagen der Programmierung
|
Maschinelles Übersetzen natürlicher Sprachen im Wintersemester 2013/2014
Inhalte
Beim maschinellen Übersetzen von Texten in einer natürlichen Sprache in eine andere kommen verschiedene Formalismen wie Grammatiken und Automaten zum Einsatz. Diese Vorlesung gibt einen Überblick, wie man solche Formalismen zur Modellierung von natürlichsprachlichen Übersetzungen nutzen kann und wie man ein so modelliertes Übersetzungssystem anhand von Beispielen trainiert.
Zeittafel und Termine
|
Mo |
Di |
Mi |
Do |
Fr |
1. DS
7:30 |
|
|
|
|
Übung
INF E001 |
2. DS
9:50 |
|
|
|
Vorlesung
INF E007 |
|
3. DS
11:10 |
Vorlesung
INF E010 |
|
|
|
|
Die erste Vorlesung findet am 14. Oktober statt. Die Übung wurde auf freitags, 1. DS verschoben.
Materialien
- Allgemein: siehe auch vergangener Durchlauf
- Vanda, die Experimentierplattform des Lehrstuhls
- Handouts: Parameterschätzung, EM-Instanzen, EM-Instanzen (kompakter)
- Folien: natürliche Sprache, IBM-Modell 1, IBM-Training, IBM-Decoding, IBM-Decoding-Beispiel, Yamada-Knight-Beispiel, Yamada-Knight-Training, PCFG-Beispiel, PCFG-Notation, Derivation vs. AST, Beispiel Penn Tree Bank, Knuth-Algorithmus für PCFG, SCFG-Beispiel, SCFG-Ableitung, wortaliniertes Satzpaar, Bedingungen für initiales Phrasenpaar, SCFG-Regelextraktion, XTT für das Einfügen, XTT für das Umordnen, XTT für das Übersetzen, yXTT-Regelextraktion, Alignmentgraph, Berechnen der Spans, Frontier nodes and fragments, Bestimmen der linken Seite, Bestimmen der rechten Seite, alle extrahierten Regeln, XTT-Training, EM-Algorithmus
- Folien zu den Gastvorlesungen von Dr. Mark-Jan Nederhof: Erste Vorlesung (Print), zweite Vorlesung (Print), dritte Vorlesung (Print)
Übungsblätter
Literatur
Einführung
SMT-Modelle und -Systeme
- Peter F. Brown, Vincent J. Della Pietra, Stephen A. Della Pietra und Robert L. Mercer, 1993. The Mathematics of Statistical Machine Translation: Parameter Estimation. In: Computational Linguistics 19.2. S. 263–311.
- Ye-Yi Wang und Alex Waibel, 1997. Decoding Algorithm in Statistical Machine Translation. In: Proceedings of the 35th Annual Meeting of the ACL. Association for Computational Linguistics. S. 366–372.
- Kevin Knight, 1999. Squibs and Discussions: Decoding Complexity in Word-Replacement Translation Models. In: Computional Linguistics 25(4), S. 607–615.
- Kenji Yamada und Kevin Knight, 2001. A Syntax-Based Statistical Translation Model. In: Proceedings of the 39th Annual Meeting of the ACL. Association for Computational Linguistics. S. 523–530.
- Kenji Yamada und Kevin Knight, 2002. A Decoder for Syntax-Based Statistical MT. In: Proceedings of the 40th Annual Meeting of the ACL. Association for Computational Linguistics. S. 303–310.
- David Chiang, 2007. Hierarchical Phrase-Based Translation. In: Computational Linguistics 33(2), S. 201–228.
- Michel Galley, Mark Hopkins, Kevin Knight und Daniel Marcu, 2004. What's in a translation rule? In: Proceedings of HLT-NAACL 2004. Association for Computational Linguistics. S. 273–280.
- Jonathan Graehl, Kevin Knight und Jonathan May, 2008. Training Tree Transducers. In: Computational Linguistics 34(3). S. 391–427.
- Matthias Büchse, Toni Dietze, Johannes Osterholzer, Anja Fischer und Linda Leuschner, 2012. Vanda – A Statistical Machine Translation Toolkit. In: Proceedings of the 6th International Workshop Weighted Automata: Theory and Applications, S. 36–37.
Bestimmte Techniken und Verfahren
- Detlef Prescher, 2005. A Tutorial on the Expectation-Maximization Algorithm Including Maximum-Likelihood Estimation and EM Training of Probabilistic Context-Free Grammars. Technischer Bericht. 15th European Summer School in Logic, Language, und Information.
- Mark-Jan Nederhof und Giorgio Satta, 2008. Computing Partition Functions of PCFGs. In Research on Language and Computation 2(6), S. 139–162.
- Mark-Jan Nederhof, 2005. A general technique to train language models on language models. In Computational Linguistics, 31(2), S. 173–185.
- Torsten Stüber, 2012. Consistency of Probabilistic Context-Free Grammars, Dresden, Germany, Technischer Bericht TUD-FI12-04-März 2012, Technische Universität Dresden.
- Matthias Büchse, Daniel Geisler, Torsten Stüber und Heiko Vogler, 2010. n-Best Parsing Revisited. In: Proceedings ATANLP 2010. Association for Computational Linguistics. S. 46–54.
- Donald E. Knuth, 1977. A generalization of Dijkstra's algorithm. In: Information Processing Letters 6(1), S. 1–5.
Links
|
|