TUD Logo

TUD Startseite » ... » Ergebnisse studentischer Arbeiten » Große Belege » Jan Richter

Computergraphik

Belegarbeit von Jan Richter

Spracheingabe für VR Anwendungen

Lehrstuhl für Computergraphik und Visualisierung


Student: Jan Richter
Betreuer: Prof. Dr. Sefan Gumhold
Verantwortlicher Hochschullehrer: Prof. Dr. Sefan Gumhold

Motivation

Heutige Spracheingabesysteme arbeiten genauer und schneller als je zuvor. Ihr Anwendungsgebiet ist weitläufig und beinhaltet unter anderem die Sprachsteuerung, das Lernen von Fremdsprachen, das Diktieren von Texten oder sogar Nutzerverifikation. Auch wenn Herstellerangaben von 99Prozent Worterkennungsrate mit Vorsicht zu genießen sind, können Spracheingabesysteme eine große Arbeitserleichterung darstellen. In dieser Arbeit soll nun unter Anderem untersucht werden wie Spracherkennung funktioniert, welche Systeme existieren und wie leistungsfähig sie sind.

Beschreibung

In dieser Arbeit wird zunächst vorgestellt welche Arten von Spracherkennern existieren, welche Anforderungen bestehen und wie Spracherkenner im Allgemeinen aufgebaut sind. Im Anschluss daran werden kurz einige kommerzielle sowie freie Programme vorgestellt, die Spracheingabe realisieren. Im Mittelteil des Belegs werden drei frei verfügbare Spracherkennungssysteme näher betrachtet und einigen Tests bezüglich ihrer Erkennungsqualitäten unterzogen. Am Ende der Arbeit wird eines der freiverfügbaren Spracherkennungssysteme ausgewählt um eine vereinfachte Schnittstelle zu implementieren. Mit Hilfe der Schnittstelle wird dann eine kleine Beispielanwendung erstellt und bezüglich der erreichten Erkennungsgenauigkeit getestet. Zum Abschluss werden diese Ergebnisse noch mit den früheren Testergebnissen verglichen.

Ergebnisse

Bei den, in dieser Arbeit untersuchten, frei verfügbaren Spracherkennungssystemen handelte es sich um CMU Sphinx, den JLAB Speech Server und die Microsoft Speech API. In der Tabelle werden die Worterkennungsraten der verschiedenen Systeme für verschieden große Vokabulare gegenüber gestellt. In der letzten Spalte sind die Ergebnisse der Schnittstelle aufgeführt, die im Zuge dieser Arbeit implemetiert wurde.

Anzahl
der Befehle
Sphinx4
Dialog Demo
JLAB
Speech Server
MSAPI
Dictation Pad
MSAPI Schnittstelle
Beispielanwendung
31 58,06% 81,94% 54,84% 96,80%
24 69,17% 81,67% 89,17% 95,80%
18 68,89% 88,19% 95,56% 100%
13 89,23% 86,15% 87,69% 100%
11 78,18% 94,55% 90,91% 92,70%
Durchschnittliche
Erkennungsrate:
72,71% 86,50% 83,63% 97,10%

Download

Stand: 1.2.2010, 14:38 Uhr
Autor: Corina Weissbach