Spracherkennungssoftware

Dragon NaturallySpeaking Premium 11


Spracherkennungssoftware

Software aus dem Hause Nuance hat sich über die Jahre im Segement der Spracherkennungssoftware eine Marktführerstellung gesichert. Die Erkennungsrate der Dragon NaturallySpeaking Reihe hat sich von Version zu Version kontinuierlich verbessert. Nach einer kurzen Eingewöhnungsphase erkennt die Software jedes Wort, dass man ihr diktiert.

Diese Software kaufen.

Spracherkennungssoftware

 

 

Der Weg zu der heutigen Spracherkennungssoftware war lang und steinig. Bis weit in die 1980er Jahre war kaum an eine echte und richtige Software zur Spracherkennung zu denken und das, was bisher bei Forschung und Entwicklung herauskam, war für den normalen Anwender nicht bezahlbar. Dies hat sich im Laufe der Jahre geändert und so gibt es heute ein Vielzahl von Software, die Sprache mittels Mikrofon erkennen soll. Doch hier trennt sich schnell die Spreu vom Weizen. Gerade Freewareprogramme werden alles bieten können, nur keine sinnvolle Spracherkennung. Von solchen Programmen kann nur abgeraten werden, sie sind nicht umsonst Freeware. Das Thema Spracherkennung ist so komplex, dass man auf Partner bauen sollte, die bereits viele Jahre Erfahrung haben und die an Softwarelösungen arbeiten, die wirklich funktioniert und die nicht nur den Schein hat oder sich mit ein paar wenigen gängigen Worten zufriedengeben muss. Mittlerweile haben sich interessante Softwarelösungen auf dem Markt etabliert, die so unterschiedlich wie ihre Anwender sind.

 

 

 

Softwarearten

 

Zwei grundlegende Arten von Software sind zurzeit für den normalen Anwender auf dem Markt erhältlich: sprecherunabhängige und sprecherabhängige Sprachsoftware. Die beiden Softwarearten unterscheiden sich enorm voneinander. Sprecherunabhängige Software soll das Arbeiten mit vielen Personen an einem Rechner ermöglichen, der Software ist es dabei egal, wer gerade an dem Rechner sitzt und die Spracheingabe vornimmt. Eine Trainingsphase ist bei dieser Software in der Regel nicht vorgesehen, das Diktieren von Texten oder das Steuern des Rechners ist jederzeit möglich. In der Theorie klingt das sehr verlockend, ein stundenlanges Training und der Software die eigene Stimme beibringen erscheint für viele doch recht kompliziert, aufwendig und langwierig. Die Nachteile bei dieser Software liegen allerdings im Wortschatz. Oftmals ist der Sprachschatz auf einige Tausend Wörter beschränkt. Der Einsatz dieser Software eignet sich so zum Beispiel für immer wiederkehrende Texte, für immer gleiche Worte, die nur schnell in Textform gebracht werden müssen. Ungeeignet ist sie zum Beispiel für Autoren oder Journalisten, da diese oftmals fremde, neue und ganz eigene Wörter benutzen.

 

 

Mit der sprecherabhängigen Software kann wesentlich mehr erreicht werden und ein Wortvolumen von ca. 150.000 kann relativ einfach erreicht werden. Die Software stellt sich allerdings zunächst auf den jeweiligen Anwender und seine Aussprache ein. Ein gutes Einarbeiten in diese Software ist dringend erforderlich und teilweise lange Trainingsphasen unumgänglich. Doch das teilweise lange trainieren, sprechen, ablesen von bestimmten Worten zahlt sich in der Zukunft aus, denn wie schon erwähnt, ist der Wortschatz solcher Software enorm und eignet sich auch für speziellere Texte und nicht immer nur wiederkehrende Worte.

 

 

In einer Trainingsphase werden bestimmte Wörter regelrecht geübt und die Software kann sich so das Klangbild der Stimme in gewisser Art merken, erlernt schnell die Ausdrucksweisen und vielleicht auch ein Stück weit leichte Dialekte. Trainingsphasen, auch wenn sie im ersten Moment uneffektiv sind und vielleicht hinderlich sind, sollten auf keinen Fall ausgelassen werden und das sinnvolle und anständige üben und proben sollte unbedingt stattfinden. Vom Prinzip her ist dies mit einem Sportler zu vergleichen: Ohne Training sind die Leistungen nicht bestens, aber auf einem guten Niveau. Jedoch sind die Leistungen mit Training wesentlich höher und Erfolge können eher angestrebt werden.

 

 


Lippenlesen


Das Ablesen von Worten von den Lippen ist nichts Unbekanntes. Jeder hat vielleicht schon einmal versucht sich die Ohren zuzuhalten und zu schauen, ob er sich anhand der Lippenbewegung verständigen kann bzw. ob es denn überhaupt möglich ist, Worte aus den Bewegungen der Lippen abzulesen. Menschen mit Behinderungen (Taub-Stumm) beherrschen dies teilweise enorm gut und dies hat man sich auch in der Spracherkennung zunutze gemacht. Mittels einer Videokamera werden Sprache und auch die Bewegungen der Lippen aufgezeichnet und miteinander analysiert und so ein Text ausgegeben. Die Idee ist in der Theorie sehr gut, ob dies in der Praxis auch so großen Anklang finden wird, ist unsicher. Um hier maximale Erfolge zu erzielen, ist es notwendig besonders deutlich zu reden, die Lippen auch richtig zu bewegen und Schnelles sprechen, kann zu einem Problem werden. Hochwertige Spracherkennungssoftware orientiert sich ganz besonders an Audiosignalen.

 




Kontinuierliche Sprache


Spracherkennungssoftware hat mit einigen Tücken des menschlichen Wesens zu kämpfen, aber genau für diese Tücken wurde die Software eigentlich erfunden. Im normalen Alltag reden Menschen sehr schnell, 120 Worte in der Minute sind für die meisten Menschen kein Problem. Die Aufgabe der Software ist es, Wörter auch ohne besondere Pausen zu erkennen. In der kontinuierlichen Sprache werden kaum Pausen zwischen den Wörtern gemacht, frühere Spracherkennungssoftware verlangte hingegen eine sogenannte diskrete Sprache, ein Sprechen mit Pausen zwischen den Worten. Das kontinuierliche Sprechen stellt für hochwertige Software mittlerweile kein Problem mehr dar, aber die Trainingsphasen sind in diesen Fällen sehr wichtig.

 

 

Ob Autoren, Hobby-PC-Nutzer oder sonstige Nutzer, Spracherkennungssoftware hat in den letzten Jahren die Arbeit am Rechner vereinfacht und befindet sich heute auf einem sehr hohen Niveau. Hochwertige Software ermöglicht mittlerweile das problemlose Arbeiten und Steuern mittels Spracherkennungssoftware und die Preise bewegen sich in moderaten Bereichen, sodass auch der Privatanwender in den Genuss von Reden statt tippen kommt.