Hilfe: Sie befinden sich auf...

Ruhr-Universität Bochum, 16.03.99

Archiv

... einer Artikelseite. Sie zeigt den vollständigen Text einer Nachricht.

Am Fuß der Seite finden Sie drei Boxen mit weiteren Aktionsmöglichkeiten:
Über die linke Box können Sie zum vorhergehenden, bzw. nachfolgenden Artikel in diesem Bereich navigieren.
In der mittleren Box können Sie diesen Artikel bewerten.
In der rechten Box kommen Sie zu einer Druckversion dieses Artikels, Sie können den Link dieses Artikels an einen E-Mail-Empfänger verschicken und Sie können diesen Artikel auf einen Merkzettel legen, um ihn leichter wiederzufinden.

Hilfe: Generell zu dieser Seite

Bei NETZGUT finden Sie Nachrichten aus dem Netz.
Zu der Nachricht Ihres Interesses können Sie auf drei Wegen gelangen:

Im Archiv sind die Nachrichten nach Bereichen getrennt.
Unter Themen finden Sie Nachrichten bereichsübergreifend zu einem bestimmten Thema.
Über die Schlagworte gelangen Sie zu den Artikeln, denen eben jene Schlagworte zugeordnet wurden. Auch diese Einordnung ist bereichsübergreifend.

Übrigens: Der Hilfe-Button gibt Ihnen zu jeder Seite die passenden Informationen.

Ruhr-Universität Bochum, 16.03.99

Preiswerte sprecherunabhängige Spracherkennung für technische Geräte

Einen neuen Algorithmus für die Spracherkennung hat der Bochumer Wissenschaftler Dipl.-Ing. Mark Budde entwickelt. Der Algorithmus kommt ohne großen Rechenaufwand aus und ermöglicht Geräten das Verstehen mehrerer Sprecher.

Bochum, 16.03.1999
Nr. 59

Handy versteht alles und jeden
Mensch-Maschine-Schnittstelle verbessert
Neues Spracherkennungssystem von der RUB preisgekrönt

Automatische Spracherkennung ist in aller Munde. Bereits jetzt kann man seinem Computer Briefe diktieren, ohne sie tippen zu müssen. In Zukunft werden viele neue Anwendungen hinzukommen, mit denen man z.B. den Fernseher und die Waschmaschine per mündlichem Befehl bedienen kann. Bei diesen neuen Anwendungen kommt es entscheidend darauf an, daß sie möglichst preisgünstig zur Verfügung gestellt werden können. Die entsprechenden Algorithmen gibt es schon lange, bisher hatten sie aber einen entscheidenden Nachteil: Sie konnten nur einen einzigen Sprecher nach einer langen Trainingsphase verstehen. Dipl.-Ing. Mark Budde hat einen neuen Algorithmus entwickelt, der ohne großen Rechenaufwand das Verstehen mehrerer Sprecher ermöglicht. Für seine Diplomarbeit "Sprecherabhängige und sprecherunabhängige Spracherkennung unter Verwendung eines gemeinsamen Spracherkennungsalgorithmus", die an der Fakultät für Elektrotechnik und Nachrichtentechnik der RUB (Lehrstuhl für Nachrichtentechnik, Prof. Dr. Hans Dieter Fischer) in Zusammenarbeit mit der Siemens AG entstanden ist, hat er einen der "Preise für Studierende 1998" erhalten. Das Verfahren wird inzwischen in der Praxis angewandt, z.B. im "Storyteller", einem interaktiven Kinderspielzeug.


Algorithmus abgewandelt

Systeme zur Erkennung einzelner Wörter, die immer derselbe Sprecher benutzt, sind heute schon im Einsatz, z. B. in Mobiltelefonen. Bisher war es aber unrentabel, Geräte zu bauen, die jeden verstehen können, weil ihr Rechen- und Speicheraufwand ungleich höher ist als der sprecherabhängiger Geräte. Dipl.-Ing. Budde hat in seiner Arbeit untersucht, wie man einen Algorithmus, der die sprecherabhängige Erkennung ermöglicht, so abwandeln kann, daß er auch unterschiedliche Stimmen ohne vorheriges individuelles Training versteht. Während der Benutzer von sprecherabhängigen Systemen dem Gerät die Wörter nacheinander antrainieren muß, nutzt das sprecherunabhängige System ein Clusterverfahren: Alle eingegebenen Trainingsdaten werden gleichzeitig betrachtet und dann mit Hilfe unterschiedlicher statistischer Methoden sortiert. Aus den geordneten Daten schließt das System auf repräsentative Wortmuster, denen es später "gehörte" Wörter zuordnet.

98 Prozent Erkennungsrate

Zur Unterscheidung ähnlich klingender Wörter hat Dipl.-Ing. Budde dem System zur sprecherunabhängigen Spracherkennung zwei Verfahren hinzugefügt: es clustert akustisch gleiche Wortteile verschiedener Wörter gemeinsam und verschiebt im Training solche Muster, die nah an der Grenze zweier Wortklassen liegen, zu der zutreffenderen Wortklasse hin. So konnte er die Unterscheidbarkeit optimieren. Versprecher beim Training und Hintergrundgeräusche filtert das System automatisch aus den zu clusternden Daten heraus. Bei einem Wortschatz von 20 Wörtern, die von verschiedenen Sprechern geäußert wurden, erreicht es so eine Erkennungsrate von 98 Prozent.

Beispiele aus der praktischen Anwendung

Aufgrund dieses guten Ergebnisses hat das neue System schon in der Praxis Anwendung gefunden: "Speac!" ist ein Spracherkennungsmodul, das universell einsetzbar ist: z. B. in Haushaltsgeräten, Telefonen, Fernbedienungen der Unterhaltungselektronik und in Kinderspielzeug. Da gibt es beispielsweise den "Storyteller", eine Art interaktiver Geschichtenerzähler. Er hat nur noch einen Ein-/Ausschalter und einen Lautstärkeregler. Anders als bei einem Kassettenrecorder kann der Benutzer dem Gerät, das nicht größer ist als ein Gameboy, alle anderen Befehle mündlich erteilen. So bestimmt er selbst den Weg durch das Menü. Infos zu "Speac!", dem Storyteller und anderen Sprachanwendungen gibt es unter http://www.siemens.de/...peech/ohneflash/default_of.htm

Weitere Informationen

Dipl-Ing. Mark Budde, Siemens AG, Man-Machine Cooperation, ZT IK 5 Tel. 089/636-46272, Fax. -40153, E-Mail: Mark.Budde@mchp.siemens.de,

Prof. Dr. Hans Dieter Fischer, Ruhr-Universität Bochum, Fakultät für Elektrotechnik und Informationstechnik, Lehrstuhl für Nachrichtentechnik, Universitätsstr. 150, 44780 Bochum, Tel. 0234/700-2877, -3063, Fax. 0234/7094-100,
E-Mail: sekretariat@nt.ruhr-uni-bochum.de

Weitere Informationen:


Dr. Josef König, Ruhr-Universität Bochum
Quelle: Informationsdienst Wissenschaft, http://www.idw-online.de

Weitere Artikel in diesem BereichBewerten Sie diesen ArtikelToolbox
Dresdner Wissenschaftler erhalten "CeBIT-Oskar" für das 3D-Display 
 Qualifikationen auf dem Prüfstand - oder: Import von Kompetenzen