ERC-WIDE

Projektleiter:                        R. Harald Baayen (Professor für Quantitative Linguistik)

 

Mitarbeiter:                          Yu-Ying Chuang (Postdoktorandin)

                                            Maja Linke (Doktorandin)

                                            Jessie Nixon (Postdoktorandin)

                                            Tino Sering (Doktorand)

                                            Elnaz Shafaei Bajestan (Doktorandin)

                                            Kun Sun (Postdoktorand)

                   Ali Gharaee (Wissenschaftlicher Hilfskraft BA)

 

Homepage:                          www.sfs.uni-tuebingen.de/~hbaayen/

 

Absicht

 

In dem Projekt WIDE (Wide Incremental learning with Discrimination nEtworks) wird versucht einen tieferen Einblick zu gewinnen, wie wir in der Alltagssprache Wörter bilden und verstehen.

 

Wörter können sich in alltäglichen Unterhaltungen deutlich von der geschriebenen Form unterscheiden: Im Deutschen wird „würden“ häufig als „wün“ ausgesprochen, im Niederländischen „natuurlijk“ (‚natürlich‘) zu „tk“ reduziert, und im chinesischen Mandarin wird 要不然 (jao pu zan, ‚andererseits‘) zu „ui“. Gängigen Theorien zufolge werden die Klangwellen, die unsere Ohren erreichen, zu Abfolgen abstrakter Lauteinheiten reduziert – ähnlich wie die Aneinanderreihung von Buchstaben, die geschriebene Wörter ergeben. Um die Bedeutung einer Äußerung zu erfassen, müssten die stark reduzierten Formen wie „wün“, „tk“ und „ui“ den entsprechenden ungekürzten Formen zugeordnet werden. Wie das als Rechenanleitung im Computer gelingen soll, ist ein bisher ungelöstes Problem.

 

Dem Projekt WIDE ist den radikalen Vorschlag zugrunde gelegt, die buchstabenähnlichen Lauteinheiten ganz beiseite zu lassen und sich stattdessen auf die vielfältigen Details des Sprachsignals selbst zu konzentrieren. Ausgehend von den zehntausenden veränderlichen Merkmalen eines Sprachsignals will man künstliche neurale Netzwerke durch Versuch und Irrtum lernen lassen, welche Bedeutungen jeweils gemeint sind. In früheren Forschungsarbeiten, die von der Alexander von Humboldt-Stiftung gefördert wurden, konnte man bereits belegen, dass diese Vorgehensweise grundsätzlich Erfolge zeitigt. Im WIDE-Projekt soll dieser Ansatz weiterentwickelt und über das Deutsche hinaus auf andere Sprachen ausgedehnt werden, darunter die tonale Sprache Mandarin und Estnisch, eine komplexe Sprache mit 28 bis 40 verschiedenen Formen eines Substantivs. Im WIDE-Projekt will man auch ein Computermodell zur Formung von Wörtern in der gesprochenen Sprache ohne den Einsatz von buchstabenähnlichen Lauteinheiten entwickeln.

 

Der Projektname „WIDE“ hebt einen zweiten Aspekt hervor, in dem das Projekt eine radikale Abkehr von gängigen Ansätzen in der Linguistik und bei der Erforschung der Verarbeitung natürlicher Sprache vornimmt: Statt tiefe vielschichtige lernende Netzwerke zu verwenden, konzentriert man sich auf das Potenzial ‚weiter‘, ausgedehnter, aber nur zweischichtiger Netzwerke mit Zehntausenden von Ein- und Ausgangseinheiten.