Das wissenschaftliche Programm besteht aus den folgenden sechs Kursen:
Computerlinguistische Werkzeuge für die Korpuslinguistik
Die Verfügbarkeit elektronischer Textkorpora hat zur Entwicklung vielfältiger computerlinguistischer Werkzeuge zur Aufbereitung, Annotation und Recherche grosser Datenmengen geführt.
Der Kurs wird einen Überblick über die wichtigsten Teilaspekte der maschinellen Verarbeitung von Textkorpora geben:
Der Kurs wird, soweit wie möglich, auf Werkzeuge und Ressourcen zurückgreifen, die im Tübinger Sonderforschungsbereich 441 entwickelt worden sind, damit den Kursteilnehmern direkter Zugang zu einschlägigen Werkzeugen gewährt werden kann und sie praktische Erfahrung in der Entwicklung und Benutzung der Werkzeuge erwerben können.
Lehrende: Erhard Hinrichs, Tübingen; Sandra Kübler, Tübingen.
Die Untersuchung pragmatischer Fragestellungen anhand von schriftlichen Korpora
Elektronische Textkorpora sind zunächst vor allem zu lexikografischen Zwecken verwendet worden, in den letzten Jahren auch zunehmend zur Untersuchung von Fragen, die der Grammatik zugeordnet werden können. Fragestellungen aus dem Bereich der Pragmatik sind hingegen weitgehend ausgeklammert worden, weil sie traditionell eher anhand von mündlichen Texten untersucht werden, die in elektronischen Korpora aus praktischen Gründen kaum vertreten sind. Der Kurs soll der Frage gewidmet sein, inwieweit sich Textkorpora nicht doch für diesen Zweck eignen, wenn die Methodik entsprechend angepasst wird. Im Einzelnen sollen folgende Themenkomplexe behandelt werden:
Die hier skizzierten Fragestellungen sollen anhand von Beispielen aus dem Bereich der Deixis und der Sprechakttheorie (mit einem Schwerpunkt auf dem sprachlichen Ausdruck von Höflichkeit) erläutert werden. Als Anschauungsmaterial dienen die slavischen Korpora des Tübinger Sonderforschungsbereichs 441.
Lehrender: Tilman Berger, Tübingen.
Head-Driven Phrase Structure Grammar für Slavische Sprachen
Ziel des Kurses ist eine Einführung in die Head-Driven Phrase Structure Grammar, einen constraintbasierten linguistischen Formalismus. Die empirischen Daten, auf die sich dieser Kurse bezieht, stammen von slavischen Sprachen, und die behandelten theoretischen Phänomene umfassen die folgenden:
Lehrender: Adam Przepiórkowski, Warschau.
Dieser Kurs fußt auf dem CLaRK-System, das im Rahmen des CLaRK-Programmes entwickelt wurde, und das am SfS und am LML aktive für die Konstruktion, die Verwaltung und Auswertung annotierter Korpora deutscher und bulgarischer Sätze verwendet wird. Der behandelt die folgenden Themen:
Lehrender: Kiril Simov, Sofia.
Morphologisches und syntaktisches Tagging slavischer Sprachen
Gegenstand dieses Workshops ist eine Diskussion verschiedener Fragen des morphologischen, syntaktischen und anderen Taggings von Korpora slavischer Sprachen. Die slavische Sprachfamilie zeichnet sich durch spezifische morphologische und syntaktische Merkmale aus, die aufgrund der Existenz von verschiedenen Korpora der slavischen Sprachen untersucht werden können. Der Workshop ermöglicht es Forschern, die sich auf die Untersuchung slavischer Sprachen spezialisiert haben, einander über die jüngsten Ergebnisse beim Taggen slavischer Korpora zu informieren. Eines der wichtigsten Themengebiete sind die Methoden des morphologischen Tagging: der Vergleich des stochastischen Tagging slavischer Sprachen und des regelbasierten Tagging, und die Bewertung spezifischer Unterschiede beim Taggen verschiedener slavischer Sprachen und anderer Sprachen, mit deren Tagging bereits viele Erfahrungen gemacht werden konnten (Englisch, Deutsch). Ein weiteres Schlüsselthema bilden Baumbanken syntaktisch annotierter Korpora. Verschiedene Herangehensweisen und Methoden für die syntaktische Annotation werden vorgestellt und verglichen. Eines der Hauptergebnisse des Workshops wird eine Bewertung des augenblicklichen Forschungsstands slavischer Korpora und ihrer Verarbeitung sein. Die Vergleich getaggter und annotierter Korpora slavischer Sprachen mit existierenden annotierten Korpora germanischer und romanischer Sprachen kann beim Aufzeigen einiger neuer typologischer Unterschiede zwischen verschiedenen Sprachfamilien helfen, die ohne Korpora bislang noch nicht entdeckt werden konnten.
Lehrende: Vladimír Petkevic, Prag; Karel Oliva, Saarbrücken.
Aufbau und Erstellung von Textkorpora und ihre Anwendung im Bereich der Lexikografie
Im Mittelpunkt des Kurses wird der Vergleich traditioneller und computergestützter Verfahren zur Erstellung von Lexika stehen, mit einem besonderen Schwerpunkt auf der korpusbasierten Lexikografie. Einführend werden die Frage nach der für lexikografische Zwecke geeigneten Form von Textkorpora behandelt, hier kommen dann auch Fragen der Annotation von Korpora, der Repräsentativität, Ökonomie und der günstigsten Strukturierung der Daten zur Sprache.
Im zweiten Teil des Kurses sollen dann anhand konkreter korpusorientierter Projekte anwendungsbezogene Fragen von Textkorpora erörtert werden. Dabei können folgende Projekte als Ausgangspunkt dienen:
Lehrender: Anatolij N. Baranov, Moskau.