Fall School 2002 in Sozopol. Course descriptions

KURSBESCHREIBUNGEN

Das wissenschaftliche Programm besteht aus den folgenden sechs Kursen:

Computerlinguistische Werkzeuge für die Korpuslinguistik. Erhard Hinrichs, Tübingen; Sandra Kübler, Tübingen
Die Untersuchung pragmatischer Fragestellungen anhand von schriftlichen Korpora. Tilman Berger, Tübingen.
Head-Driven Phrase Structure Grammar für slavische Sprachen. Adam Przepiórkowski, Warschau.
XML-basierte Korpuslinguistik. Kiril Simov, Sofia.
Morphologisches und syntaktisches Tagging slavischer Sprachen. Vladimír Petkevic, Prag; Karel Oliva, Saarbrücken
Aufbau und Erstellung von Textkorpora und ihre Anwendung im Bereich der Lexikografie. Anatolij N. Baranov, Moskau.

Computerlinguistische Werkzeuge für die Korpuslinguistik

Die Verfügbarkeit elektronischer Textkorpora hat zur Entwicklung vielfältiger computerlinguistischer Werkzeuge zur Aufbereitung, Annotation und Recherche grosser Datenmengen geführt.

Der Kurs wird einen Überblick über die wichtigsten Teilaspekte der maschinellen Verarbeitung von Textkorpora geben:

Standards für die Aufbereitung von Texkorpora: XML und Corpus Encoding Standard der Text Encoding Initiative,
Werkzeuge und Ressourcen für die semi-automatische Annotation von Korpora: Tokenisierung, automatische Wortklassenzuweisung (''Tagging'' und ''Tagset''-Design), morphologisches Parsing, syntaktisches Parsing (''Chunk-Parsing'', Grammatikformalismen und Grammatikdesign, Baumbanken) sowie Wortbedeutungsdesambiguierung,
. Werkzeuge für die automatische Recherche von Korpora: Design von Anfragesprachen, graphische Recherchetools

Der Kurs wird, soweit wie möglich, auf Werkzeuge und Ressourcen zurückgreifen, die im Tübinger Sonderforschungsbereich 441 entwickelt worden sind, damit den Kursteilnehmern direkter Zugang zu einschlägigen Werkzeugen gewährt werden kann und sie praktische Erfahrung in der Entwicklung und Benutzung der Werkzeuge erwerben können.

Lehrende: Erhard Hinrichs, Tübingen; Sandra Kübler, Tübingen.

Die Untersuchung pragmatischer Fragestellungen anhand von schriftlichen Korpora

Elektronische Textkorpora sind zunächst vor allem zu lexikografischen Zwecken verwendet worden, in den letzten Jahren auch zunehmend zur Untersuchung von Fragen, die der Grammatik zugeordnet werden können. Fragestellungen aus dem Bereich der Pragmatik sind hingegen weitgehend ausgeklammert worden, weil sie traditionell eher anhand von mündlichen Texten untersucht werden, die in elektronischen Korpora aus praktischen Gründen kaum vertreten sind. Der Kurs soll der Frage gewidmet sein, inwieweit sich Textkorpora nicht doch für diesen Zweck eignen, wenn die Methodik entsprechend angepasst wird. Im Einzelnen sollen folgende Themenkomplexe behandelt werden:

Welche schriftlichen Textsorten eignen sich für indirekte Schlüsse zu Fragestellungen der Pragmatik und welche Vorsichtsmaßnahmen sind dabei zu beachten?
Welche Suchmechanismen sind zur Auffindung pragmatischer Indikatoren geeignet, welche Art der Annotation ist für diese Zwecke am sinnvollsten?
Welche Mechanismen können verwenden werden, um aus schriftlichen Korpora Informationen über die Koordinationen der konkreten Sprechsituation zu entnehmen?

Die hier skizzierten Fragestellungen sollen anhand von Beispielen aus dem Bereich der Deixis und der Sprechakttheorie (mit einem Schwerpunkt auf dem sprachlichen Ausdruck von Höflichkeit) erläutert werden. Als Anschauungsmaterial dienen die slavischen Korpora des Tübinger Sonderforschungsbereichs 441.

Lehrender: Tilman Berger, Tübingen.

Head-Driven Phrase Structure Grammar für Slavische Sprachen

Ziel des Kurses ist eine Einführung in die Head-Driven Phrase Structure Grammar, einen constraintbasierten linguistischen Formalismus. Die empirischen Daten, auf die sich dieser Kurse bezieht, stammen von slavischen Sprachen, und die behandelten theoretischen Phänomene umfassen die folgenden:

Phrasenstruktur;

Kongruenz;

Kasuszuweisung;

Klitisierung;

Negation;

Unbeschränkte Abhängigkeiten (sogenannte "W-Bewegung");

andere Phänomene (in Abhängigkeit von Teilnehmerinteressen).

Im Anschluß an eine Besprechung von Analysen dieser Phänomene im HPSG-Framework, werden wir die Kluft zwischen Arbeit in theoretischer Sprachwissenschaft und Anwendungen der Korpuslinguistik dadurch Überbrücken, daß wir Auftreten der besprochenen Phänomene in Korpora untersuchen werden. Das wird uns die Möglichkeit geben, die theoretischen Analysen im Lichte der Eigenschaften der Daten in Korpora neu zu bewerten, und es wird die Vorteile und Forschungsmöglichkeiten von Korpuslinguistik aufscheinen lassen, aber auch die Probleme, die sich in der theoretischen Sprachwissenschaft durch die Arbeit mit Korpora ergeben.

Lehrender: Adam Przepiórkowski, Warschau.

XML-basierte Korpuslinguistik

Dieser Kurs fußt auf dem CLaRK-System, das im Rahmen des CLaRK-Programmes entwickelt wurde, und das am SfS und am LML aktive für die Konstruktion, die Verwaltung und Auswertung annotierter Korpora deutscher und bulgarischer Sätze verwendet wird. Der behandelt die folgenden Themen:

Korupuslinguistik. Grundbegriffe und Ziele der Korpuslinguistik: Annotierungen, Aufgaben, Suche.

XML. Grundbegriffe der Dokumentenbeschreibung und des Dokumentenaustauschs im XML-Framework: DTD, Dokumentenstruktur, Elemente, Entitäten und Attribute, Wohlgeformtheit und Gültigkeit.

Tokenizer. Einfache und definierte Tokenizer im CLaRK-System.

Endliche Automaten. Die Benutzung von (kaskadierten) Endlichen Automaten (EA) im CLaRK-System.

Suche. Die XPath-Sprache zur Navidation in XML-Dokumenten. EA-Suche. Gemischte XPath- und EA-Suche.

Constraints. EA- und XPath-Constraints auf XML-Dokumenten. Sprachwissenschaftliche Anwenung der Constraints.

Alle Themen werden von praktischen Übungen innerhalb des CLaRK-Systems begleitet. Die Übungen schließen folgendes ein: Manuelles Eintragen von Mark-ups, Konstruktion einfach EA-Grammatiken, automatische Dokumententransformation, Handdesambiguierung morphosyntaktischer Information, Suche, Konstruktion von Konkordanzen, Benutzung von Constraints zur Unterstätzung linguistischer Annotation. Die Art, in der Korpora im CLaRK-System kodiert sind, wird mit anderen Kodierungsmöglichkeiten von Korpora verglichen, insbesondere mit der Referenzannotation des GATE-Systems. Das CLaRK-System wird allen Teilnehmern zugünglich sein.

Lehrender: Kiril Simov, Sofia.

Morphologisches und syntaktisches Tagging slavischer Sprachen

Gegenstand dieses Workshops ist eine Diskussion verschiedener Fragen des morphologischen, syntaktischen und anderen Taggings von Korpora slavischer Sprachen. Die slavische Sprachfamilie zeichnet sich durch spezifische morphologische und syntaktische Merkmale aus, die aufgrund der Existenz von verschiedenen Korpora der slavischen Sprachen untersucht werden können. Der Workshop ermöglicht es Forschern, die sich auf die Untersuchung slavischer Sprachen spezialisiert haben, einander über die jüngsten Ergebnisse beim Taggen slavischer Korpora zu informieren. Eines der wichtigsten Themengebiete sind die Methoden des morphologischen Tagging: der Vergleich des stochastischen Tagging slavischer Sprachen und des regelbasierten Tagging, und die Bewertung spezifischer Unterschiede beim Taggen verschiedener slavischer Sprachen und anderer Sprachen, mit deren Tagging bereits viele Erfahrungen gemacht werden konnten (Englisch, Deutsch). Ein weiteres Schlüsselthema bilden Baumbanken syntaktisch annotierter Korpora. Verschiedene Herangehensweisen und Methoden für die syntaktische Annotation werden vorgestellt und verglichen. Eines der Hauptergebnisse des Workshops wird eine Bewertung des augenblicklichen Forschungsstands slavischer Korpora und ihrer Verarbeitung sein. Die Vergleich getaggter und annotierter Korpora slavischer Sprachen mit existierenden annotierten Korpora germanischer und romanischer Sprachen kann beim Aufzeigen einiger neuer typologischer Unterschiede zwischen verschiedenen Sprachfamilien helfen, die ohne Korpora bislang noch nicht entdeckt werden konnten.

Lehrende: Vladimír Petkevic, Prag; Karel Oliva, Saarbrücken.

Aufbau und Erstellung von Textkorpora und ihre Anwendung im Bereich der Lexikografie

Im Mittelpunkt des Kurses wird der Vergleich traditioneller und computergestützter Verfahren zur Erstellung von Lexika stehen, mit einem besonderen Schwerpunkt auf der korpusbasierten Lexikografie. Einführend werden die Frage nach der für lexikografische Zwecke geeigneten Form von Textkorpora behandelt, hier kommen dann auch Fragen der Annotation von Korpora, der Repräsentativität, Ökonomie und der günstigsten Strukturierung der Daten zur Sprache.

Im zweiten Teil des Kurses sollen dann anhand konkreter korpusorientierter Projekte anwendungsbezogene Fragen von Textkorpora erörtert werden. Dabei können folgende Projekte als Ausgangspunkt dienen:

das Projekt zur Erforschung von Diskurswörtern des Russischen
das Projekt eines Wörterbuches zu Dostoevskij
das Projekt einer Beobachtung der Entwicklung des aktuellen politischen Diskurses anhand eines Textkorpus moderner russischer publizistischer Texte (1995-1999)

Lehrender: Anatolij N. Baranov, Moskau.

Zurück