TüBa-D/Z Release 7 (31.12.2011)
Die Entwicklung der TüBa-D/Z wird von verschiedenen Seiten gefördert:
Die Tübinger Baumbank des Deutschen / Zeitungskorpus (TüBa-D/Z) ist ein syntaktisch annotiertes
Korpus auf der Grundlage der Zeitung "die tageszeitung" (taz). Sie umfasst
zur Zeit 65.524 Sätze bzw. 1.164.766 Tokens. Die Annotation erfolgt von Hand. Die Entwicklung der
Baumbank wird fortgesetzt und weitere Releases mit einem größeren Datenumfang sind geplant.
Die Annotationsebenen enthalten Informationen über:
- Morphologie
- Wortarten
- Lemmas
- Syntax
- grammatische Funktionen
- (komplexe) Eigennamen/Named Entities
- Anaphern und Koreferenz-Relationen
- Dependenzrelationen (nur im CoNLL Format)
Die syntaktische Annotation basiert auf unumstrittenen Annahmen, die den meisten Syntaxtheorien
zugrunde liegen. Das Annotationsschema unterscheidet vier Ebenen syntaktischer Konstituenz:
- die lexikalische Ebene,
- die phrasale Ebene,
- die Ebene der topologischen Felder
- und die Satzebene.
Die Sätze werden primär in topologische Felder unterteilt, welche die grundlegenden
Wortstellungsregularitäten in den unterschiedlichen Satztypen im Deutschen erfassen, und welche unter
deskriptiven Linguisten des Deutschen i.a. anerkannt sind. Zusätzlich zur Konstituentenstruktur sind die
Kanten zwischen den Knoten mit Labels annotiert. Diese Kantenlabels beschreiben grammatische Funktionen
(als Relationen zwischen Phrasen) sowie die Unterscheidung zwischen Head und Non-Head (phrasenintern).
Das Annotationsschema ist oberflächenorientiert, insofern als es auf einem kontextfreien Gerüst
basiert und weder kreuzende Kanten noch Spuren verwendet. Stattdessen werden nicht-adjazente Beziehungen
durch spezifische Kantenlabels beschrieben.
Die Baumbank wird in zwei Versionen bereitgestellt - eine ohne Eigennamen (Named Entities) und eine mit Eigennamen.
Eigennamen und komplexe Eigennamen werden in die fünf semantischen Klassen Named Entities Organisation, Person,
Ort, geopolitische Entität und andere eingeteilt.
Alle Sätze der Baumbank (3.058 Zeitungsartikel) enhalten eine zusätzliche Annotationsebene, in
der anaphorische und Koreferenzrelationen zu nominalen und pronominalen Antezedenten
kodiert sind. Die Relationen wurden in PALinkA
annotiert. Die Markables dafür wurden automatisch aus der TüBa-D/Z extrahiert:
- Koreferenz-Relationen: 39916
- Anaphorische Relationen: 35893
- Kataphorische Relationen: 1208
- Expletive: 5773
- gebundene Anaphern: 1944
- "split antecedents": 254
- Instanziierungen: 128
Die Vorkommen von ausgewählten Diskurskonnektoren wurden annotiert, zusammen mit ihren Diskursrelationen. Alle
Vorkommen von nachdem (298 Vorkommen), während (531 Vorkommen), sobald (28 Vorkommen) and
seitdem (13 Vorkommen) wurden im gesamten Korpus manuell annotiert. Teile der Baumbank wurden annotated f/ür die
Konnektoren als (169 Vorkommen), aber (161 Vorkommen), and bevor (119 Vorkommen).
Eine ausführliche Beschreibung des Syntax-Annotationsschemas findet sich im Stylebook (auf Englisch):
Die Wortarten sind mit dem Stuttgart-Tübingen-TagSet"
(STTS) annotiert:
Die Richtlinien für die Annotation der Anaphern- und Koreferenzrelationen sind ebenfalls in
einem ausführlichen Bericht zusammengefasst:
tuebadz-coreference-manual-2007.pdf.
Die Annotationsgrundlagen der Diskurskonnektoren sind im
tuebadz-Konnektorenhandbuch.pdf beschrieben.
Die Baumbank ist in fünf Formaten verfügbar:
Die Annotation von Anaphern- und Koreferenzrelationen ist in den gekennzeichneten Dateien im XML-
beziehungsweise Exportformat enthalten, im Exportformat als Kommentare zu den jeweiligen Knoten/Tokens.
Die Annotation umfasst den Umfang der gesamten Baumbank, alle 2.213 Artikel.
Das negra Exportformat kann in Kombination mit dem Annotationsprogramm
Annotate
verwendet werden (wird nicht mehr an aktuelle Betriebssysteme angepasst), das im
negra-Projekt in der Computerlinguistik der Universität des
Saarlands entwickelt wurde oder mit dem
TIGERSearch Tool aus dem
TIGER-Projekt des
Instituts für Maschinelle Sprachverarbeitung der
Universität Stuttgart. Die XML-Dateien können mit jedem herkömmlichen XML-Viewer angezeigt werden.
Änderungen von früheren Releases zu Release 7
Im Vergleich zu Release 5 hat sich folgendes geändert:
- etwa 10.000 Sätze mehr
- etwa 600 referentiell annotierte Artikel mehr
- Korrekturen an Syntaxbäumen und Koreferenzannotation aus den Releases 1-6
- eine weitere Ebene von Diskurskonnektoren wurde manuell erstellt
- die bestehende Ebene von Eigennamen wurde manuell in 5 semantische Klassen eingeteilt
Wie erhalte ich eine Lizenz für die TüBa-D/Z?
Die Lizenz ist für akademische Forschung kostenlos. Für jede andere Nutzung wenden Sie sich bitte an
.
Ablauf der akademischen Registrierung:
- Drucken Sie die Lizenzvereinbarung aus.
- Füllen Sie die Lizenzvereinbarung für die TüBa-D/Z aus und senden Sie sie per Post, Fax oder Scan an
.
- Nach erfolgter Bearbeitung senden wir Ihnen ein Passwort für die Download-Webseite zu.
- Laden Sie die TüBa-D/Z von der Webseite herunter.
Kontakt:
Eberhard Karls Universität Tübingen
Seminar für Sprachwissenschaft
Wilhelmstr. 19
D-72074 Tübingen
Deutschland
Tel.: +49 - 7071 - 29 73970
Fax: +49 - 7071 - 29 5214