Logo SfS

TüBa-D/Z Release 7 (31.12.2011)


Die Entwicklung der TüBa-D/Z wird von verschiedenen Seiten gefördert:


Die Tübinger Baumbank des Deutschen / Zeitungskorpus (TüBa-D/Z) ist ein syntaktisch annotiertes Korpus auf der Grundlage der Zeitung "die tageszeitung" (taz). Sie umfasst zur Zeit 65.524 Sätze bzw. 1.164.766 Tokens. Die Annotation erfolgt von Hand. Die Entwicklung der Baumbank wird fortgesetzt und weitere Releases mit einem größeren Datenumfang sind geplant.


Die Annotationsebenen enthalten Informationen über:

  • Morphologie
  • Wortarten
  • Lemmas
  • Syntax
  • grammatische Funktionen
  • (komplexe) Eigennamen/Named Entities
  • Anaphern und Koreferenz-Relationen
  • Dependenzrelationen (nur im CoNLL Format)


Die syntaktische Annotation basiert auf unumstrittenen Annahmen, die den meisten Syntaxtheorien zugrunde liegen. Das Annotationsschema unterscheidet vier Ebenen syntaktischer Konstituenz:

  • die lexikalische Ebene,
  • die phrasale Ebene,
  • die Ebene der topologischen Felder
  • und die Satzebene.


Die Sätze werden primär in topologische Felder unterteilt, welche die grundlegenden Wortstellungsregularitäten in den unterschiedlichen Satztypen im Deutschen erfassen, und welche unter deskriptiven Linguisten des Deutschen i.a. anerkannt sind. Zusätzlich zur Konstituentenstruktur sind die Kanten zwischen den Knoten mit Labels annotiert. Diese Kantenlabels beschreiben grammatische Funktionen (als Relationen zwischen Phrasen) sowie die Unterscheidung zwischen Head und Non-Head (phrasenintern).


Das Annotationsschema ist oberflächenorientiert, insofern als es auf einem kontextfreien Gerüst basiert und weder kreuzende Kanten noch Spuren verwendet. Stattdessen werden nicht-adjazente Beziehungen durch spezifische Kantenlabels beschrieben.


Die Baumbank wird in zwei Versionen bereitgestellt - eine ohne Eigennamen (Named Entities) und eine mit Eigennamen. Eigennamen und komplexe Eigennamen werden in die fünf semantischen Klassen Named Entities Organisation, Person, Ort, geopolitische Entität und andere eingeteilt.


Alle Sätze der Baumbank (3.058 Zeitungsartikel) enhalten eine zusätzliche Annotationsebene, in der anaphorische und Koreferenzrelationen zu nominalen und pronominalen Antezedenten kodiert sind. Die Relationen wurden in PALinkA annotiert. Die Markables dafür wurden automatisch aus der TüBa-D/Z extrahiert:

  • Koreferenz-Relationen: 39916
  • Anaphorische Relationen: 35893
  • Kataphorische Relationen: 1208
  • Expletive: 5773
  • gebundene Anaphern: 1944
  • "split antecedents": 254
  • Instanziierungen: 128

Die Vorkommen von ausgewählten Diskurskonnektoren wurden annotiert, zusammen mit ihren Diskursrelationen. Alle Vorkommen von nachdem (298 Vorkommen), während (531 Vorkommen), sobald (28 Vorkommen) and seitdem (13 Vorkommen) wurden im gesamten Korpus manuell annotiert. Teile der Baumbank wurden annotated f/ür die Konnektoren als (169 Vorkommen), aber (161 Vorkommen), and bevor (119 Vorkommen).


Eine ausführliche Beschreibung des Syntax-Annotationsschemas findet sich im Stylebook (auf Englisch):


Die Wortarten sind mit dem Stuttgart-Tübingen-TagSet" (STTS) annotiert:


Die Richtlinien für die Annotation der Anaphern- und Koreferenzrelationen sind ebenfalls in einem ausführlichen Bericht zusammengefasst: tuebadz-coreference-manual-2007.pdf.


Die Annotationsgrundlagen der Diskurskonnektoren sind im tuebadz-Konnektorenhandbuch.pdf beschrieben.


Die Baumbank ist in fünf Formaten verfügbar:


Die Annotation von Anaphern- und Koreferenzrelationen ist in den gekennzeichneten Dateien im XML- beziehungsweise Exportformat enthalten, im Exportformat als Kommentare zu den jeweiligen Knoten/Tokens. Die Annotation umfasst den Umfang der gesamten Baumbank, alle 2.213 Artikel.


Das negra Exportformat kann in Kombination mit dem Annotationsprogramm Annotate verwendet werden (wird nicht mehr an aktuelle Betriebssysteme angepasst), das im negra-Projekt in der Computerlinguistik der Universität des Saarlands entwickelt wurde oder mit dem TIGERSearch Tool aus dem TIGER-Projekt des Instituts für Maschinelle Sprachverarbeitung der Universität Stuttgart. Die XML-Dateien können mit jedem herkömmlichen XML-Viewer angezeigt werden.



Änderungen von früheren Releases zu Release 7

Im Vergleich zu Release 5 hat sich folgendes geändert:
  • etwa 10.000 Sätze mehr
  • etwa 600 referentiell annotierte Artikel mehr
  • Korrekturen an Syntaxbäumen und Koreferenzannotation aus den Releases 1-6
  • eine weitere Ebene von Diskurskonnektoren wurde manuell erstellt
  • die bestehende Ebene von Eigennamen wurde manuell in 5 semantische Klassen eingeteilt


  • Wie erhalte ich eine Lizenz für die TüBa-D/Z?

    Die Lizenz ist für akademische Forschung kostenlos. Für jede andere Nutzung wenden Sie sich bitte an .


    Ablauf der akademischen Registrierung:

    1. Drucken Sie die Lizenzvereinbarung aus.
    2. Füllen Sie die Lizenzvereinbarung für die TüBa-D/Z aus und senden Sie sie per Post, Fax oder Scan an .
    3. Nach erfolgter Bearbeitung senden wir Ihnen ein Passwort für die Download-Webseite zu.
    4. Laden Sie die TüBa-D/Z von der Webseite herunter.


    Kontakt:



    Eberhard Karls Universität Tübingen
    Seminar für Sprachwissenschaft
    Wilhelmstr. 19
    D-72074 Tübingen
    Deutschland
    Tel.: +49 - 7071 - 29 73970
    Fax: +49 - 7071 - 29 5214