Seminar für Sprachwissenschaft

TüBa-D/Z Release 11.0 (06/2018) [Letzte Release]

Die Tübinger Baumbank des Deutschen / Zeitungskorpus (TüBa-D/Z) ist ein syntaktisch annotiertes Korpus auf der Grundlage der Zeitung "die tageszeitung" (taz). Sie umfasst 3.816 Zeitungsartikel (104.787 Sätze bzw. 1.959.474 Tokens). Die Annotation erfolgt von Hand.

Dieses letzte Release ist der Erinnerung an Dr. Heike Telljohann gewidmet. Die hochwertige Qalität dieser Baumbank ist zum großen Teil Ihrem Engagement, Ihrer Sorgfalt und Detailgenauigkeit geschuldet, mit welchem sie dieses Projekt über die Jahre begleitet hat.

Erweiterungen in Release 11.0:

Release 11.0 beinhaltet 172 neue Zeitungsartikel (9.192 Sätze bzw. 171.673 Tokens).

Das neue Release beinhaltet zusätzlich die Ausgabe der Baumbank in einem automatisch umgewandelten CoNLL-U (v2) Format. Dieses Release wird das letzte sein, obwohl wir gerne, wenn möglich, noch manuelle Korrekturen an den CoNLL-U Strukturen vornehmen würden.

Das Stylebook ist überarbeitet worden.

Seit Release 9.1 sind 109 ausgewählte Lemmata (30 Nomen und 79 Verben) mit den entsprechenden Lesarten aus dem deutschen Wortnetz GermaNet annotiert. Ziel dieser Lesartenannotation ist die Verwendung als Goldstandard für automatische Lesartendisambiguierung. Dafür sind insgesamt 17.910 Wortvorkommen mit GermaNet-Lesarten annotiert. Mehr Informationen sind der entsprechenden Webseite zu entnehmen.

Anschauen und Durchsuchen:

Die TüBa-D/Z Baumbank kann über die Webanwendung TüNDRA durchsucht und abgefragt werden. Hierfür ist ein Institutslogin oder ein CLARIN-Benutzerkonto notwendig.

Annotationsebenen:

Die Annotationsebenen enthalten Informationen über:

  • Morphologie
  • Wortarten
  • Lemmas
  • Syntax
  • Grammatische Funktionen
  • (Komplexe) Eigennamen/Named Entities inkl. semantischer Klassifizierung (OrganisationPersonOrtgeopolitische Entität und andere)
  • Anaphern und Koreferenz-Relationen
  • Diskurskonnektoren (über einen Teil des Korpus)
  • Lesarten aus GermaNet
  • Dependenzrelationen (automatisch erzeugt)
  • Chunk-Annotation (automatisch erzeugt)

 

Die syntaktische Annotation basiert auf unumstrittenen Annahmen, die den meisten Syntaxtheorien zugrunde liegen. Das Annotationsschema unterscheidet vier Ebenen syntaktischer Konstituenz:

  • die lexikalische Ebene,
  • die phrasale Ebene,
  • die Ebene der topologischen Felder
  • und die Satzebene.

 

Die Sätze werden primär in topologische Felder unterteilt, welche die grundlegenden Wortstellungsregularitäten in den unterschiedlichen Satztypen im Deutschen erfassen, und welche unter deskriptiven Linguisten des Deutschen i.a. anerkannt sind. Zusätzlich zur Konstituentenstruktur sind die Kanten zwischen den Knoten mit Labels annotiert. Diese Kantenlabels beschreiben grammatische Funktionen (als Relationen zwischen Phrasen) sowie die Unterscheidung zwischen Head und Non-Head (phrasenintern).

 

Das Annotationsschema ist oberflächenorientiert, insofern als es auf einem kontextfreien Gerüst basiert und weder kreuzende Kanten noch Spuren verwendet. Stattdessen werden nicht-adjazente Beziehungen durch spezifische Kantenlabels beschrieben.

 

Sätze der Baumbank sind annotiert bezüglich pronominaler Anaphora (anaphorische und kataphorische Relationen) sowie Koreferenzrelationen zu nominalen und pronominalen Antezedenten. Die Relationen wurden in PALinkA  annotiert. Die Markables dafür wurden automatisch aus der TüBa-D/Z extrahiert:

  • Koreferenz-Relationen: 54.382
  • Anaphorische Relationen: 50.721
  • Kataphorische Relationen: 1.582
  • Expletive: 7.976
  • Gebundene Anaphern: 2.603
  • "Split antecedents": 344
  • Instanziierungen: 289
  • Inhärent Reflexive: 9.138

 

Die Vorkommen von ausgewählten ambigen Diskurskonnektoren wurden annotiert, zusammen mit ihren Diskursrelationen. Teile der Baumbank wurden annotiert für die Konnektoren nachdem (298 Vorkommen), während (531 Vorkommen),  sobald (28 Vorkommen), seitdem (13 Vorkommen), als (169 Vorkommen), aber (161 Vorkommen), und bevor (119 Vorkommen). Zu den Annotationsrichtlinien siehe Simon et al. (2011).

 

Eine weitere Annotationsebene enthält strukturelle Information sowie implizite Diskursrelationen für einen Subkorpus, der 41 annotierte Zeitungsartikel (21.817 Tokens) enthält und 1.458 (explizite und implizite) Diskursrelationen umfasst. Zum Schema und zu Agreement-Zahlen siehe Gastel et al. (2011).

 

Eine ausführliche Beschreibung des Syntax-Annotationsschemas findet sich im Stylebook (auf Englisch):

 

Die Wortarten sind mit dem Stuttgart-Tübingen-TagSet" (STTS) annotiert:

 

Die Richtlinien für die Annotation der Anaphern- und Koreferenzrelationen sind ebenfalls in einem ausführlichen Bericht zusammengefasst: tuebadz-coreference-manual-2007.pdf.

 

Die Annotationsgrundlagen der Diskurskonnektoren sind im tuebadz-Konnektorenhandbuch.pdf beschrieben.

Datenformate:

Das Release README beinhaltet eine Zusammenfassung der verfügbaren Datenformate und ihrer jeweils enthaltenen Annotationen.

Die Entwicklung der Baumbank TüBa-D/Z wird von verschiedenen Seiten gefördert:

 

Wie erhalte ich eine Lizenz für die TüBa-D/Z?

Die Lizenz ist für akademische Forschung kostenlos. Für jede andere Nutzung wenden Sie sich bitte an Erhard Hinrichs.

Bitte beachten Sie, dass wir keine Lizenzen an Einzelpersonen vergeben.
Studierende, die an der Nutzung von TüBa-D/Z für ein Forschungsprojekt oder eine Abschlussarbeit interessiert sind, können die Projektleitung, Institutsleitung oder ihre BetreuerIn darum bitten, eine Lizenz für ihre akademische Institution zu erwerben. In jedem Fall muss die Lizenzvereinbarung von einer dazu authorisierten Person abgeschlossen werden.     

  1. Drucken Sie die Lizenzvereinbarung für TüBa-D/Z (PDF) aus.
  2. Füllen Sie die Lizenzvereinbarung aus und senden Sie sie per Post, Fax oder Scan an tuebadz-info. Bitte erläutern Sie dazu kurz, wie Sie die Baumbank nutzen möchten.   
  3. Nach erfolgter Bearbeitung senden wir Ihnen ein Passwort für die Download-Webseite zu.
  4. Laden Sie die Baumbank von der Webseite herunter.