Die Baumbank TüBa-D/S

Die TüBa-D/S-Baumbank wurde im Projekt Verbmobil erstellt. Verbmobil war ein langfristig angelegtes Projekt zur maschinellen Übersetzung von Spontansprache, das vom Bundesministerium für Bildung, Wissenschaft, Forschung und Technologie (BMBF) gefördert wurde. 

Die Tübinger Baumbank des Deutschen/Spontansprache (TüBa-D/S) ist ein syntaktisch annotiertes Korpus auf der Grundlage von spontansprachlichen Dialogen, die manuell transliteriert wurden. Sie umfasst ca. 38.000 Sätze bzw. 360.000 Wörter. Die Annotation erfolgte von Hand.

Die syntaktische Annotation basiert auf unumstrittenen Annahmen, die den meisten Syntaxtheorien zugrunde liegen. Das Annotationsschema unterscheidet vier Ebenen syntaktischer Konstituenz: die lexikalische Ebene, die phrasale Ebene, die Ebene der topologischen Felder und die Satzebene. Die Sätze werden primär in topologische Felder unterteilt, welche die grundlegenden Wortstellungsregularitäten in den unterschiedlichen Satztypen im Deutschen erfassen, und welche unter deskriptiven Linguisten des Deutschen i.a. anerkannt sind. Zusätzlich zur Konstituentenstruktur sind die Kanten zwischen den Knoten mit Labels annotiert. Diese Kantenlabels beschreiben grammatische Funktionen (als Relationen zwischen Phrasen) sowie die Unterscheidung zwischen Head und Non-Head (phrasenintern). 

Das Annotationsschema ist oberflächenorientiert, insofern als es auf einem kontextfreien Gerüst basiert und weder kreuzende Kanten noch Spuren verwendet. Stattdessen werden nicht-adjazente Beziehungen durch spezifische Kantenlabels beschrieben. 

Eine ausführliche Beschreibung des Annotationsschemas findet sich im Stylebook (auf Englisch):


Die Baumbank ist in drei Formaten verfügbar:

 

Das negra Exportformat kann in Kombination mit dem Annotationsprogramm Annotate verwendet werden (wird nicht mehr an aktuelle Betriebssysteme angepasst), das im  negra-Projekt in der Computerlinguistik der Universität des Saarlands entwickelt wurde oder mit dem TIGERSearch Tool aus dem TIGER-Projekt des Instituts für Maschinelle Sprachverarbeitung der Universität Stuttgart. Die XML-Dateien können mit jedem herkömmlichen XML-Viewer angezeigt werden.  

Wie erhalte ich eine Lizenz für die TüBa-D/S?

 

Die Lizenz ist für akademische Zwecke kostenlos. Für jede andere Nutzung wenden Sie sich bitte an Erhard Hinrichs

Bitte beachten Sie, dass wir keine Lizenzen an Einzelpersonen vergeben.
Studierende, die an der Nutzung von TüBa-D/S für ein Forschungsprojekt oder eine Abschlussarbeit interessiert sind, können die Projektleitung, Institutsleitung oder ihre BetreuerIn darum bitten, eine Lizenz für ihre akademische Institution zu erwerben. In jedem Fall muss die Lizenzvereinbarung von einer dazu authorisierten Person abgeschlossen werden.

  1. Drucken Sie die Lizenzvereinbarung für TüBa-D/S (PDF) aus.
  2. Füllen Sie die Lizenzvereinbarung und senden Sie sie per Post, Fax oder Scan an tuebadz-info. Bitte erläutern Sie dazu kurz, wie Sie die Baumbank nutzen möchten.
  3. Nach erfolgter Bearbeitung senden wir Ihnen ein Passwort für die Download-Webseite zu.
  4. Laden Sie die Baumbank von der Webseite herunter.

 

Kontakt: 

Marie Hinrichs

Eberhard Karls Universität Tübingen
Seminar für Sprachwissenschaft
Wilhelmstr. 19
D-72074 Tübingen
Germany

Fax: +49 - 7071 - 29 5214