Die Baumbank Tüba-J/S

Die TüBa-J/S-Baumbank wurde im Projekt Verbmobil erstellt. Verbmobil war ein langfristig angelegtes Projekt zur maschinellen Übersetzung von Spontansprache, das vom Bundesministerium für Bildung, Wissenschaft, Forschung und Technologie (BMBF) gefördert wurde. 

Die Tübinger Baumbank des Japanischen/Spontansprache (TüBa-J/S) ist ein syntaktisch annotiertes Korpus auf der Grundlage von spontansprachlichen Dialogen, die manuell transliteriert wurden. Sie umfasst ca. 18.000 Sätze bzw. 160.000 Wörter. Die Annotation erfolgte von Hand.

Die syntaktische Annotation basiert auf HPSG Prinzipien. Das Annotationsschema unterscheidet drei Ebenen syntaktischer Konstituenz: die lexikalische Ebene, die phrasale Ebene und die Satzebene. Zusätzlich zur Konstituentenstruktur sind die Kanten zwischen den Knoten mit Labels annotiert. Diese Kantenlabels beschreiben grammatische Funktionen (als Relationen zwischen Phrasen) sowie die Unterscheidung zwischen Head und Non-Head (phrasenintern). 

Die Annotationen wurden 2006 beim CoNLL-X Shared Task: Multi-lingual Dependency Parsing als Trainingsdaten verwendet und sind in der normalen Baumbanklizenz enthalten.

 

Eine ausführliche Beschreibung des Annotationsschemas findet sich im Stylebook (auf Englisch):

 

Die Baumbank ist in drei Formaten verfügbar:

 

Das negra Exportformat kann in Kombination mit dem Annotationsprogramm Annotate verwendet werden, das im negra -Projekt in der Computerlinguistik der Universität des Saarlands entwickelt wurde, oder mit dem TIGER Search Tool aus dem TIGER -Projekt. 

Wie erhalte ich eine Lizenz für die TüBa-J/S?

 

Die Lizenz ist für akademische Zwecke kostenlos. Für jede andere Nutzung wenden Sie sich bitte an Erhard Hinrichs.

Bitte beachten Sie, dass wir keine Lizenzen an Einzelpersonen vergeben.
Studierende, die an der Nutzung von TüBa-J/S für ein Forschungsprojekt oder eine Abschlussarbeit interessiert sind, können die Projektleitung, Institutsleitung oder ihre BetreuerIn darum bitten, eine Lizenz für ihre akademische Institution zu erwerben. In jedem Fall muss die Lizenzvereinbarung von einer dazu authorisierten Person abgeschlossen werden. 

  1. Drucken Sie die Lizenzvereinbarung für TüBa-J/S (PDF) aus.
  2. Füllen Sie die Lizenzvereinbarung aus und senden Sie sie per Post, Fax oder Scan an tuebadz-info. Bitte erläutern Sie dazu kurz, wie Sie die Baumbank nutzen möchten.    
  3. Nach erfolgter Bearbeitung senden wir Ihnen ein Passwort für die Download-Webseite zu.
  4. Laden Sie die Baumbank von der Webseite herunter.

 

Kontakt: 

Marie Hinrichs

Eberhard Karls Universität Tübingen
Seminar für Sprachwissenschaft
Wilhelmstr. 19
D-72074 Tübingen
Germany

Fax: +49 - (0)7071 - 29 5214