Corpora

Stuttgart-Tübingen Tagset - STTS

 Das Stuttgart-Tübingen Tagset besteht aus 54 part-of-speech (Wortarten-) tags zur Annotation deutscher Korpora. Es kann derzeit als Standard für das Deutsche angesehen werden.


 

Tübinger Baumbank des Deutschen / Spontansprache - TüBa-D/S

  (die ehemalige Verbmobil German Treebank)

 Die Tübinger Baumbank des Deutschen / Spontansprache (TüBa-D/S) ist ein syntaktisch annotiertes Korpus auf der Grundlage von spontansprachlichen Dialogen, die manuell transliteriert wurden. Sie wurde im Projekt Verbmobil erstellt und umfasst ca. 38 000 Sätze bzw. 360 000 Wörter. Die Annotation erfolgte von Hand.


 

Tübinger Baumbank des Deutschen / Zeitungskorpus - TüBa-D/Z

 Die Tübinger Baumbank des Deutschen / Zeitungskorpus (TüBa-D/Z) ist ein syntaktisch annotiertes Korpus auf der Grundlage der Zeitung "die tageszeitung" (taz). Die Annotation erfolgte von Hand. Die Annotation der Baumbank wird fortgesetzt, und weitere Releases mit einem größeren Datenumfang sind geplant. 


 

Tübinger Baumbank des Englischen / Spontansprache - TüBa-E/S

  (die ehemalige Verbmobil English Treebank)

 Die Tübinger Baumbank des Englischen / Spontansprache (TüBa-E/S) ist ein syntaktisch annotiertes Korpus auf der Grundlage von spontansprachlichen Dialogen, die manuell transliteriert wurden. Sie wurde im Projekt Verbmobil erstellt und umfasst ca. 30 000 Sätze bzw. 310 000 Wörter. Die Annotation erfolgte von Hand.


 

Tübinger Baumbank des Japanischen / Spontansprache - TüBa-J/S

 (die ehemalige Verbmobil Japanese Treebank)

 Die Tübinger Baumbank des Japanischen / Spontansprache (TüBa-J/S) ist ein syntaktisch annotiertes Korpus auf der Grundlage von spontansprachlichen Dialogen, die manuell transliteriert wurden. Sie wurde im Projekt Verbmobil erstellt und umfasst ca. 18 000 Sätze bzw. 160 000 Wörter. Die Annotation erfolgte von Hand. Die Lizenz umfasst auch die Dependenzversion, die im CoNLL-X Shared Task verwendet wurde.


 

Tübinger Partiell Geparstes Korpus des Deutschen / Zeitungskorpus - TüPP-D/Z

 TüPP-D/Z ist eine Sammlung von Artikeln aus der Zeitung "die tageszeitung" (taz), die automatisch hinsichtlich Satzstruktur, topologischen Feldern und Chunks annotiert wurden, aufbauend auf morphosyntaktischer Annotation und morphologischen Ambiguitätsklassen.

 Die Daten des aktuellen Release der TüPP-D/Z entstammen der Wissenschaftsausgabe der taz von 1999. Die Artikel stammen aus dem Zeitraum vom 2. September 1986 bis zum 7. Mai 1999 und umfassen mehr als 200 Millionen Wörter.
   

 

 

Web-Harvested Corpus Annotated with GermaNet Senses - WebCAGe

WebCAGe (kurz für: Web-Harvested Corpus Annotated with GermaNet Senses) ist ein Domänen-unabhängiger Korpus, der aus dem Web geharvested wurde und semi-automatisch mit Wortbedeutungen des deutschen Wortnetzes GermaNet annotiert wurde. Damit eine gewisse Qualität garantiert werden kann, wurden alle automatischen Annotationen manuell überprüft.
   

 

 

Index Thomisticus Baumbank

Die Index Thomisticus Baumbank ist ein syntaktisch annotiertes Korpus der Werke von Thomas von Aquin. Die Index Thomisticus Baumbank ist ein syntaktisch annotiertes Korpus aus drei Werken von Thomas von Aquin. Sie umfasst  170.030 Tokens bzw. 9.497 getaggte und Dependenz-annotierte Sätze in lateinischer Sprache.


 

Virtuelle Kurse in Computerlinguistik

 In den letzten Jahren hat das SfS zur Ergänzung der Lehrveranstaltungen virtuelle Kurse angeboten. Ein virtueller Kurs sollte mehr umfassen als nur ein paar auf die Webseite gestellte Folienpräsentationen, nämlich mindestens ein umfangreiches Skript, begleitende Aufgaben und synchrone oder asynchrone Seminarsitzungen.