Das Korpus TüPP-D/Z

TüPP-D/Z wurde im Rahmen der Projekte DEREKO, Kompetenzzentrum für Text- und Informationstechnologie (KIT) und mit Hilfe des Projekts A1 des Sonderforschungsbereiches 441 erstellt.

 

TüPP-D/Z ist eine Sammlung von Texten aus der Zeitung die tageszeitung (taz), die automatisch hinsichtlich Satzstruktur, topologischen Feldern und Chunks annotiert wurden, aufbauend auf morphosyntaktischer Annotation und morphologischen Ambiguitätsklassen. Alle Texte wurden maschinell verarbeitet. Zunächst wurden die Texte in Absätze, Sätze und Wortformen segmentiert. Die Wortformen beinhalten Informationen zu häufigen Named Entities, wie Datumsangaben, Telefonnummern und Zahlen mit Einheitsangaben.

Die Daten des aktuellen Release der TüPP-D/Z entstammen der Wissenschaftsausgabe der taz aus dem Jahr 1999. Sie umfassen den Zeitraum vom 2. September 1986 bis zum 7. Mai 1999 und enthalten 11.512.293 Sätze bzw. 204.425.497 Tokens.

Eine detailliertere Beschreibung der tieferen linguistischen Annotation findet sich im  Stylebook , während die Kodierung der Annotation im Markup Manual beschrieben ist.

Die TüPP-D/Z-Distribution ist in XML kodiert. Konverter zur Ansicht z.B. im geklammerten Vertikalformat liegen dem Korpus bei. 

Wie erhalte ich eine Lizenz für TüPP-D/Z?

 

Die Lizenz ist für die akademische Forschung kostenlos. Für alle anderen Zwecke wenden Sie sich bitte an Erhard Hinrichs.

Ablauf der akademischen Registrierung:

     

  1. Drucken Sie die Lizenzvereinbarung für TüPP-D/Z (PDF) aus.

  2. Kaufen Sie die taz-Archiv-DVD. Diese ist für 50 € im taz-Shop zu erwerben.
    Die taz-Archiv-DVD ist aus Gründen des Urheberrechts notwendig für den Erwerb der TüPP-D/Z.
  3.  
  4. Füllen Sie die Lizenzvereinbarung für die TüPP-D/Z aus und senden Sie sie per Post, Fax oder Scan an tuebadz-infoBitte legen Sie eine Kopie der Lizenz bzw. der Rechnung für die taz-Archiv-DVD bei.
  5.  
  6. Nach erfolgter Bearbeitung senden wir Ihnen ein Passwort für die Download-Webseite zu.

 

Kontakt:

Marie Hinrichs

Eberhard Karls Universität Tübingen
Seminar für Sprachwissenschaft
Wilhelmstr. 19
D-72074 Tübingen
Germany 

Fax: +49 - (0)7071 - 29 5214