"Forschungsprimärdaten bilden einen wertvollen Fundus an Informationen, die mit hohem finanziellem Aufwand erhoben werden. Je nach Fachgebiet und Methode sind sie replizierbar oder basieren auf nicht wiederholbaren Beobachtungen oder Messungen. In jedem Fall sollten die erhobenen Daten nach Abschluss der Forschungen öffentlich zugänglich und frei verfügbar sein."
Aus: Empfehlungen zur gesicherten Aufbewahrung und Bereitstellung digitaler Forschungsprimärdaten, DFG: Ausschuss für Wissenschaftliche Bibliotheken und Informationssysteme, Unterausschuss für Informationsmanagement, S. 2, Januar 2009.

Katalog für Sprachressourcen in der Entwicklungsversion

Die Klassifikation von Ressourcen spiegelt sich in Suchfunktionen wieder, die auf Strukturen aufbauen, die in Ressourcenbeschreibungen – Metadaten – verzeichnet sind. Auf diese Weise kann man eine Suche nach Ressourcen z.B. nach Modalität, Sprache oder Genre einschränken. In Abhängigkeit von den gewählten Einschränkungen können auch neue Strukturen erscheinen. So sind Annotationsschemata für viele Ressourcentypen nicht relevant, jedoch aber für Korpora zur weiteren Einschränkung des Suchraumes.

Im NaLiDa-Projekt wurde eine Katalog-Applikation, ein Faceted Browser, entwickelt. Der Katalog enthielt Testdatenbestände; sie enthielten allerdings echte Daten und konnten entsprechend verwendet werden.

In der 2. Förderphase haben wir uns dazu entschieden, die aktive Weiterentwicklung des Faceted Browsers einzustellen. Die Tübinger Metadatenbestände werden regelmäßig vom Virtual Language Observatory des CLARIN Projektes ge-harvest-ed.

Willkommen beim Zentrum für Nachhaltigkeit Linguistischer Daten

Willkommen beim Zentrum für Nachhaltigkeit Linguistischer Daten (NaLiDa)

Sprachressourcen wie Korpora, Lexika, Grammatiken, Experimentaldaten oder Computerprogramme werden in der linguistischen Forschung immer wichtiger. Jedoch ist ihre Erstellung häufig sehr komplex, Informationen gehen auf lange Sicht verloren oder können nicht mehr verarbeitet werden. Das NaLiDa-Projekt am Seminar für Sprachwissenschaft (SfS) der Eberhard Karls Universität Tübingen beschäftigt sich damit, wie derartige Daten langfristig für Forschungsfragestellungen bereit gehalten werden können.

Im Fokus stehen dabei folgende Aspekte:

  • Sammeln von Ressourcen
  • Erfassen von Daten
  • Zugang zu den Daten
  • Rechtliche und ethische Aspekte der Langzeitarchivierung
  • Standards für Sprachressourcen
  • Beratung zu allen Aspekten der Datenhaltung digitaler Texte
  • Erstellung eines Migrationskonzepts zur Übergabe der Forschungsdaten aus dem fach-spezischen Repositorium in ein fach-übergreifendes Repositorium; Verbringen der Daten aus der Linguistik in die Infrastruktureinrichtung der Universität (innerhalb der 2. Förderphase).

Dokumentation

Wissenschaftler können vom NaLiDa-Zentrum Hilfestellung bei der Erstellung von Beschreibungen (Metadaten) für ihre Ressourcen und der Archivierung erhalten. So können sich Forscher ganz auf ihre Daten konzentrieren.

Katalog

Das Archiveren und Publizieren von Forschungsprimärdaten erfordert auch, dass man die Daten finden kann. Dazu dienen Kataloge, die auf Beschreibungen in Form von Metadaten beruhen und die öffentlich zugänglich sind.

Portal

Der Einstieg zu Sprachressourcen, die Beschreibung von gängigen Verfahren und die Sammlung von aktuellen Informationen stellen neben der Vernetzung von Ressourcenerstellern die grundlegenden Funktionen dieses Portals dar.