"Der Wissenschaftsrat empfiehlt den Trägereinrichtungen die umfassende und langfristige Archivierung qualitätsgesicherter und für die jeweilige wissenschaftliche Gemeinschaft langfristig relevanter Daten."
Empfehlung zu Forschungsinfrastrukturen in den Geistes- und Sozialwissenschaften, Wissenschaftsrat, Berlin, 28.01.2011, S.57f.

Standards und Sprachressourcen: Warum?

Wörter wie Standard und Norm führen in vielen Forschungsbereichen zu einer direkten Abwehrreaktion, weil die Arbeit des einzelnen Wissenschaftlers schließlich nicht normal ist, sondern kreativ und damit auch keiner Standardisierung unterliegt. Im Bereich von Sprachressourcen gibt es aber schon lange Initiativen, um dafür zu sorgen, dass bestimmte Standards geschaffen werden. Wenn man sich ansieht, was standardisiert wird, wird dabei aber deutlich, dass Standardisierung die kreative und originelle wissenschaftliche Arbeit unterstützen kann und Normen so zu mehr und besseren Resultaten führen sollen.

Die folgenden Bereiche dienen der Motivation zur Standardisierung von Sprachressourcen:

  • Zusammenarbeit zwischen unterschiedlichen Forschern
  • Reproduzierbarkeit und Nachvollziehbarkeit von empirischen Ergebnissen
  • Langzeitarchivierung
  • Verfügbarkeit von Computerprogrammen und Verfahren
  • Auffindbarkeit von Ressourcen

Zusammenarbeit zwischen unterschiedlichen Forschern

Das Wesen jeglicher Normierungsaktivitäten besteht darin, durch die Festlegung bestimmter Merkmale eine Vergleichbarkeit herzustellen und dafür zu sorgen, dass verschiedene Dinge zusammen verwendet werden können, sodass eine Kollaboration stattfinden kann. Diese Vergleichbarkeit im technischen Bereich bezieht sich dabei auf Form und Beschaffenheit von Materialien und Geräten, aber normalerweise nicht darauf, was man damit macht. So ist die Standardisierung auch bei Sprachressourcen, also Materialien, die in der linguistischen Forschung verwendet werden, darauf ausgerichtet, eine Zusammenarbeit zu ermöglichen und dafür zu sorgen, dass diese Ressourcen von unterschiedlichen Wissenschaftlern auch in verschiedenen Kontexten verwendet werden können. Sie dienen somit dazu, dass sich nicht jeweils zwei Wissenschaftler, die zusammenarbeiten möchten, auf Datenformate und Messverfahren einigen müssen, sondern, dass sie, wenn möglich, eine gemeinsame Grundlage verwenden können.

Die Zusammenarbeit zwischen Wissenschaftlern geht dabei aber noch einen Schritt weiter: Durch definierte Standards können an unterschiedlichen Standorten und Gebieten Forscher zusammenarbeiten. Beispielsweise können kostspielige Annotationen von Korpora verteilt durchgeführt und die Ergebnisse gemeinsam genutzt werden. Auch vergleichende Studien werden so möglich, weil neben der individuellen Einigung auf ein Untersuchungsszenario die Ressourcen sehr ähnlich aufgebaut sind. Kosten sind dabei nicht nur monetär, sondern auch zeitlich zu sehen. Für gesprochene Sprache werden, je nach Detailreichtum der Annotation, für Korpora ein Aufwand zwischen 1:20 und 1:400 (d.h. 1 Minute Sprachaufnahme entspricht zwischen 20 und 400 Minuten Analyse und Nachbearbeitung) gerechnet. Aufwendige Analysen von Schriftsprache erfordern ebenfalls einen erheblichen Zeitaufwand.

Reproduzierbarkeit und Nachvollziehbarkeit von empirischen Ergebnissen

Eine Forderung, die in den Naturwissenschaften schon lange erhoben wird, besagt, dass Versuchsergebnisse festgehalten werden müssen, damit Berechnungen und Schlussfolgerungen überprüft und auf methodische Richtigkeit untersucht werden können. In Debatten zu Plagiarismus und wissenschaftlicher Ethik wird es auch im sprachwissenschaftlichen Bereich immer wichtiger, die Plausibilität von Ergebnissen nachhaltig belegen zu können. Dazu müssen - natürlich unter Einbeziehung eventueller ethischen Erwägungen - die Informationen, die zu bestimmten Schlussfolgerungen geführt haben, erhalten werden. Um dem Einzelnen die vollständige Dokumentation der Ressource zu erleichtern, werden Standards eingesetzt: Was im Standard beschrieben ist, braucht ein Forschender nich aufwendig selbst zu beschreiben.

Langzeitarchivierung

Die Verwendung gemeinsamer Grundlagen für Ressourcen ist für eine langfristige Verwendung besonders wichtig. Da die Erstellung von Ressourcen teuer und langwierig, die behandelten Fragestellungen speziell und kommplex sind, kann die direkte Benutzergruppe zwar überschaubar sein, hat dafür aber eine besonders große zeitliche Ausbreitung. Wenn zum Beispiel 50 Jahre alte Dialektdaten einer Region verwendet werden, dann liegt das manchmal daran, dass es keine moderneren gibt und zwischendurch kein Wissenschaftler neue Daten erstellt hat, erstellen konnte oder an verwandten Fragestellungen gearbeitet hat. Daher ist es eventuell auch gar nicht möglich, solche Ressourcen zwischen zwei Personen direkt auszutauschen. Zur Vermittlung können dann Archive, Bibliotheken und andere Institutionen dienen.

Für diachrone Untersuchungen ist die Langzeitarchivierung naturgemäß notwendig. In der Vergangenheit konnten für sprachgeschichtliche Fragestellungen nur vorhandene schriftliche Quellen herangezogen werden. Die Vergrößerung der Datenbasis und die Erschließung weiterer Ressourcen durch die elektronische Verarbeitung erschließt heute weitere Gebiete. Ebenso wie bei Archiven Standards für die Langlebigkeit von Papier eingeführt wurden, ist für elektronische Daten auch die Frage nach der Langzeiterhaltung zu beantworten.

Archive spielen in der Standardisierung von Ressourcen eine besondere Rolle, da erst eine vereinheitlichte Handhabung von Ressourcen zu einer effektiven Ablage mit der Option des Wiederfindens führen kann. Zwar könnte man sich vorstellen, dass Dateien einfach über die Jahre von einem Server auf den anderen kopiert werden, aber das Kopieren stellt nur einen kleinen Teil der Arbeit dar: Die Ressourcen müssen auch zugänglich bleiben, d.h. man muss sie interpretieren können.

Verfügbarkeit von Computerprogrammen und Verfahren

Die Interpretation von Ressourcen erfolgt in der Zwischenzeit typischerweise mit Hilfe von spezialisierten Computerprogrammen und Verfahren. Dies können generische Programme wie Textverarbeitungssysteme sein, mit deren Hilfe Briefe und Aufsätze erstellt wurden, oder aber speziellere Programme zur linguistischen Annotation oder für lexikalische Ressourcen.

Schon der Blick auf Textverabeitungssysteme zeigt dabei ein nachhaltiges Problem: Neuere Versionen unterstützen oft nicht mehr die Datenformate alter Versionen. Beispielsweise wurde bereits in Microsoft Word 95 in einer Standardinstallation keine Möglichkeit mehr vorgesehen Word 2.0 Daten zu importieren, für ältere Versionen konnte man dies nicht einmal mehr nachinstallieren (siehe Artikel in der Microsoft Knowledge Base: How to Install Missing Word 2.0 Converter and Works Converter). Unabhängig von möglichen Kritikpunkten an dem Datenformat an sich, kann man also feststellen, dass selbst die Verwendung von verbreiteter Software keinen Garant für die Verfügbarkeit darstellt.

Standardisierte Datenformate haben einen großen Vorteil, auch gegenüber Formaten, die Geschäftsgeheimnisse sind: Die Formate sind öffentlich spezifiziert und beschrieben. Selbst in dem Fall, dass keine Programme mehr existieren, können Programmierer solche Ressourcen durch die Beschreibung verstehen, Programme zur Interpretation schreiben und Daten in andere Formate umwandeln. Da der Aufwand je nach Ressourcentyp erheblich sein kann, ist es gerade auch im Hinblick auf die Archivierung notwendig, wenige unterschiedliche Formate zu haben oder zumindest dafür zu sorgen, dass die Datenformate möglichst generisch sind.

Auffindbarkeit von Ressourcen

Verbunden mit der Archivierung und der Interpretation von Ressourcen ist ebenfalls die Auffindbarkeit von Ressourcen. Die strukturierte Ablage von Sprachressourcen ermöglicht dabei nur bis zu einem gewissen Maße ein Auffinden. Wie in Bibliotheken oder auch bei Seiten im World Wide Web werden dafür Suchmaschinen eingesetzt, die Informationen zu Ressourcen sammeln und ein Auffinden ermöglichen.

Beispiele für existierende Progamme, die zum Auffinden von Sprachressourcen geeignet sind, sind etwa das Virtual Language Observatory oder das Archiv der Open Language Archive Community. Diesen spezialisierten Anwendungen ist gemein, dass sie standardisierte Beschreibungen von Ressourcen verwenden, durch die Ressourcen auffindbar werden.

Zusammenfassung

Standardisierung von Sprachressourcen dient der Kooperation, Verifikation, Archivierung und Auffdindbarkeit von Forschungsergebnissen und teuer erstellter Materialien. Mit dem ISO Ausschuss TC 37 SC 4 wurde daher ein Gremium geschaffen, das sich auf die Standardisierung von Sprachressourcen konzentriert, wobei nicht die Forschungsfragestellungen, sondern die Ressourcen selbst gemeint sind.