"Primärdaten als Grundlagen für Veröffentlichungen sollen auf haltbaren und gesicherten Trägern in der Institution, wo sie entstanden sind, für zehn Jahre aufbewahrt werden."
Empfehlungen zur gesicherten Aufbewahrung und Bereitstellung digitaler Forschungsprimärdaten, DFG: Ausschuss für Wissenschaftliche Bibliotheken und Informationssysteme, Unterausschuss für Informationsmanagement, S. 2, Januar 2009.

Ich höre immer Metadaten...

Wenn man sich mit der Beschreibung von Materialien und deren Archivierung beschäftigt, kommt es häufig vor, dass einem das Wort Metadaten begegnet. Und obwohl der Begriff verhältnismäßig oft unscharf definiert wird, gibt es bestimmte Intuitionen, was er denn umfasst. So ist klar, dass man unter Metadaten für ein Buch unter anderem alles das versteht, was man in einer Bibliographie finden würde: Autorenname, Erscheinungsdatum, Verlag, Seitenzahl, ISBN, etc.

Wenn man das Feld der Bücher und Printmedien verlässt, aber immer noch im Hinterkopf behält, was dort unter Metadaten beispielhaft verstanden wird, nähert man sich einer allgemeineren Beschreibung an. In der Literatur hört man dazu häufig die Definition: "Metadaten, das sind Daten über Daten." Dies ist so abstrakt, dass es fast nach einer Tautologie aussieht, nicht nach einer Definition.

Daten sind in diesem Kontext alle Arten von Materialien, heute gewöhnlich in einem elektronischen Format, also Dateien oder zusammengehörige Dateien, Datenbanken, Lexika, Grammatiken, Korpora, etc., jeweils in elektronischer Form. Metadaten sind dann Beschreibungen dieser Materialien, die entweder zum Auffinden und Archivieren der Materialien verwendet werden oder die die Funktionalität der Materialien innerhalb von Computerprogrammen sicherstellen. Zum Beispiel könnte man aus menschlicher Sicht die Bestimmung von Schriftarten in einer Textdatei zu dieser letzten Art der Metadaten zählen, das Erstellungsdatum oder den Ersteller (also der Autor oder derjenige, der das Material speichert) zu ersterem Typ der Metadaten. Andere Daten werden in diesem Zusammenhang als Objektdaten bezeichnet, also die Daten, die die inhaltlich relevanten Informationen beinhalten.

Die Unterscheidung zwischen Daten und Metadaten ist dabei nicht immer ganz einfach. Viele Metadaten sind für andere Verwendungszwecke die Daten. Zum Beispiel ist für einen Lexikographen ein Lexikon oder die dazu gehörige Datei auf einem Computer sicherlich "die Daten", während eine Computeranwendung möglicherweise diese Daten verwendet, um etwas damit zu tun, z.B. eine Rechtschreibhilfe, die ein Lexikon verwendet, um Schreibfehler zu finden. In diesem Fall wäre das Lexikon also eher als Metadaten zu interpretieren.

Aus der Benutzersicht kann man daher informell Metadaten vielleicht wie folgt definieren: "Metadaten sind Informationen über Material mit dem ich arbeite. Diese Informationen sind für mich im Moment nicht wichtig und vielleicht interessiert sich niemand jemals für diese Informationen. Aber wenn jemand so etwas ähnliches sucht, braucht er diese Informationen." Darin, dass die Metadaten im Moment nicht wichtig sind, liegt das zentrale Problem bei der Bearbeitung von Metadaten: für den Ersteller der Materialien, der Daten, erscheinen sie nicht relevant. Man braucht sie nicht primär als Ersteller von Daten, sondern als Nutzer.

Wenn man in eine Bibliothek geht, um ein Buch zu lesen, weiß man normalerweise ungefähr, was man sucht: man kennt den Autor, den Verlag, den Titel, wenn man ein bekanntes Buch sucht. Man lernt Bücher und Artikel dabei über Literaturverweise kennen und kann dann gezielt danach suchen. Wenn man keine Verweise hat, kennt man zumindest das Fachgebiet. Für den Autor des Buches waren diese Informationen normalerweise von vornherein klar, es gab für ihn keinen Grund sie zu erfassen. Für das Katalogisieren in der Bibliothek, also für den Bibliothekar und den Benutzer des Bibliothekskatalogs, sind diese Informationen aber unerlässlich, um das Buch einzuordnen und später zu finden. Genauso verhält es sich mit Metadaten für andere Materialien. Wenn man später auf dieses Material nochmals zugreifen oder es anderen zur Verfügung stellen möchte, benötigt man unbedingt diese Informationen. Entweder man erstellt diese Informationen im Nachhinein neu, oder man erfasst diese Informationen als Autor bei der Erstellung. Letzteres ist schneller und weniger fehleranfällig. Ersteres ist das, was häufig "passiert."

Bei Sprachressourcen ist die Beschreibung dabei noch ein wenig komplizierter, da man zwischen Primärdaten (z.B. einem Buch) und Sekundärdaten (also dem, was eine Analyse daraus gemacht hat) unterscheidet. Wenn wir etwa einen Text als Sprachressource auffassen, ist der Inhalt nur sekundär wichtig, platt gesagt: wenn wir uns mit einem bestimmten grammatikalischen Phänomen beschäftigen, ist es uns egal, ob wir ein Kochrezept oder einen Roman vor uns haben, der dieses Phänomen enthält, Hauptsache wir haben die gesuchte Konstruktion. Nun wissen wir ziemlich gut, wie wir Rezepte und Romane unterscheiden, aber wie finden wir eine Wortart-ausgezeichnete Quelle oder einen Dialog, der für eine Diskursanalyse benutzt wurde?

Wenn man den Autor und Titel kennt, ist es "einfach", eine Ressource zu finden. Eigentlich ist es nicht einfach, weil Ressourcen nicht zentral vorgehalten werden und man immer den Ersteller oder Besitzer wie auch immer ansprechen muss. Wenn einem aber Autor und Titel fehlen, kommen man da nicht dran, es sei denn, irgendwo steht "Dies ist eine Diskursanalyse von einem Dialog mit zwei Beteiligten". Um aber diese Aussage auffindbar zu machen, also für ein Computersystem zugänglich zu machen, muss das auf definierte Weise gespeichert werden.

Ohne dazugehörige Beschreibungen sind Daten oder allgemeiner Materialien nicht weiterbenutzbar und in der Folge wertlos, wenn auch möglicherweise teuer in der Erstellung. Daher ist es unbedingt notwendig solche Beschreibungen herzustellen. Das geschieht sinnvollerweise unter Verwendung von bestehenden Beschreibungsmustern, sogenannter Metadaten-Standards oder -Schemas. Dazu gehören Dublin Core (aus dem Bibliothekswesen), OLAC (aus dem Bereich der Sprachressourcen), TEI (aus dem Archivbereich) und andere. Die wichtigste aktuelle Entwicklung für Sprachressourcen stellt dabei CMDI dar, eine komponentenbasierte Metadatenbeschreibung, d.h., dass man flexibel alle vorhandenen Informationen über Daten sammeln und ablegen kann, was weit über bibliographische Möglichkeiten hinaus geht. CMDI und Metadatenstandards sind so entscheidend, dass andere Artikel detailiert darauf Bezug nehmen. Dies trifft auch auf die Beschreibungs-Kategorien zu, die als internationaler Standard mit einem öffentlichen Verzeichnis bedacht wurden, dem Data Category Registry.

Zusammenfassend lässt sich sagen: wer Materialien erstellt, sollte auf jedem Fall Beschreibungen seiner Daten anlegen. Diese Metadaten können dazu verwendet werden, die Informationen im Nachhinein aufzufinden, auszuwerten, zu archivieren und weiter zu geben. Daten ohne Metadaten sind für den Ersteller interessant, für den Rest der Welt aber im Wesentlichen wertlos. Um den Wert zu steigern, sollten etablierte Metadatenstandards, etwa CMDI für linguistische Daten, eingesetzt werden.