Eins, zwei, drei, ganz viele Ressourcen: Wann ist eine Ressource in der Archivierung eine Einheit?

Details: Erstellt am Dienstag, 09. November 2010 13:15; Geschrieben von Thorsten Trippel

Bei der Entwicklung von Metadaten-Schemas für verschiedene Ressourcentypen tauchen immer wieder neue Fragen auf, manche davon sind auch nicht abschließend lösbar. Z.B. die Frage danach, ob etwas eine Ressource ist oder in Wirklichkeit nicht doch mehrere Ressourcen vorliegen, die getrennt voneinander beschrieben werden müssten.

Einer unserer Versuche zur Erstellung von Metadaten-Schemas bezog sich z.B. darauf, dass wir uns bekannte und verwendete Software ansahen, die wir mit einem "Tool-Profil", also einem Schema zur Beschreibung von linguistischen Software-Werkzeugen, beschreiben wollen. Ein Prototyp für so eine Software ist der TreeTagger des Instituts für Maschinelle Sprachverarbeitung (IMS) in Stuttgart. Die extrem schwierige, nicht eindeutig beantwortbare Frage ist die, was "eine" Ressource überhaupt ist, also ob der TreeTagger eine Ressource oder eine Sammlung von Ressourcen darstellt.

Der TreeTagger ist in der Tat ein spannendes Problem, da er auf der einen Seite aus dem Kernprogramm und auf der anderen Seite aus den sprachabhängigen Parameter-Dateien besteht. Das eine ohne das andere ist nicht wirklich sinnvoll. Gleichzeitig sind Lizenzbedingungen und Autoren etc. von beiden möglicherweise unterschiedlich. Da aber eine gewisse gegenseitige Abhängigkeit besteht - und möglicherweise auch die Beschreibungen sehr ähnlich aussehen - könnte man sagen, dass die Ressource das Kernprogramm mit den Parameterdateien darstellt. Andererseits braucht man eben nur die Parameterdatei für die Sprache, die man gerade untersucht, und kann auf die anderen verzichten. Dann wäre es aber sinnvoll die Parameterdateien als getrennte Ressourcen aufzuführen. In einer Metadatenbeschreibung von Werkzeugen sind daher Systemvoraussetzungen vorgesehen, die eben auch beschreiben können, dass man z.B. das TreeTagger-Kernprogramm haben muss, wenn man das deutsche Paramterfile verwenden will.

Das ist nicht nur bei dem TreeTagger ein Problem, sondern auch bei Korpora, lexikalischen Ressourcen, etc. Z.B. Wenn jemand aus einem Feldforschungskontext ein Korpus erstellt, das auch einige Ausgaben einer Zeitung beinhaltet, dann könnte man auch diese Ausgaben als Zeitungskorpus alleine auffassen: also bestünde "das Korpus" aus mehreren, getrennt voneinander nutzbaren Ressourcen. Aber wenn man z.B. psycholinguistische Lesezeitexperimente macht, möchte man sicher nicht das Vorlesen von den gleichen Sätzen durch 50 Probanden als 50 Korpora auffassen, sondern eher die Audio-Dateien, Annotationen, usw. als Teil von einer Ressource auffassen. Als Mechanismus stehen bei dem CMDI-Komponentenmodell dazu Bundles und Collections zur Verfügung, die es - vereinfacht gesagt - erlauben, beliebige Ressourcen zu einer Ressource zusammenzufassen.

Die Frage, wann eine Ressource dabei als eine Ressource oder als Sammlung mehrerer Ressourcen aufgefasst werden sollte, ist dabei am Ende eine Frage des Geschmacks und des Erstellers der Ressource. Im Prinzip kann man sagen, dass man etwas dann als eine Ressource betrachten sollte, wenn es häufig und fast ausschließlich als Einheit verwendet, gesucht oder weitergegeben wird, und wenn die Beschreibungen der einzelnen Teile fast identisch sind. Wenn die Beschreibungen aber wesentliche Unterscheidungen aufweisen oder etwas in Teilen verteilt oder verwendet wird, dann ist eine Auffassung als mehrere Einheiten sinnvoller. "Fast", "häufig", "wesentlich" weisen dabei auf die Unschärfe hin, die am Ende dazu führt, dass die Zählung nicht eindeutig sein wird.