"Der Wissenschaftsrat fordert insbesondere die Forschungsförderer auf, Anreize zu schaffen, um qualitativ hochwertige Daten zu archivieren und langfristig zu sichern. Zu diesem Zweck sollten Referenz- und entsprechende Zitationsmöglichkeiten für Datensätze aufgebaut werden. Persistent Identifier (PID) bzw. Digital Object Identifier (DOI) erlauben eine eindeutige Identifizierung und Zitierbarkeit digital hinterlegter Daten selbst dann, wenn sie ihre Speicherorte (in der Regel referenziert über den Uniform Resource Locator, URL) wechseln."
Empfehlung zu Forschungsinfrastrukturen in den Geistes und Sozialwissenschaften, Wissenschaftsrat, Berlin, 28.01.2011, S.58

Wozu dient die CLARIN Component Registry?

Das komponentenbasierte Metadatenschema CMDI (Component Metadata Infrastructure) zeichnet sich dadurch aus, dass ein Nutzer individuell durch die Auswahl oder Erstellung geeigneter Datenkategorien, Komponenten und Profile passende Metadateninstanzen für seine eigenen Bedürfnisse erstellen kann. Um solche bereits existierenden Komponenten und Profile wiederverwenden zu können, wird auf ein Verzeichnis zurückgegriffen, das – ähnlich wie das für Datenkategorien vorhandene Verzeichnis ISOcat - Komponenten und Profile in CMDI verwaltet: die CLARIN Component Registry.

Einerseits bietet die Component Registry die Möglichkeit, vorhandene Profile und Komponenten einzusehen und für eigene Metadateninstanzen zu verwenden. Dabei ist die Kompatibilität von CMDI mit anderen Metadatenschemas (Dublin Core, IMDI, OLAC, TEI, etc.) stets gewährleistet, da in der Registry auch Profile und Komponenten existieren, die in CMDI an diese Schemas angepasst sind. Solche Profile/Komponenten lassen sich durch ihre Benennung erkennen, wie z.B. das CMDI-Profil component olac, das mit OLAC-Metadateninstanzen kompatibel ist, oder die Komponente component-dc-title für die Datenkategorie title in Dublin Core.

In der Component Registry, in der der Nutzer zwischen einer reinen Textansicht und der Darstellung in XML wählen kann, enthalten die Profile und Komponenten:

  • den Namen des Profils/der Komponente/der Datenkategorie (in der Component Registry als Element bezeichnet),
  • eine Beschreibung des Profils/der Komponente,
  • für Profile eine Auflistung der verwendbaren Komponenten,
  • Angaben über die Anzahl des Vorkommens von Komponenten und Datenkategorien,
  • Angaben zum Datentyp einer Datenkategorie (z.B. String, ein festgelegter Datentyp wie URI, kontrolliertes Vokabular),
  • Links, die für Datenkategorien auf ISOcat verweisen und für Profile/Komponenten auf die Component Registry.

Trotz der Freiheiten in Hinblick auf die flexible komponentenbasierte Erstellung von Metadateninstanzen bietet CMDI Verfahren an, um Standardisierungen ermöglichen zu können. Dazu zählt beispielsweise bei Datenkategorien die Angabe von Links auf das Verzeichnis ISOcat. In diesem besitzt jede Datenkategorie einen Persistent Identifier, sodass auch im Falle unterschiedlicher Benennungen einer Datenkategorie in verschiedenen Metadateninstanzen diese immer noch durch die Angabe des Persistent Identifiers auf dieselbe Datenkategorie verweisen. Ebenso wird für Standardisierungszwecke in der Component Registry kontrolliertes Vokabular in Form einer Picklist dargestellt, damit der Nutzer den entsprechenden Wert für ein Element direkt aus dieser Liste auswählen kann.

Andererseits ist es neben der einfachen Einsicht von Profilen und Komponenten auch möglich, Profile und Komponenten in der Component Registry zu editieren und eigene zu importieren. Dies kann auf zwei unterschiedlichen Ebenen geschehen: auf der privaten und auf der öffentlichen Ebene. Erstere wird in der Component Registry als Work Space bezeichnet, letztere als Public Space. Es ist empfehlenswert, selbst erstellte Profile/Komponenten zunächst als privat festzulegen, bevor man sie publik macht, da spätere Änderungen bei einem schon veröffentlichten Profil nicht mehr möglich sind und wieder ein neues Profil angelegt werden muss.

Für Nutzer, die ihre Metadateninstanzen nicht per Hand erstellen, sondern als CMDI unterstützenden Editor Arbil benutzen, wird die Nutzung der Component Registry noch weiter vereinfacht: Arbil ist mit der Component Registry synchronisiert und integriert daher alle dort auch verfügbaren Profile und Komponenten.

Zugang zur Component Registry, für die eine Registrierung erforderlich ist, erhält man unter http://www.clarin.eu/cmdi. Dort ist ebenfalls ein Link zu Arbil angegeben.

Auf den NaLiDa-Webseiten findet sich außerdem ein Tutorial zur CLARIN Component Registry.