"Der Wissenschaftsrat begreift die umfassende öffentliche Sammlung und Bereitstellung von Forschungsprimärdaten auch als ein probates Mittel der Qualitätssicherung in der wissenschaftlichen Praxis, welches hilft, wissenschaftlichen Betrug und Plagiate leichter zu identifizieren, da die Herkunft von Forschungsdaten aus Repositorien in jedem Falle offen gelegt und die „Autoren“ der Daten zitiert werden müssen."
Empfehlung zu Forschungsinfrastrukturen in den Geistes- und Sozialwissenschaften, Wissenschaftsrat, Berlin, 28.01.2011, S.59.

CMDI: Metadatenschema für Sprachressourcen

CMDI steht für "Component MetaData Infrastructure" und ermöglicht Benutzern ihre eigenen, aber mit anderen existierenden Metadatenschemas austauschbare Metadateninstanzen zu erstellen.

CMDI bietet folgende Möglichkeiten an:

  • Der Benutzer kann selbst entscheiden welche Metadaten für eine zu beschreibende Ressource benötigt werden und welche Datenkategorien (Elemente) als Repräsentation geeignet sind;
  • Es stehen fertige Komponenten und Profile zur Verfügung;
  • Es ist möglich neue Komponenten und Profile zu erstellen.

Motivation

Traditionell sucht sich der Benutzer aus einer Vielzahl an Metadatenschemas eines aus und ist an dieses ausgewählte Schema gebunden.

Üblicherweise hat ein Matadatenschema folgenden Charakteristiken:

  • eine begrenzte Zahl an Datenkategorien,
  • jede Datenkategorie hat einen Namen,
  • jede Datenkategorie hat eine Bedeutung.

Solche Schemas sind nicht flexibel, denn es ist oft der Fall, dass es trotz der vielen vorhandenen Datenkategorien keine zutreffenden für konkrete Beschreibungsfälle gibt. Traditionelle Metadaten sind auch oft inkompatibel mit anderen Metadatenschemas.

Die Metadaten-Initiativen wie IMDI, OLAC/DC, TEI versuchen einfache Metadatenschemas zu standardisieren, wodurch man erfolgreich Sprachressourcen in Katalogen auffinden kann.

Die Auswahl von Datenkategorien in den Schemas ist allerdings vorgegeben und nicht anpassbar. IMDI, zum Beispiel, ist detallierter als OLAC, was viele Benutzer als zu detailliert empfinden. Gleichzeitig fehlen für bestimmte Ressourcentypen Datenkategorien.

Standard-basiertes CMDI, dagegen, bietet an:

  • Flexibilität
  • Komplette Infrastruktur
  • Kompatibilität mit anderen Schemas (IMDI, OLAC, etc.)

Wie geht das?

Zuerst werden die einzelne Datenkategorien (z.B. Erfassungsdatum), die der Benutzer braucht, gesammelt. Es besteht auch die Möglichkeit eigene Datenkategorien zu erstellen.

Diese Datenkategorien werden dann zu Komponenten gruppiert. Komponenten sind Sets von Datenkategorien (z.B. Komponente "Creator" kann aus Datenkategorien "CreatorName", "CreatorAge", "CreatorRole" bestehen).

Zunächst werden die Komponenten zu einer Klasse von Ressourcen gesammelt und geordnet. Diese Klassen nennen sich Profile (z.B. OLAC-Profil). Profile dienen als Grundlage für die Erstellung von Metadateninstanzen. Eine Metadateninstanz ist die Beschreibung einer Ressource anhand von Metadaten, die in einem Metadateneditor (ARBIL) oder XML-Editor erstellt werden kann (z.B. myresource.cmdi).

CMDI und andere Metadatenschemas

Die Schemas wie IMDI, OLAC, DC und TEI-Header sind als Profile in CMDI eingebaut. Durch Referenz der Datenkategorien auf ISOcat ist auch eine Transformation von CMDI nach DC oder OLAC möglich. Dabei könnten aber manche CMDI-Kategorien verloren gehen.

Vorteile

Im Gegenteil zu anderen Metadatenschemas, ist CMDI an den persönlichen Bedarf der Benutzer angepasst und kann wiederverwendet werden:

  • Anpassung:
    • Kein Tag-Abuse:
      • Auswahl passender Datenkategorien in ISOcat mit der Möglichkeit zur Ergänzung eigener Datenkategorien,
      • Verwendung von Profilen und Komponenten,
      • Anpassung von Komponenten mit eigenen Datenkategorien.
    • Austausch von Metadaten durch Bezugspunkte zu ISOcat.
    • Erfassung aller relevanten und bekannten Metadaten.
  • Verwendbarkeit:
    • Öffnung der Ressourcen für Benutzergruppen
      • Vorsehen der Datenkategorien, die gebraucht werden
      • Durch standardisierte Inhalte auch Suche über verwandte Bezeichnungen möglich
    • Definierte Bedeutung der Kategorien

Mehraufwand von CMDI

  • Kategorien müssen ausgewählt werden.
  • Metadatenschemas müssen bewertet und adaptiert werden.
  • Metadaten müssen ausgefüllt werden.
  • Die in anderen Standards bestehenden Metadaten müssen transformiert werden.