Hierarchien für ISOcat Datenkategorien

Im Bereich der Linguistik entsteht derzeit eine metadatenbasierte Infrastruktur zur Beschreibung von Forschungsdaten und -werkzeugen. Im Zentrum dieser Verfahren steht ein Verzeichnis von Datenkategorien, ISOcat, das unter ISOcat.org zugänglich ist. Diese Kollaborationsplattform beinhaltet Datenkategorien (Felddeskriptoren), die normiert werden sollen. Die Beschreibungen enthalten dabei natürlichsprachige Definition, wobei der glossarartige Aufbau es manchmal für Benutzer schwer macht, sich eine Übersicht über den Inhalt des Verzeichnisses zu verschaffen oder den Inhalt zu verarbeiten - nicht zuletzt, da explizite Querverweise rar sind und von vielen unterschiedlichen Autoren in der Zwischenzeit bereits einige hundert Datenkategorien definiert wurden.

An dieser Stelle nehmen wir eine große Teilmenge der Datenkategorien und erstellen eine baumartige Hiearchisierung, wobei wir schema.org als Anregung verwenden. Durch diese Art, eine Ontologie zu erstellen, entsteht eine Hierarchie linguistischer Metadaten und Terminologie. Diese neue Repräsentation führt dabei zu einer größeren Genauigkeit der Definitionen, da Informationen explizit ausgedrückt werden, die in ISOcat nur implizit vorhanden sind. Hierdurch werden auch Inkonsitenzen deutlich, sowie Lücken und Übeschneidungen.

Die hierarchische Repräsentation wird als komplementär zum bestehenden ISOcat-Modell gesehen. Dadurch erhalten Autoren und Benutzer beim Durchsuchen, Verwenden und Verwalten des Datenkategorie-Inventars zusätzliche Unterstützung.

Die Menge der Datenkategorien wurde der Thematic Domain Group Metadata im ISOcat-Verzeichnis entnommen. Diese Momentaufnahme wird durch die RDF Darstellung abgebildet (automatisch im Dez. 2011 erzeugt) und stellt die TDG Metadaten-Einträge flach dar, wobei jeder Eintrag durch seinen eindeutigen Namen, Identifikator und seine Definition angegeben wird. Weitere Informationen, insbesondere zur Struktur, sind nicht enthalten.

Die folgenden Dateien sind manuell erstellte hierarchische Repräsentation vieler dieser Datenkategorien:

Diese Dateien werden laufend weiter bearbeitet.