"Forschungsprimärdaten bilden einen wertvollen Fundus an Informationen, die mit hohem finanziellem Aufwand erhoben werden. Je nach Fachgebiet und Methode sind sie replizierbar oder basieren auf nicht wiederholbaren Beobachtungen oder Messungen. In jedem Fall sollten die erhobenen Daten nach Abschluss der Forschungen öffentlich zugänglich und frei verfügbar sein."
Aus: Empfehlungen zur gesicherten Aufbewahrung und Bereitstellung digitaler Forschungsprimärdaten, DFG: Ausschuss für Wissenschaftliche Bibliotheken und Informationssysteme, Unterausschuss für Informationsmanagement, S. 2, Januar 2009.

Dinge beim Namen nennen

Wie die Bibliothekswissenschaft das Namensproblem gelöst hat.

Im September 2010 hatte meine Kollegin Eva Maisel über die Namensvielfalt der deutschen Hochschullandschaft und die sich ergebenden Probleme bei der Metadatenerstellung und der Metadaten-basierten Suche berichtet (siehe Artikel zur Namensvielfalt der deutschen Hochschullandschaft). Das Problem beschränkt sich natürlich nicht nur auf akademische Institutionen, sondern besteht für beliebige Körperschaften und juristische wie auch natürliche Personen, die Ressourcen erstellen und auf welche in möglichst eindeutiger Weise referenziert werden soll.

Die deutsche Nationalbibliothek mit Sitz in Frankfurt und Leipzig ist die zentrale Archivbibliothek und das nationalbibliografische Zentrum der Bundesrepublik Deutschland. Sie hat den Auftrag (siehe Überblick bei der DNB), "lückenlos alle deutschen und deutschsprachigen Publikationen ab 1913, im Ausland erscheinende Germanica und Übersetzungen deutschsprachiger Werke sowie die zwischen 1933 und 1945 erschienenen Werke deutschsprachiger Emigranten zu sammeln, dauerhaft zu archivieren, umfassend zu dokumentieren und bibliografisch zu verzeichnen sowie der Öffentlichkeit zur Verfügung zu stellen."

Durchatmen.

Alle Publikationen mit oben genannten Kriterien ab 1913, das sind laut oben zitierter Webseite über 25 Millionen Ressourcen, sollen adäquat mit Metadaten beschrieben und zugänglich gemacht werden. Und wie können sich Namen innerhalb von 100 Jahren ändern, man denke an das deutsche Staatengebilde! So war die staatsrechtliche Bezeichnung Deutschlands zwischen 1871-1945 "Deutsches Reich"; in der Zeit von 1871-1918 "Deutsches Kaiserreich", und in der Zeit 1919-1933 "Weimarer Republik", von 1933-1945 "Drittes Reich"; zwischen 1945-1949 zerfiel Deutschland in 4 Besatzungszonen, und zwischen 1949-1990 gab es zwei Deutschlands mit vielen Bezeichnungen, z.B. "Bundesrepublik Deutschland", "BRD", "Deutsche Demokratische Republik", "DDR", "Westdeutschland", "Ostdeutschland", "Sowjetische Besatzungszone", und "SBZ".

Die Namensvielfalt trift natürlich im viel stärkeren Ausmaß für Körperschaften und Personen zu. Ihre Namen ändernden sich ebenso mit der Zeit, und werden das auch in Zukunft tun. So hieß die Stadt "Chemnitz" zwischen 1953-1990 "Karl-Marx-Stadt", und die Universität Leipzig ein Jahr länger "Karl-Marx-Universität Leipzig". Die heutige "Universität Kassel" wurde als "Gesamthochschule Kassel" 1970 gegründet, hieß seit 1993 "Universität Gesamthochschule Kassel" und seit 2003 erhielt sie ihren heutigen Namen.

Körperschaften sind zudem strukturelle Gebilde; so besteht eine Universität aus Fakultäten, Fachbereichen, Institutionen, Lehrstühlen und anderen Gebilden, deren Existenz und Benennung naturgemäß Änderungen unterworfen sind. So wurde die "Sektion Marxismus-Leninismus" an der Universität Leipzig zuerst umbenannt ("Sektion Gesellschaftstheorien"), nur um dann schließlich gänzlich aufgelöst zu werden. Die "Technische Fakultät" der über 250 Jahre alten "Friedrich-Alexander Universität Erlangen-Nürnberg" gibt es erst seit 1966; ihr fünftes Institut (das Institut für Fertigungstechnik) erhielt die Fakultät 1982; seit dem Jahr 2000 heißt das "Institut für Mathematische Maschinen und Datenverarbeitung" nun "Institut für Informatik"; und im Jahr 2007 wurden alle fünf "Institute" der Fakultät in "Departments" unbenannt.

Ich schreibe das in dieser Ausführlichkeit, um die Dynamik dieser Benennungsprozesse und damit die einhergehende Problematik der Metadaten-basierten Beschreibung und Suche von Ressourcen dieser Körperschaften deutlich zu machen. Was das Projekt NaLiDa im kleinen Rahmen für deutschsprachige sprachwissenschaftliche Ressourcen versucht, praktiziert die Deutsche Nationalbibliothek (im nachfolgenden DNB) im Großen für alle deutschen und deutschsprachigen Ressourcen. Und die DNB hat auch einen gelungenen Lösungsansatz, die "Gemeinsame Körperschaftsdatei (GKD)".

Die GKD ist eine deutschsprachige Normdatei zur Ansetzung von Namen von Körperschaften (siehe GKD Normdatei Informationen); sie weist "Körperschaften (z.B. Institutionen, Gesellschaften, Gemeinden, Staaten, Behörden und dergleichen) in der für Bibliothekskataloge und bibliographische Datenbanken einheitlich zu verwendenden Form einschließlich aller vorkommenden Varianten nach.", wird ständig aktualisiert, und hat zur Zeit 1.3 Mio Körperschaften verzeichnet.

So ist die oben genannte "Sektion Marxismus-Leninismus" mit dem persistenten Identifikator http://d-nb.info/gnd/2107288-7 versehen; als Nachfolger gilt die "Sektion Gesellschaftstheorien", und als übergeordnete Organisation die "Universität Leipzig". Hier wurde also der aktuell präferierte Name angegeben, nicht der damals gültige Name "Karl-Marx-Universität Leipzig". Die Universität Leipzig ist jedoch über den Identifikator http://d-nb.info/gnd/2024343-1 beschrieben, unter dem sich über ein Duzend Namensvarianten finden, darunter auch der offizielle Name von 1953-1991.

Auch sind einige Lehrstühle der Erlanger Informatik in der GKD vertreten, nämlich solche, die Publikationen unter ihrem Lehrstuhl und nicht über das übergeordnete Institut für Informatik haben. Die oben geschilderte Kurzgeschichte der Erlanger Informatik findet übrigens in dem GKD Datensatz http://d-nb.info/gnd/10014915-7 ihre Entsprechung.

Es ist klar, dass das NaliDa Projekt die Normdatendatei für ihre Zwecke nutzen wird. Wenn ein Metadatensatz eine Körperschaft nennt, wird diese Nennung, falls möglich, auf den entsprechenden persistenten Identifikator der DNB abgebildet. Hierbei können aufgrund der Reichhaltigkeit der Daten häufig mehrere Verlinkungen entstehen. So enthält die Metadatenbeschreibung über das deutsche WordNet, "GermaNet", mehrere Nennungen von "Seminar für Sprachwissenschaft" (z.B. als Adressbestandteil) und "Universität Tübingen" (z.B. als LegalOwner). Hier können wir Links zu dem Seminar sowie zu der übergeordneten Organisation aufbauen.

Die Verwendung der Normdatendatei für Körperschaften bietet eine Reihe von Vorteilen. Zunächst erhöht es die Qualität des NaLiDa-Metadatenbestands, wenn er mit Links zur Normdatei angereichert wird. Zudem entsteht aber auch ein potentieller Nutzen für den Nutzer, sobald eine Volltextsuche nach Organisationsnamen durch eine durch die Normdatei möglich gemachte semantische Suche komplementiert wird. So soll der Nutzer in Zukunft Treffer auf die Suche "Eberhard Karls Universität" erhalten, auch wenn in den ursprünglichen Metadatenbeständen eine solche Nennung nur implizit als "Universität Tübingen" enthalten ist. Hier können also die varianten Namen der Normdatendatei zur verbesserten Suche nach Metadaten direkt ausgenutzt werden.

Ein weiterer Nutzen ist natürlich die zukünftige Metadatenerstellung. So könnten Metadateneditoren einen komfortablen Zugriff auf die Datenbestände der DNB haben. Sobald der Ersteller eines Metadatums eine Körperschaft eingibt, könnte eine DNB-Anbindung den der Körperschaft entsprechenden persistenten Identifikator zurückliefern, und damit den präferierten Namen der Körperschaft und ihre offiziellen varianten Schreibweisen.

P.S.
Ein ähnliches Vorgehen könnte man übrigens für die in den Metadatensätzen vorkommenden Personennamen vornehmen, dies unter Verwendung der Personennormdatei (PND) mit rund 3.6 Mio Namen. Da die DNB ebenso alle in Deutschland zugelassenen Dissertationen archiviert, sollte die PND die entsprechenden Autorennamen enthalten sodass im Regelfall ein Mapping zumindest einer Person einer Ressource zur PND möglich sein sollte.

P.P.S.
Die Schlagwortnormdatei (SWD) stellt einen normierten, terminologisch kontrollierten Wortschatz dar und ist im Web unter http://melvil.d-nb.de/swd erreichbar. Eine Suche nach Linguistik liefert interessantes Material zur Verschlagwortung von Ressourcen, dürfte aber zur Beschreibung von linguistischen Ressourcen nicht fein genug sein.