Pilotstudie für „Linked Open Research Data“ (LORDpilot)

eine LOD-basierte Concept Registry für sozialwissenschaftliche Forschungsdaten

Bearbeitung: Dr. Dagmar Kern, Dr. Pascal Siegers
Leitung: Dr. Dagmar Kern, Dr. Pascal Siegers
Wissenschaftlicher Arbeitsbereich: Knowledge Technologies for the Social Sciences; Data Services for the Social Sciences

Projektbeschreibung

Die Nachnutzung von Forschungsdaten ist ein wichtiger Bestandteil der Forschungspraxis in den Sozial- und Wirtschaftswissenschaften. Um geeignete Daten zu finden, brauchen Forschende gut funktionierende Suchmöglichkeiten. Eine übergreifende inhaltliche Suche nach Forschungsdaten wird jedoch durch eine uneinheitliche oder fehlende semantische Erschließung der Daten auf Ebene der sozialwissenschaftlichen Konzepte erschwert, weil einzelne Erhebungsprogramme eine jeweils eigene Terminologie nutzen, um ihre Daten zu beschreiben. Forschende können nur mit großem Aufwand relevante oder inhaltlich vergleichbare Daten auffinden. Aus Nutzendensicht behindert die Fragmentierung in der Datendokumentation die Datensuche und schränkt deshalb das Forschungspotential existierender Bestände erheblich ein. Die spezifische Herausforderung für eine Verbesserung der Datensuche ist die konzeptorientierte Erschließung von Forschungsdaten, weil eine semantische Modellbildung für die inhaltliche Erschließung bislang fehlt. Benötigt wird eine Technologie für eine einheitliche, semantische Indexierung der Forschungsdaten. Mit der LORDInfrastruktur soll diese Lücke geschlossen werden. Die zu entwickelnde Concept Registry sozial- und wirtschaftswissenschaftlicher Konzepte wird, den FAIR Prinzipien entsprechend, der Scientific Community für die Datendokumentation bereitgestellt. Das hier beantragte Projekt ‚LORDpilot‘ prüft die Umsetzbarkeit einer solchen Concept Registry für die Sozial- und Wirtschaftswissenschaften. Im Projekt wird ein grundlegendes Datenmodell für die Concept Registry entwickelt. Ausgehend von wichtigen Datenkollektionen (ALLBUS, SOEP, Nacaps) werden exemplarisch sozial- und wirtschaftswissenschaftliche Konzepte identifiziert und über Datenkollektionen hinweg mit anderen Konzepten sowie mit den in den Datenkollektionen enthaltenen Fragen und Variablen verknüpft. Für die technische Umsetzung werden Standards des Semantic Web eingesetzt. Durch die Verknüpfung der Konzepte mit Deskriptoren aus den SKOSkonformen Thesauri „Thesaurus Sozialwissenschaften“ (TheSoz) und „Standard-Thesaurus Wirtschaft“ (STW) wird die Suche in der Konzept-Datenbank unterstützt und das Konzeptvokabular unmittelbar in die Linked Open Data (LOD)-Cloud eingebunden. Zur Erstellung des Datenmodells wird die Modellierungssprache UML (United Modeling Language) verwendet. Die Verknüpfungen werden in Form von sogenannten RDF-Triples erstellt und verwaltet. Die Identifizierung der theoretischen Konzepte, basierend auf dem obengenannten Datenkorpus, erfolgt auf dem Weg der intellektuellen Analyse und des Vergleichs sowie durch Recherche zu Messinstrumenten und datensatzbezogenen Publikationen. Im Fokus stehen dabei zunächst die Variablen und Fragen mit inhaltlicher Überschneidung in den drei Umfrageprogrammen, da sie eine gute Grundlage für die übergreifende Verknüpfung mit Concepts bilden.

Projektlaufzeit

01.10.2021 – 31.10.2022

Gefördert durch

Partner

  • Dr. Andreas Daniel
  • Dr. Jan Goebel