A Framework for Finding, Linking, and Enriching Social Science Linked Data (ScienceLinker)



Projektbeschreibung

Wissenschaftler in der angewandten empirischen Forschung suchen regelmäßig nach Datensätzen, bzw. nach Datenpunkten darin (z. B. Variablen im Fall der sozialwissenschaftlichen Forschung), welche es ihnen ermöglichen, ihr spezifisches Forschungsinteresse zu untersuchen. Diese Datensätze werden für verschiedene Zwecke verwendet, z. B. zum Beantworten einer bestimmten Forschungsfrage, zum Replizieren von Forschungsergebnissen auf der Grundlage neuer Daten oder zum Zusammenführen mit einem weiteren (gegebenen) Datensatz, um die Analysemöglichkeiten zu erhöhen oder fehlende Werte zu verringern. Geeignete Daten zur Unterstützung der eigenen Hypothese zu finden, ist jedoch eine herausfordernde Aufgabe. Darüber hinaus existieren praktisch keine Frameworks, die es erlauben auf Basis vorhandener Daten, neue zu identifizieren.

Häufig kann ein Forscher die gewünschten Daten in einem Forschungsdatenzentrum finden. Allerdings sind in Anbetracht der im Internet verfügbaren Datenmenge (die sich aus der Open Data-Bewegung ergibt) weit mehr interessante Datensätze verfügbar.  Diese werden jedoch nicht immer von organisierten Infrastrukturen wie Forschungsdatenzentren bereitgestellt. Im Übrigen müssen weitere Anstrengungen unternommen werden, um die gefundenen Datensätze verwenden zu können: Etwa für die Verknüpfung; um eigene Datensätze mit zusätzlichen Inhalten aus gefundenen (Meta-) Daten anzureichern; oder aber um die Daten im Kontext einer wiss. Veröffentlichungen in einer Zeitschrift, einer Selbstarchivierungsplattform oder im Web nachnutzbar zu machen.

Das Projekt „ScienceLinker“ motiviert zwei Ansätze für diese Herausforderungen: (1) Die Entwicklung von Methoden, um im Semantic Web inhaltlich und qualitativ kompatible Datensätze zu identifizieren; (2) Die Anwendung von Semantic Web-Technologien zur Verwendung der Daten, z.B. zur Verlinkung, Anreicherung und Veröffentlichung. Diese Techniken werden für domänenfremde Benutzer nutzbar gemacht, indem wann immer möglich Automatisierung angewendet wird. Das entwickelte Framework führt den Benutzer durch die folgenden fünf Schritte: (1) die automatische Identifizierung einer Reihe verwandter Datensätze, welche als Linked Open Data veröffentlicht wurden; (2) die Bewertung eines Datensatzes im Hinblick auf Kompatibilität und Qualität; (3) die Verknüpfung von Entitäten, aus dem gegebenen Datensatz, mit den identifizierten Datensätzen; (4) die Anreicherung des Datensatzes durch Anwendung entitätstypspezifischer Regeln, um zusätzliche Informationen über die Entitäten auch über nicht identitätsbezogene Links abzuleiten; und (5) die Aufbereitung des angereicherten Datensatzes für eine Veröffentlichung in selbstarchivierenden Plattformen, als Linked Data oder über weitere Veröffentlichungswege.

Die Untersuchungen und Entwicklungen in diesem Projekt werden in Bezug auf die Domäne generisch gehalten, um eine Anwendung des Frameworks in anderen Bereichen zu ermöglichen. Für die Sozialwissenschaften müssen potenziell verknüpfbare Datenquellen weder wissenschaftlich noch sozialwissenschaftlich sein, wie z.B. DBpedia oder Geonames. Gleichfalls werden wir, damit das ScienceLinker-Framework auch in einer neutralen Umgebung ausgeführt werden kann, es in die am ISI entwickelte etablierte Datenintegrationsplattform Karma integrieren.



Projektlaufzeit

2019-10-01 – 2023-08-31

Förderung



Deutsche Forschungsgemeinschaft