UnknownData

Mining and Consolidating Research Dataset Metadata on the Web

Leitung: Prof. Dr. Stefan Dietze, Dr. Brigitte Mathiak, Prof. Dr. Alexia Katsanidou
Wissenschaftlicher Arbeitsbereich: Knowledge Technologies for the Social Sciences (KTS)

Projektbeschreibung

Forschungsdaten sind unerlässlich für die Wissenschaft, allerdings sind viele Datensätze versteckt auf Webseiten und in kleinen Repositorien oder wegen unzureichender Metadaten schwer zu finden. Nur ein Bruchteil der Forschenden stellt pro-aktiv Datensatzmetadaten in öffentlichen Portalen zur Verfügung und deren Kuratierung ist kostspielig. Unknown Data schafft eine Infrastruktur, um Metadaten über Forschungsdaten, die im Web oder in Publikationen verborgen sind, automatisch zu entdecken, zu extrahieren und zur Verfügung zu stellen. Ziel ist, die Auffindbarkeit und Nachnutzbarkeit von Forschungsdaten zu erhöhen, indem (a) die Metadatenqualität verbessert wird, insbesondere zur Provenienz und Nachnutzung der Daten, und (b) Datensätze sichtbar gemacht werden, die noch nicht in öffentlichen Repositorien auffindbar sind.

Wir (1) nutzen Zitationen aus wissenschaftlichen Aufsätzen und Webseiten, um Metadaten zu Datensätzen zu finden, (2) entdecken Datensätze und ihren Kontext durch Crawling von relevanten Webseiten, (3) konsolidieren Metadaten durch Verknüpfung mit Informationen aus domänenspezifischen Datenbanken, (4) sichern Metadatenqualität durch Etablierung eines disziplinspezifischen Kurationsprozesses und (5) sichern Langzeitverfügbarkeit der Originalquellen durch Archivierung relevanter Webseiten. Die Gewinnung von Metadaten über Forschungsdaten aus Webseiten und Publikationen ist ein neuartiger Ansatz, der die Sichtbarkeit von “Long Tail”-Datensätzen erhöht und gleichzeitig entscheidende Erkenntnisse über die tatsächliche Nutzung und Wirkung von (bekannten) Forschungsdaten liefert.

Von den Projektergebnissen profitieren zwei Disziplinen, die Informatik und die Sozialwissenschaften, durch Use-Case-Piloten. Die DBLP-Bibliographie und die GESIS-Portale gehören zu den angesehensten und am weitesten verbreiteten Metadatensammlungen in ihren jeweiligen Fachgebieten. Beide werden von vielen anderen Suchmaschinen wie Google Dataset Search und CESSDA genutzt. Durch Unknown Data wird die Effektivität und Effizienz von Forschenden bei der Suche nach Daten erheblich verbessert, indem (1) zum ersten Mal in der Informatik eine zentrale und umfassende Sammlung von Metadaten über Forschungsdaten geschaffen wird und (2) die Qualität und Quantität von Datensatzmetadaten in den Sozialwissenschaften grundlegend verbessert wird.

Datensatzzitate, die aus Webseiten oder Publikationen extrahiert werden, ermöglichen eine Abschätzung des Impact von Datensätzen – ein entscheidendes Merkmal für die Beurteilung ihrer Nützlichkeit und Wiederverwendung.

Alle gesammelten Metadaten werden dauerhaft als Linked Open Data und über REST-APIs öffentlich zugänglich gemacht, um Forschungsdaten sowohl für Forschende als auch für Maschinen auffindbar, zugänglich, interoperabel und wiederverwendbar zu machen (gemäß den FAIR Data Principles). Jegliche Software wird als Open-Source zur Verfügung gestellt und die entwickelten Verfahren können an weitere Disziplinen angepasst werden.

 

Projektlaufzeit

01.11.2021 - 31.10.2024

Gefördert durch

Deutsche Forschungsgemeinschaft (DFG)

Partner

Leibniz-Zentrum für Informatik (LZI), Trier

Prof. Robert Jäschke, Humboldt-Universität zu Berlin, Berlin