Brigitte Mathiak

Wissenstechnologien für Sozialwissenschaften Digital SSH

+49 (221) 47694-510
E-Mail
vCard

Smart Harvesting 2

Bearbeitung: Nadine Dulisch, TBA
Leitung: Dr. Brigitte Mathiak
Wissenschaftlicher Arbeitsbereich: Wissenstechnologien für Sozialwissenschaften (WTS)

Projektbeschreibung

Die automatische Extraktion und Aufbereitung bibliographischer Daten ist eines der großen Probleme bei der Pflege bibliographischer Datenbanken. Im Folgeprojekt „Smart Harvesting II“ soll daher die produktive Zusammenarbeit zwischen den Datenbankbetreibern dblp (Informatik) und GESIS (Sozialwissenschaften) weiter genutzt werden, um gemeinsame Probleme zu lösen.

Im Vorgängerprojekt lag der Fokus auf der Entwicklung eines lernenden Wrappers, der die aktuelle Datenbasis nutzt, um Extraktionsregeln automatisch zu generieren. Dies ist wegen der Vielzahl der im Web verwendeten Technologien jedoch nicht immer möglich, und gerade dynamisch zur Laufzeit generierte Seiteninhalte (z. B. mittels AJAX-Calls) stellen noch immer eine große Herausforderung dar.

Schwerpunkt des aktuellen Projekts ist daher die Entwicklung eines Wrapper-Frameworks zur regelbasierten Datenextraktion, das auch von Nicht-Informatikern mittels simpler Extraktionsregeln bedient werden kann. Sowohl Navigation als auch Extraktion sollen durch das Parsen der den HTML-Seiten zu Grunde liegenden DOM-Bäume erfolgen. Hierzu soll in Kooperation mit der University of Oxford deren Adressierungsschema OXPath (eine Erweiterung von XPath) in die Wrapper integriert werden. Weiterhin sollen Monitoring-Werkzeuge geschaffen werden, mit deren Hilfe Nicht-Programmierer (wie z. B. Bibliothekare) in der Lage sind, die gesamte Datenextraktion zu überwachen und neue Datenquellen zu erschließen.

Gleichzeitig sollen die Datenbestände durch Autorendisambiguierung bereinigt und aufbereitet werden, so dass eine solidere Datenbasis gewährleistet wird. Die bereits im Vorgängerprojekt realisierte Software zur Disambiguierung neu gewonnener Daten soll um eine weitere Komponente angereichert werden, die Homonyme und Synonyme in den bestehenden Daten aufdeckt. Dabei soll vor allem auf die im Vorgängerprojekt aufgedeckten Unterschiede zwischen verschiedenen Publikationskulturen (Informatik ↔ Sozialwissenschaften) eingegangen werden, da hier teilweise sehr unterschiedliche Strategien angewandt werden müssen.

Auf Seiten von GESIS sollen Autorenseiten erstellt werden, während bei dblp die bestehenden Seiten überarbeitet und zusätzliche Informationen in den Prozess der Disambiguierung integriert werden sollen.

Projektlaufzeit

15.4.2016 - 15.4.2018

Gefördert durch