Dr. Brigitte Mathiak

Wissenstechnologien für Sozialwissenschaften
FAIR Data and Human Information Interaction

+49 (221) 47694-510
E-Mail
vCard

Smart Harvesting 2

Bearbeitung: Nadine Dulisch, TBA
Leitung: Dr. Brigitte Mathiak
Wissenschaftlicher Arbeitsbereich: Wissenstechnologien für Sozialwissenschaften (WTS)

Projektbeschreibung

Die automatische Extraktion und Aufbereitung bibliographischer Daten ist eines der großen Probleme bei der Pflege bibliographischer Datenbanken. Im Smart Harvesting-Folgeprojekt „Smart Harvesting II“ soll daher die produktive Zusammenarbeit zwischen den Datenbankbetreibern dblp (Informatik) und GESIS (Sozialwissenschaften) weiter fortgeführt werden, um gemeinsame Probleme zu lösen.

Im Vorgängerprojekt lag der Fokus auf der Entwicklung eines lernenden Wrappers, der die aktuelle Datenbasis nutzt, um Extraktionsregeln automatisch zu generieren. Dies ist wegen der Vielzahl der im Web verwendeten Technologien jedoch nicht immer möglich, und gerade dynamisch zur Laufzeit generierte Seiteninhalte (z. B. mittels AJAX-Calls) stellen noch immer eine große Herausforderung dar.

Schwerpunkt des aktuellen Projekts ist daher die Entwicklung eines Wrapper-Frameworks zur regelbasierten Datenextraktion, das auch von Nicht-Informatikern mittels simpler Extraktionsregeln bedient werden kann. Sowohl Navigation als auch Extraktion sollen durch das Parsen der den HTML-Seiten zugrunde liegenden DOM-Bäume erfolgen. Hierzu soll in Kooperation mit der University of Oxford deren Adressierungsschema OXPath (eine Erweiterung von XPath) in die Wrapper integriert werden. Weiterhin sollen Monitoring-Werkzeuge geschaffen werden, mit deren Hilfe Nicht-Programmierer (wie z. B. Bibliothekare) in der Lage sind, die gesamte Datenextraktion zu überwachen und neue Datenquellen zu erschließen.

Gleichzeitig sollen die Datenbestände durch Autorendisambiguierung bereinigt und aufbereitet werden, sodass eine solidere Datenbasis gewährleistet wird. Die bereits im Vorgängerprojekt Smart Harvesting realisierte Software zur Disambiguierung neu gewonnener Daten soll um eine weitere Komponente angereichert werden, die Homonyme und Synonyme in den bestehenden Daten aufdeckt. Dabei soll vor allem auf die in Smart Harvesting aufgedeckten Unterschiede zwischen verschiedenen Publikationskulturen (Informatik ↔ Sozialwissenschaften) eingegangen werden, da hier teilweise sehr unterschiedliche Strategien angewandt werden müssen.

Projektlaufzeit

15.4.2016 - 15.4.2018

Gefördert durch

Publikationen

  • C. Michels, R. R. Fayzrakhmanov, M. Ley, E. Sallinger and R. Schenkel, "OXPath-Based Data Acquisition for dblp," 2017 ACM/IEEE Joint Conference on Digital Libraries (JCDL), Toronto, ON, 2017, pp. 1-2.
  • Web-Scraping for Non-Programmers: Introducing OXPath for Digital Library Metadata Harvesting. In: Code4Lib Journal, 38, 2017. Mandy Neumann, Jan Steinberg and Philipp Schaer.
  • Enriching Existing Test Collections with OXPath. In: G. J. F. Jones, S. Lawless, J. Gonzalo, L. Kelly, L. Goeuriot, T. Mandl, L. Cappellato and F. Nicola, editors, Experimental IR Meets Multilinguality, Multimodality, and Interaction 8th International Conference of the CLEF Association, CLEF 2017, Dublin, Ireland, September 11-14, 2017, Proceedings, volume 10456, series Lecture Notes in Computer Science. 2017. Philipp Schaer and Mandy Neumann.