Smart Harvesting 2


Leitung

Dr. Brigitte Mathiak

Team

Nadine Dulisch

Projektbeschreibung

Die automatische Extraktion und Aufbereitung bibliographischer Daten ist eines der großen Probleme bei der Pflege bibliographischer Datenbanken. Im Smart Harvesting-Folgeprojekt „Smart Harvesting II“ soll daher die produktive Zusammenarbeit zwischen den Datenbankbetreibern dblp (Informatik) und GESIS (Sozialwissenschaften) weiter fortgeführt werden, um gemeinsame Probleme zu lösen.

Im Vorgängerprojekt lag der Fokus auf der Entwicklung eines lernenden Wrappers, der die aktuelle Datenbasis nutzt, um Extraktionsregeln automatisch zu generieren. Dies ist wegen der Vielzahl der im Web verwendeten Technologien jedoch nicht immer möglich, und gerade dynamisch zur Laufzeit generierte Seiteninhalte (z. B. mittels AJAX-Calls) stellen noch immer eine große Herausforderung dar.

Schwerpunkt des aktuellen Projekts ist daher die Entwicklung eines Wrapper-Frameworks zur regelbasierten Datenextraktion, das auch von Nicht-Informatikern mittels simpler Extraktionsregeln bedient werden kann. Sowohl Navigation als auch Extraktion sollen durch das Parsen der den HTML-Seiten zugrunde liegenden DOM-Bäume erfolgen. Hierzu soll in Kooperation mit der University of Oxford deren Adressierungsschema OXPath (eine Erweiterung von XPath) in die Wrapper integriert werden. Weiterhin sollen Monitoring-Werkzeuge geschaffen werden, mit deren Hilfe Nicht-Programmierer (wie z. B. Bibliothekare) in der Lage sind, die gesamte Datenextraktion zu überwachen und neue Datenquellen zu erschließen.

Gleichzeitig sollen die Datenbestände durch Autorendisambiguierung bereinigt und aufbereitet werden, sodass eine solidere Datenbasis gewährleistet wird. Die bereits im Vorgängerprojekt Smart Harvesting realisierte Software zur Disambiguierung neu gewonnener Daten soll um eine weitere Komponente angereichert werden, die Homonyme und Synonyme in den bestehenden Daten aufdeckt. Dabei soll vor allem auf die in Smart Harvesting aufgedeckten Unterschiede zwischen verschiedenen Publikationskulturen (Informatik ↔ Sozialwissenschaften) eingegangen werden, da hier teilweise sehr unterschiedliche Strategien angewandt werden müssen.



Projektlaufzeit

2016-04-15 – 2018-04-15