Smart Harvesting 2


Leitung

Dr. Brigitte Mathiak

Team

Nadine Dulisch

Projektbeschreibung

Die automatische Extraktion und

Aufbereitung bibliographischer Daten ist eines der großen Probleme bei

der Pflege bibliographischer Datenbanken. Im Smart

Harvesting-Folgeprojekt „Smart Harvesting II“ soll daher die produktive

Zusammenarbeit zwischen den Datenbankbetreibern dblp (Informatik) und

GESIS (Sozialwissenschaften) weiter fortgeführt werden, um gemeinsame

Probleme zu lösen.

Im Vorgängerprojekt lag der Fokus auf der

Entwicklung eines lernenden Wrappers, der die aktuelle Datenbasis nutzt,

um Extraktionsregeln automatisch zu generieren. Dies ist wegen der

Vielzahl der im Web verwendeten Technologien jedoch nicht immer möglich,

und gerade dynamisch zur Laufzeit generierte Seiteninhalte (z. B.

mittels AJAX-Calls) stellen noch immer eine große Herausforderung dar.

Schwerpunkt des aktuellen Projekts ist daher die Entwicklung

eines Wrapper-Frameworks zur regelbasierten Datenextraktion, das auch

von Nicht-Informatikern mittels simpler Extraktionsregeln bedient werden

kann. Sowohl Navigation als auch Extraktion sollen durch das Parsen der

den HTML-Seiten zugrunde liegenden DOM-Bäume erfolgen. Hierzu soll in

Kooperation mit der University of Oxford deren Adressierungsschema

OXPath (eine Erweiterung von XPath) in die Wrapper integriert werden.

Weiterhin sollen Monitoring-Werkzeuge geschaffen werden, mit deren Hilfe

Nicht-Programmierer (wie z. B. Bibliothekare) in der Lage sind, die

gesamte Datenextraktion zu überwachen und neue Datenquellen zu

erschließen.

Gleichzeitig sollen die Datenbestände durch

Autorendisambiguierung bereinigt und aufbereitet werden, sodass eine

solidere Datenbasis gewährleistet wird. Die bereits im Vorgängerprojekt

Smart Harvesting realisierte Software zur Disambiguierung neu gewonnener

Daten soll um eine weitere Komponente angereichert werden, die Homonyme

und Synonyme in den bestehenden Daten aufdeckt. Dabei soll vor allem

auf die in Smart Harvesting aufgedeckten Unterschiede zwischen

verschiedenen Publikationskulturen (Informatik ↔ Sozialwissenschaften)

eingegangen werden, da hier teilweise sehr unterschiedliche Strategien

angewandt werden müssen.



Projektlaufzeit

2016-04-15 – 2018-04-15