Smart Harvesting 2
Projektbeschreibung
Die automatische Extraktion und
Aufbereitung bibliographischer Daten ist eines der großen Probleme bei
der Pflege bibliographischer Datenbanken. Im Smart
Harvesting-Folgeprojekt „Smart Harvesting II“ soll daher die produktive
Zusammenarbeit zwischen den Datenbankbetreibern dblp (Informatik) und
GESIS (Sozialwissenschaften) weiter fortgeführt werden, um gemeinsame
Probleme zu lösen.
Im Vorgängerprojekt lag der Fokus auf der
Entwicklung eines lernenden Wrappers, der die aktuelle Datenbasis nutzt,
um Extraktionsregeln automatisch zu generieren. Dies ist wegen der
Vielzahl der im Web verwendeten Technologien jedoch nicht immer möglich,
und gerade dynamisch zur Laufzeit generierte Seiteninhalte (z. B.
mittels AJAX-Calls) stellen noch immer eine große Herausforderung dar.
Schwerpunkt des aktuellen Projekts ist daher die Entwicklung
eines Wrapper-Frameworks zur regelbasierten Datenextraktion, das auch
von Nicht-Informatikern mittels simpler Extraktionsregeln bedient werden
kann. Sowohl Navigation als auch Extraktion sollen durch das Parsen der
den HTML-Seiten zugrunde liegenden DOM-Bäume erfolgen. Hierzu soll in
Kooperation mit der University of Oxford deren Adressierungsschema
OXPath (eine Erweiterung von XPath) in die Wrapper integriert werden.
Weiterhin sollen Monitoring-Werkzeuge geschaffen werden, mit deren Hilfe
Nicht-Programmierer (wie z. B. Bibliothekare) in der Lage sind, die
gesamte Datenextraktion zu überwachen und neue Datenquellen zu
erschließen.
Gleichzeitig sollen die Datenbestände durch
Autorendisambiguierung bereinigt und aufbereitet werden, sodass eine
solidere Datenbasis gewährleistet wird. Die bereits im Vorgängerprojekt
Smart Harvesting realisierte Software zur Disambiguierung neu gewonnener
Daten soll um eine weitere Komponente angereichert werden, die Homonyme
und Synonyme in den bestehenden Daten aufdeckt. Dabei soll vor allem
auf die in Smart Harvesting aufgedeckten Unterschiede zwischen
verschiedenen Publikationskulturen (Informatik ↔ Sozialwissenschaften)
eingegangen werden, da hier teilweise sehr unterschiedliche Strategien
angewandt werden müssen.