Validating,Matching and Retrieving "Non-Source Items" in the Social Science (OUTCITE)
Projektbeschreibung
In allen wissenschaftlichen Disziplinen ist es wichtig,
bibliografische Daten für Forscher, Wissenschaftler und andere verfügbar zu
machen, um einen einfachen und schnellen Zugriff auf die Literatur und andere
wissenschaftliche Ressourcen wie Forschungsdatensätze zu gewährleisten. Zu
diesem Zweck bemühen sich viele Verlage, ihre Veröffentlichungen in
bibliografischen Datenbanken zu indizieren und mit anderen Veröffentlichungen
zu verknüpfen. Ein erheblicher Teil der Zitationsdaten in Disziplinen wie der
Sozialwissenschaft ist jedoch nicht über bibliografische Datenbanken
zugänglich.
Unser bisheriges Projekt EXCITE hat sich mit diesem Problem
befasst und die Lücke zwischen der Verfügbarkeit von Zitationsdaten in den
Sozialwissenschaften erfolgreich verkleinert. EXCITE hat leistungsstarke Tools
erforscht, entwickelt und bereitgestellt, die Referenzstrings in PDF-Dokumenten
lokalisieren, extrahieren, segmentieren und diese dann mit bibliografischen
Datenbanken matchen. EXCITE hat zudem die extrahierten Zitationsdaten aus
sozialwissenschaftlichen Publikationen in den Open Citations Corpus (OCC)
integriert. Eine wichtige Erkenntnis von EXCITE ist, dass die Metadaten von ca.
60% der zitierten Artikel und anderen wissenschaftlichen Ressourcen außerhalb
der verfügbaren bibliografischen Datenbanken liegen. Die extrahierten Referenzstrings,
die nicht gematcht werden konnten, werden als „non-source items“ bezeichnet. Non-source
items enthalten unvollständige oder fehlerhafte Referenzen sowie Referenzen,
die in den verfügbaren bibliografischen Datenbanken tatsächlich nicht vorhanden
sind; insbesondere Referenzen auf Datensätze, Websites und andere Materialien.
Das Hauptziel von OUTCITE ist es,
eine Toolkette zu erforschen, zu entwickeln und bereitzustellen, die auf den
Ergebnissen der EXCITE-Pipeline aufbaut, um non-source items mit ihren Quellen
zu verknüpfen. OUTCITE wird eine Reihe von Algorithmen entwickeln, die dem
Verständnis und der Verringerung von non-source items (Herausforderung C1)
gewidmet sind. Um das Problem der Duplikate bei non-source items (C2) zu
überwinden, werden diese zu Clustern zusammengefasst. Anschließend werden neue
Methoden entwickelt, um korrekte und vollständige Repräsentationen aus diesen
Clustern abzuleiten (C3). Diese Repräsentationen werden unter Einbeziehung von
Websuchmaschinen im Web lokalisiert, sodass das Vorhandensein der
Veröffentlichung bestätigt und die entsprechende Quelle zugeordnet wird (C4). Um
über alle Phasen von OUTCITE eine hohe Ausgabequalität zu erzielen, wird ein
End-to-End-Optimierungskonzept angewendet (analog zum EXCITE-Projekt). Am Ende
des Projekts werden ähnlich wie bei EXCITE die entwickelten Techniken, Tools
und der erweiterte Referenzindex unter Open-Source-Lizenzen zur Verfügung
gestellt, in die GESIS Search-Infrastruktur integriert und in den OCC
aufgenommen.
2021-08-01 – 2023-07-31