GESIS Leibniz-Institut für Sozialwissenschaften: Homepage aufrufen

Validating,Matching and Retrieving "Non-Source Items" in the Social Science (OUTCITE)



Projektbeschreibung

In allen wissenschaftlichen Disziplinen ist es wichtig,

bibliografische Daten für Forscher, Wissenschaftler und andere verfügbar zu

machen, um einen einfachen und schnellen Zugriff auf die Literatur und andere

wissenschaftliche Ressourcen wie Forschungsdatensätze zu gewährleisten. Zu

diesem Zweck bemühen sich viele Verlage, ihre Veröffentlichungen in

bibliografischen Datenbanken zu indizieren und mit anderen Veröffentlichungen

zu verknüpfen. Ein erheblicher Teil der Zitationsdaten in Disziplinen wie der

Sozialwissenschaft ist jedoch nicht über bibliografische Datenbanken

zugänglich.

Unser bisheriges Projekt EXCITE hat sich mit diesem Problem

befasst und die Lücke zwischen der Verfügbarkeit von Zitationsdaten in den

Sozialwissenschaften erfolgreich verkleinert. EXCITE hat leistungsstarke Tools

(https://www.gesis.org/en/research/external-funding-projects/overview-external-funding-projects/excite)

erforscht, entwickelt und bereitgestellt, die Referenzstrings in PDF-Dokumenten

lokalisieren, extrahieren, segmentieren und diese dann mit bibliografischen

Datenbanken matchen. EXCITE hat zudem die extrahierten Zitationsdaten aus

sozialwissenschaftlichen Publikationen in den Open Citations Corpus (OCC)

integriert. Eine wichtige Erkenntnis von EXCITE ist, dass die Metadaten von ca.

60% der zitierten Artikel und anderen wissenschaftlichen Ressourcen außerhalb

der verfügbaren bibliografischen Datenbanken liegen. Die extrahierten Referenzstrings,

die nicht gematcht werden konnten, werden als „non-source items“ bezeichnet. Non-source

items enthalten unvollständige oder fehlerhafte Referenzen sowie Referenzen,

die in den verfügbaren bibliografischen Datenbanken tatsächlich nicht vorhanden

sind; insbesondere Referenzen auf Datensätze, Websites und andere Materialien.

Das Hauptziel von OUTCITE ist es,

eine Toolkette zu erforschen, zu entwickeln und bereitzustellen, die auf den

Ergebnissen der EXCITE-Pipeline aufbaut, um non-source items mit ihren Quellen

zu verknüpfen. OUTCITE wird eine Reihe von Algorithmen entwickeln, die dem

Verständnis und der Verringerung von non-source items (Herausforderung C1)

gewidmet sind. Um das Problem der Duplikate bei non-source items (C2) zu

überwinden, werden diese zu Clustern zusammengefasst. Anschließend werden neue

Methoden entwickelt, um korrekte und vollständige Repräsentationen aus diesen

Clustern abzuleiten (C3). Diese Repräsentationen werden unter Einbeziehung von

Websuchmaschinen im Web lokalisiert, sodass das Vorhandensein der

Veröffentlichung bestätigt und die entsprechende Quelle zugeordnet wird (C4). Um

über alle Phasen von OUTCITE eine hohe Ausgabequalität zu erzielen, wird ein

End-to-End-Optimierungskonzept angewendet (analog zum EXCITE-Projekt). Am Ende

des Projekts werden ähnlich wie bei EXCITE die entwickelten Techniken, Tools

und der erweiterte Referenzindex unter Open-Source-Lizenzen zur Verfügung

gestellt, in die GESIS Search-Infrastruktur integriert und in den OCC

aufgenommen.



Projektlaufzeit
01.08.2021 – 31.07.2023

Gefördert durch

Deutsche Forschungsgemeinschaft