Validating,Matching and Retrieving "Non-Source Items" in the Social Science (OUTCITE)
Projektbeschreibung
In allen wissenschaftlichen Disziplinen ist es wichtig, bibliografische Daten für Forscher, Wissenschaftler und andere verfügbar zu machen, um einen einfachen und schnellen Zugriff auf die Literatur und andere wissenschaftliche Ressourcen wie Forschungsdatensätze zu gewährleisten. Zu diesem Zweck bemühen sich viele Verlage, ihre Veröffentlichungen in bibliografischen Datenbanken zu indizieren und mit anderen Veröffentlichungen zu verknüpfen. Ein erheblicher Teil der Zitationsdaten in Disziplinen wie der Sozialwissenschaft ist jedoch nicht über bibliografische Datenbanken zugänglich.
Unser bisheriges Projekt EXCITE hat sich mit diesem Problem befasst und die Lücke zwischen der Verfügbarkeit von Zitationsdaten in den Sozialwissenschaften erfolgreich verkleinert. EXCITE hat leistungsstarke Tools (https://www.gesis.org/en/research/external-funding-projects/overview-external-funding-projects/excit...) erforscht, entwickelt und bereitgestellt, die Referenzstrings in PDF-Dokumenten lokalisieren, extrahieren, segmentieren und diese dann mit bibliografischen Datenbanken matchen. EXCITE hat zudem die extrahierten Zitationsdaten aus sozialwissenschaftlichen Publikationen in den Open Citations Corpus (OCC) integriert. Eine wichtige Erkenntnis von EXCITE ist, dass die Metadaten von ca. 60% der zitierten Artikel und anderen wissenschaftlichen Ressourcen außerhalb der verfügbaren bibliografischen Datenbanken liegen. Die extrahierten Referenzstrings, die nicht gematcht werden konnten, werden als „non-source items“ bezeichnet. Non-source items enthalten unvollständige oder fehlerhafte Referenzen sowie Referenzen, die in den verfügbaren bibliografischen Datenbanken tatsächlich nicht vorhanden sind; insbesondere Referenzen auf Datensätze, Websites und andere Materialien.
Das Hauptziel von OUTCITE ist es, eine Toolkette zu erforschen, zu entwickeln und bereitzustellen, die auf den Ergebnissen der EXCITE-Pipeline aufbaut, um non-source items mit ihren Quellen zu verknüpfen. OUTCITE wird eine Reihe von Algorithmen entwickeln, die dem Verständnis und der Verringerung von non-source items (Herausforderung C1) gewidmet sind. Um das Problem der Duplikate bei non-source items (C2) zu überwinden, werden diese zu Clustern zusammengefasst. Anschließend werden neue Methoden entwickelt, um korrekte und vollständige Repräsentationen aus diesen Clustern abzuleiten (C3). Diese Repräsentationen werden unter Einbeziehung von Websuchmaschinen im Web lokalisiert, sodass das Vorhandensein der Veröffentlichung bestätigt und die entsprechende Quelle zugeordnet wird (C4). Um über alle Phasen von OUTCITE eine hohe Ausgabequalität zu erzielen, wird ein End-to-End-Optimierungskonzept angewendet (analog zum EXCITE-Projekt). Am Ende des Projekts werden ähnlich wie bei EXCITE die entwickelten Techniken, Tools und der erweiterte Referenzindex unter Open-Source-Lizenzen zur Verfügung gestellt, in die GESIS Search-Infrastruktur integriert und in den OCC aufgenommen.