Dr. Philipp Mayr

Wissenstechnologien für Sozialwissenschaften
Portale Mehrwertdienste
Teamleiter

+49 (221) 47694-533
E-Mail
vCard

EXCITE – Extraktion von Zitationen aus PDF-Dokumenten

Bearbeitung: Behnam Ghavimi, Azam Hosseini
Leitung: Dr. Philipp Mayr
Wissenschaftlicher Arbeitsbereich: Wissenstechnologien für Sozialwissenschaften (WTS)

Projektbeschreibung

Der Mangel an Zitationsdaten in den internationalen und insbesondere den deutschsprachigen Sozialwissenschaften ist bei Wissenschaftler gut bekannt und oft in akademischen Studien untersucht worden. Zitationsdaten sind u.a. der Ausgangspunkt effektiver Informationssuche, Empfehlungsdiensten und Wissensentdeckungsprozessen. Die Zugänglichkeit von Informationen in den Sozialwissenschaften liegt deutlich hinter anderen Disziplinen (z.B. den Naturwissenschaften) in denen grundsätzlich mehr Zitationsdaten verfügbar sind. Das EXCITE Projekt versucht diese Lücke zu schließen, indem eine Tool-Kette von Softwarekomponenten zur Referenzextraktion entwickelt wird, die auf bestehende wissenschaftliche Datenbanken (insb. Volltexte in den der Sozialwissenschaften) angewendet wird. Die Tools werden anschließend anderen Forschern zur Verfügung gestellt. Das Projekt wird eine Reihe von Algorithmen zur Extraktion von Referenzen und Zitationen aus PDF Volltexten entwickeln und das Matchen der Referenzstrings auf bibliographische Datenbanken verbessern. Die Extraktion von Zitationen wird als ein Fünf-Schritt-Prozess umgesetzt: 1) Extraktion von Text aus den Quelldokumenten, 2) Identifikation von Referenzabschnitten im Text, 3) Segmentierung individueller Referenzen in Felder wie Autor, Titel, etc. 4) Matching von Referenzstrings in bibliographischen Nachweissystemen und 5) Export der gematchten Referenzen in nachnutzbare Formate und Services. Besonderes Augenmerk wird auf die Optimierung der Einzelkomponenten des Prozesses zu Zitationsextraktion gelegt. Dies soll mit Hilfe von Machine Learning Methoden geschehen, die die Datenqualität der extrahierten Daten in den Einzelkomponenten kontrollieren. Die extrahierten Zitationsdaten werden anschließend in bestehende Nachweissysteme der Antragsteller (Sowiport and related-work.net) integriert und als linked open data unter freien Lizenzen zur Nachnutzung publiziert. Die entwickelte Software im Projekt wird zudem als WebService API und Open Source verfügbar gemacht.

Projektlaufzeit

01.09.2016 - 31.08.2018

Gefördert durch

Partner

Publikationen

  • Körner, M., Ghavimi, B., Mayr, P., Hartmann, H., & Staab, S. (2017). Evaluating Reference String Extraction Using Line-Based Conditional Random Fields: A Case Study with German Language Publications. In M. Kirikova, K. Nørvåg, G. A. Papadopoulos, J. Gamper, R. Wrembel, J. Darmont, & S. Rizzi (Eds.), New Trends in Databases and Information Systems (Vol. 767, pp. 137–145). Cham: Springer International Publishing. https://doi.org/10.1007/978-3-319-67162-8_15