AI-assisted Linking

Wissensgraphen (Knowledge Graphs, KGs) verbinden Daten und Informationen und erleichtern das schnelle Auffinden, Verstehen und Nutzen verwandter Fakten. Sie verbessern die Datenintegration, die Suche und die Entscheidungsfindung, indem sie Informationen in sinnvolle Beziehungen strukturieren und so KI-gesteuerte Erkenntnisse und kontextbezogene Anwendungen ermöglichen. Die KI-gestützten Verknüpfungsaktivitäten in KTS umfassen Methoden, Infrastrukturen und Werkzeuge zur Erstellung von Wissensgraphen. 

Methoden und Infrastrukturen aus verschiedenen Drittmittelprojekten bei GESIS tragen zur KI-gestützten Verknüpfung bei. Die generierten KGs werden eng in bestehende GESIS-Angebote integriert, wie z.B. die Integration der GESIS KGs in die GESIS-Suche, oder in Angebote anderer Communities wie z.B. der NFDI

Die KGs sind auf Interoperabilität ausgerichtet und nutzen etablierte W3C-Standards und Vokabulare wie schema.org, DDI, die NFDIcore-Ontologie und andere, um die Interoperabilität und Wiederverwendbarkeit von Daten im Web für Menschen und Maschinen zu verbessern, z.B. durch APIs. Die Auffindbarkeit und Interoperabilität wird durch die Wiederverwendung von Persistent Identifiers (PIDs) aus gängigen PID-Systemen verbessert. 

  • GSAP Ziel des GESIS Scholarly Annotation Project (GSAP) ist die Erstellung eines Korpus und die Entwicklung automatischer Werkzeuge zur Informationsextraktion und Verknüpfung von Machine Learning Modellen und verwandten Entitäten wie Methoden, Datensätzen und Aufgaben aus wissenschaftlichen Veröffentlichungen. Solcher Werkzeuge werden dazu beitragen, neue Wissensquellen zu erschließen. Das Projekt ist ein gemeinsames Vorhaben der DFG-geförderten Projekte BERD@NFDI, Unknown Data und NFDI4DataScience.
  • InFoLiS Im Projekt InFoLiS - Integration von Forschungsdaten und Literatur wurde eine Methode untersucht und entwickelt, die es ermöglicht, Zitate von Forschungsdatensätzen in wissenschaftlichen Publikationen zu erkennen. Die daraus resultierenden 99227 Verknüpfungen zwischen Publikationen und Forschungsdatensätzen sind im GESIS KG integriert und damit auch in der GESIS Suche verfügbar.

  • ClaimsKG ClaimsKG ist ein Wissensgraph, der Behauptungen und ihre Bewertung von Fact-Checking-Websites enthält und relevante Entitäten mit Konzepten von DBpedia verknüpft. Die neueste Version von ClaimsKG umfasst 74066 Behauptungen und 72128 Bewertungen von Behauptungen. Die Daten wurden im Januar 2023 gesammelt und enthalten Behauptungen, die zwischen 1996 und 2023 (31. Januar) auf 13 Fact-Checking-Websites veröffentlicht wurden. Der Zeitraum für die Überprüfung der Behauptungen (Faktenprüfung) reicht von 1996 bis 2023. 

  • gesisDataSearch KG  Dieser Knowledge Graph enthält Metadaten zu geharvesteten sozialwissenschaftlichen Datensätzen. Es handelt sich um die KG-Darstellung der vom GESIS Data Search Portal angebotenen Inhalte. Der KG enthält derzeit Metadaten von 11965 Datensätzen. 

  • GESIS Knowledge Graph Der GESIS Knowledge Graph (GESIS KG) stellt die Metadaten der in der GESIS Suche verfügbaren wissenschaftlichen Ressourcen und ihre semantischen Beziehungen in integrierter und konsistenter Form dar und macht sie für die Wiederverwendung zugänglich. Die aktuelle Version des GESIS KG enthält Metadaten von 474201 wissenschaftlichen Ressourcen und 168362 Links zwischen ihnen, von denen 99227 Links automatisch generiert wurden. 

  • GESIS Research Graph  Der GESIS Research Graph war eine Fallstudie in Zusammenarbeit mit der Research Graph Foundation, in der ein Graph prototypisch entwickelt wurde, der Publikationen, Forschungsdaten, Projekte und Personen miteinander verbindet. Der GESIS Research Graph basierte auf dem GESIS KG und enthielt über 110.000 Publikationen, über 6.200 Forschungsdaten und über 53.000 Forschungsprojekte. 

  • Question Feature Sample Ein Beispiel für einen Wissensgraphen mit Fragen aus GESIS Studien, der mit Fragemerkmalen wie dem Informationstyp annotiert ist. Die KG repräsentiert 4024 eindeutige Fragen mit über 12000 annotierten Informationstypen (26 verschiedene Informationstypen einschließlich Untertypen) wie Bereitschaft, Akzeptanz, Demografie, Wahrnehmung, Bewertung und andere. 

  • SoMeSci SoMeSci ist der umfassendste Goldstandard-Korpus, der als offener Wissensgraph Software-Erwähnungen in wissenschaftlichen Artikeln enthält und Trainingsbeispiele für Named Entity Recognition, Relation Extraction, Entity Disambiguation und Entity Linking liefert. Die Daten bestehen aus 4397422 Triples, die Metadaten und Kontext von 3756 Erwähnungen in 1367 Artikeln beschreiben. 

  • SoftwareKG SoftwareKG ist ein Wissensgraph, der Informationen über Software-Erwähnungen aus mehr als 51.000 wissenschaftlichen Artikeln aus den Sozialwissenschaften enthält. Er ermöglicht Analysen über die Herkunft der Forschungsergebnisse, die Angabe der Entwickler und die Analyse von Softwarezitationen im Allgemeinen. Darüber hinaus ermöglicht die Bereitstellung von Informationen darüber, ob und wie die Software und der Quellcode verfügbar sind, eine Bewertung des Stands und der Rolle von Open-Source-Software in der Wissenschaft auf einer allgemeinen Basis. 

  • Der Thesaurus Sozialwissenschaften (TheSoz) ist ein kontrolliertes Vokabular, das etwa 8000 Konzepte (empfohlene Begriffe) aus den Sozialwissenschaften enthält. Es sind Themen aus allen sozialwissenschaftlichen Disziplinen enthalten. 

  • TweetsCOV19 TweetsCOV19 ist ein semantisch annotierter Korpus von Tweets über die COVID-19-Pandemie. Er ist eine Teilmenge von TweetsKB und zielt darauf ab, den Online-Diskurs über verschiedene Aspekte der Pandemie und ihre gesellschaftlichen Auswirkungen zu erfassen. Dieser Datensatz besteht aus insgesamt 41.307.082 Tweets, die von 12.825.911 Nutzern gepostet wurden, und spiegelt den gesellschaftlichen Diskurs über COVID-19 auf Twitter im Zeitraum von Oktober 2019 bis August 2022 wider. 

  • TweetsKB TweetsKB ist ein bei GESIS gehosteter Wissensgraph, der Metadaten über 3,1 Milliarden Tweets (Feb. 2013 - Juni 2023) enthält und als Ressource für die sozialwissenschaftliche Forschung dient. Mithilfe von Informationsextraktionsmethoden wurden Stimmungen, Entitäten, Hashtags und Nutzererwähnungen extrahiert und als verknüpfte Daten über ein strukturiertes RDF-Schema veröffentlicht. 

  • GRAPHIA (Knowledge Graphs, AI Services and Next Generation Instrumentation for R&D in Social Sciences and Humanities) zielt darauf ab, den ersten umfassenden Wissensgraphen für die Sozial- und Geisteswissenschaften zu schaffen, der die Integration fragmentierter Daten in einen einheitlichen Zugangspunkt ermöglicht. 
  • InFoLiS Im Projekt InFoLiS - Integration von Forschungsdaten und Literatur wurde eine Methode untersucht und entwickelt, die es erlaubt, Zitate von Forschungsdatensätzen in wissenschaftlichen Publikationen zu erkennen. Die daraus resultierenden 99227 Verknüpfungen zwischen Publikationen und Forschungsdatensätzen sind im GESIS KG integriert und damit auch in der GESIS Suche verfügbar. 

  • MOVING Im Rahmen des Projekts MOVING wurden Methoden zur Disambiguierung von Autoren untersucht und entwickelt. Die Methoden wurden weiterentwickelt und werden für die Disambiguierung von Personennamen aus verschiedenen Datenquellen sowie für die Identifizierung und Auflösung von Duplikaten in den Datensätzen verwendet. 

  • OpenMinTeD Im Rahmen des OpenMinTeD-Projekts wurden Methoden untersucht und entwickelt, um die Erwähnung von Variablen in wissenschaftlichen Veröffentlichungen zu ermitteln. Die erzeugten 415 Verknüpfungen zwischen Publikationen und Variablen wurden in den GESIS Knowledge Graph integriert. 

  • OUTCITE Im Rahmen des Projekts OUTCITE - „Reference Understanding in the Social Sciences“ wurden Verfahren zur Extraktion und Strukturierung von Literaturzitaten aus wissenschaftlichen Veröffentlichungen entwickelt und eingesetzt. Die extrahierten Referenzen (über 1 Million) wurden an das Open Citations Corpus (OCC) geliefert. Davon wurden über 300.000 Links zu Publikationen in GESIS-Datensammlungen identifiziert, die in den GESIS Knowledge Graph integriert werden. 

  • VADIS Im Rahmen des Projekts VADIS (VAriable Detection, Interlinking and Summarization) wurden Verweise auf Erhebungsvariablen in wissenschaftlichen Artikeln identifiziert. Auf der Grundlage dieser Verweise wurden semantische Verknüpfungen erstellt und als Wissensgraph zur Verfügung gestellt. Insgesamt wurden rund 1300 Sätze mit Variablenverweisen aus SSOAR-Publikationen identifiziert. Zusätzlich wurden TL;DR-Zusammenfassungen für englischsprachige Publikationen erstellt. 

  • BERD@NFDI GESIS konzentriert sich in BERD@NFDI auf die Entwicklung innovativer Methoden zur Extraktion von Metadaten und relevanten Entitäten aus unstrukturierten Quellen, die Entwicklung einer Harvesting-Infrastruktur und die Verbesserung der Auffindbarkeit von Daten und Ressourcen im Web. 
  • GESIS Search In der GESIS Suche finden sich Informationen über sozialwissenschaftliche Forschungsdaten, Variablen, Publikationen zu Forschungsdaten und Open-Access-Publikationen. Verlinkungen zwischen den Inhalten basieren auf dem GESIS KG und werden direkt in der Ergebnisliste angezeigt. 
  • KGI4NFDI KGI4NFDI setzt sich für eine zentrale und wiederverwendbare Knowledge Graph Infrastructure (KGI) ein, um die Interoperabilität innerhalb des Forschungsbereichs zu verbessern und die Ziele der NFDI zu unterstützen. Sie soll wesentliche Komponenten bereitstellen, darunter eine Knowledge Graph Registry und einen Dienst für den Zugriff auf KGs über NFDI-Projekte hinweg. Darüber hinaus soll der Dienst Forschungsgemeinschaften in die Lage versetzen, dezentralisierte KG-Instanzen unter Verwendung standardisierter Ansätze, Technologien und Fachkenntnisse zu erstellen. 
  • NFDI4DataScience Das übergeordnete Ziel von NFDI4DS ist die Entwicklung, der Aufbau und die Aufrechterhaltung einer nationalen Forschungsdateninfrastruktur (NFDI) für die Data Science und Artificial Intelligence Community in Deutschland. Dies wird auch Vorteile für eine breitere Gemeinschaft bringen, die Datenanalyselösungen benötigt, innerhalb der NFDI und darüber hinaus. Der Schwerpunkt von KTS liegt auf der Extraktion relevanter Entitäten (wie Forschungsdatensätze, Benchmarks, Modelle für maschinelles Lernen und Forschungssoftware) aus wissenschaftlichen Dokumenten und auf der Darstellung und Verknüpfung solcher Artefakte in Research Knowledge Graphs. 
  • SoRa Die im Projekt SoRa - Social Spatial Research Data Infrastructure aufgebaute Infrastruktur ermöglicht die datenschutzkonforme Verknüpfung von sozial- und raumwissenschaftlichen Forschungsdaten und damit die Analyse von interdisziplinären Forschungsfragen an der Schnittstelle dieser Bereiche. 

  • Otto, Wolfgang, Sharmila Upadhyaya, and Stefan Dietze. 2024. "Enhancing Software-Related Information Extraction via Single-Choice Question Answering with Large Language Models." In Natural Scientific Language Processing and Research Knowledge Graphs. NSLP 2024, edited by Georg Rehm, Stefan Dietze, Sonja Schimmler, and Frank Krüger, Lecture Notes in Computer Science 14770, 289-306. Cham: Springer Nature. doi: https://doi.org/10.1007/978-3-031-65794-8_21. https://link.springer.com/content/pdf/10.1007/978-3-031-65794-8.pdf.
  • Backes, Tobias, Anastasiia Iurshina, Muhammad Ahsan Shahid, and Philipp Mayr. 2024. "Comparing free reference extraction pipelines." International Journal on Digital Libraries 25 (4): 841–853. doi: https://doi.org/10.1007/s00799-024-00404-6. https://zenodo.org/records/11072332.
  • Kartal, Yavuz Selim, Muhammad Ahsan Shahid, Sotaro Takeshita, Tornike Tsereteli, Andrea Zielinski, Benjamin Zapilko, and Philipp Mayr-Schlegel. 2024. "VADIS -- a VAriable Detection, Interlinking and Summarization system." In Advances in Information Retrieval: 46th European Conference on Information Retrieval, ECIR 2024, Glasgow, UK, March 24–28, 2024, Proceedings, Part V, edited by Nazli Goharian, Nicola Tonellotto, Yulan He, Aldo Lipani, Graham McDonald, Craig Macdonald, and Iadh Ounis, Lecture Notes in Computer Science 14612, 223-228. Springer, Cham. doi: https://doi.org/10.1007/978-3-031-56069-9_22.
  • Sack, Harald, Torsten Schrade, Oleksandra Bruns, Etienne Posthumus, Tabea Tietz, Ebrahim Norouzi, Jörg Waitelonis, Heike Fliegl, Linnaea Söhn, Julia Tolksdorf, Jonatan Jalle Steller, Abril Az´ocar Guzm´an, Said Fathalla, Ahmad Zainul Ihsan, Volker Hofmann, Stefan Sandfeld, Felix Fritzen, Amir Laadhar, Sonja Schimmler, and Peter Mutschke. 2023. "Knowledge Graph Based RDM Solutions : NFDI4Culture - NFDI-MatWerk - NFDI4DataScience ." In 1st Conference on Research Data Infrastructure (CoRDI) - Connecting Communities , edited by York Sure-Vetter, and Carole Globe, doi: https://doi.org/10.52825/CoRDI.v1i.371.
  • Otto, Wolfgang, Matthäus Zloch, Lu Gan, Saurav Karmakar, and Stefan Dietze. 2023. "GSAP-NER: A Novel Task, Corpus, and Baseline for Scholarly Entity Extraction Focused on Machine Learning Models and Datasets." In Findings of the Association for Computational Linguistics: EMNLP 2023, edited by Houda Bouamor, Juan Pino, and Kalika Bali, 8166-8176. Singapore: Association for Computational Linguistics. https://aclanthology.org/2023.findings-emnlp.548.