GESIS Leibniz-Institut für Sozialwissenschaften: Homepage aufrufen

Knowledge Graph Infrastruktur

Ziel der Knowledge Graph (KG) Infrastruktur ist der Aufbau einer Infrastruktur für die GESIS-weite Verlinkung sozialwissenschaftlicher Forschungsdaten und Ressourcen und deren Interoperabilität und Findbarkeit im Web. Dies basiert auf der Entwicklung eines Social Science Knowledge Graphen, der Datensammlungen von GESIS untereinander und diese mit etablierten Vokabularen, sozialwissenschaftlichen Datenquellen und etablierten Wissensbasen im Web wie z.B. Wikidata verlinkt.

Der KG soll darüber hinaus durch extrahierte Entitäten wie etwa Variablen und Links bspw. zwischen Publikationen und Forschungsdaten angereichert werden. Dabei werden ebenso Umfragedaten wie auch Digitale Verhaltensdaten berücksichtigt.

Die reichhaltigen Informationen des Social Science Knowledge Graphen sollen durch dessen Integration in GESIS-Angebote wie die GESIS-weite Suche dazu dienen, Nutzenden dieser Angebote einen Mehrwert an Informationen bspw. bei ihrer Recherche nach Forschungsdaten zu gewähren.

Nach diesem Vorbild sollen in der Infrastruktur weitere Knowledge Graphen bereitgestellt und verlinkt werden, die für die sozialwissenschaftliche Forschung relevante Daten, Entitäten und deren Zusammenhänge beinhalten wie bspw. ClaimsKG, ein Graph mit annotierten Behauptungen, die von Fact Checking Webseiten extrahiert.

Für die Entwicklung der Knowledge Graph Infrastruktur im Allgemeinen und des Social Science Knowledge Graphen im Speziellen werden vor allem Methoden der Informationsextraktion, Entity Interlinking, Coreference Resolution sowie Data Fusion erforscht und eingesetzt.

  • ClaimsKG: ClaimsKG ist ein Wissensgraph, der Behauptungen und deren Beurteilung von Fact Checking Webseiten enthält und relevante Entitäten mit Konzepten von DBpedia verlinkt. Der KG enthält derzeit 28.383 Claims von 6 englischsprachigen Webseiten.
  • EXCITE: Im Projekt EXCITE - Extraction of Citations from PDF Documents wurden Verfahren erforscht und entwickelt, um Literaturzitationen aus wissenschaftlichen Publikationen zu extrahieren und strukturieren. Die dabei extrahierten über 1 Million Referenzen wurden an den Open Citations Corpus (OCC) geliefert. Davon konnten über 300.00 Links zu Publikationen in GESIS-Datensammlungen identifiziert werden, die ebenfalls in den Social Science Knowledge Graph integriert werden.
  • GESIS Research Graph: Im Projekt GESIS Research Graph wurde prototypisch ein Graph entwickelt, der Publikationen, Forschungsdaten, Projekte und Personen miteinander verbindet. Der GESIS Research Graph basiert auf der Knowledge Graph Infrastruktur und enthält über 110.000 Publikationen, über 6.200 Forschungsdatensätze und über 53.000 Forschungsprojekte.
  • GESIS-weite Suche: Die Knowledge Graph Infrastruktur wird im Backend der GESIS-weiten Suche eingebunden und liefert so Nutzenden strukturierte Informationen zu verlinkten Forschungsdaten, Publikationen, etc.
  • InFoLiS: Im Projekt InFoLiS - Integration von Forschungsdaten und Literatur wurde ein Verfahren erforscht und entwickelt, dass es ermöglicht, in wissenschaftlichen Publikationen Zitationen von Forschungsdatensätzen zu erkennen. Die dabei entstehenden Links zwischen Publikationen und Forschungsdaten wurden in den Social Science Knowledge Graph integriert.
  • MOVING: Im Projekt MOVING wurden Verfahren erforscht und entwickelt, um Autor*innen von wissenschaftlichen Publikationen zu disambiguieren. Die Methoden werden weiter verwendet, um in der Knowledge Graph Infrastruktur Personennamen aus verschiedenen Datenquellen zu disambiguieren sowie um Duplikate in den Forschungsdaten zu identifizieren und aufzulösen.
  • OpenMinTeD: Im Projekt OpenMinTeD wurden Methoden erforscht und entwickelt, um Nennungen von Variablen in wissenschaftlichen Publikationen zu erkennen. Die daraus generierten 415 Links zwischen Publikationen und Variablen sollen in den Social Science Knowledge Graph integriert werden.
  • Question Feature Sample: Ein Wissensgraph von GESIS-Umfragedaten, die mit Fragenmerkmalen (im konkreten Beispiel dem Informationstyp einer Frage) annotiert sind. 
  • SoMeSci: SoMeSci ist der umfassendste Goldstandard-Korpus, der als Open Knowledge Graph bereitgestellt wird, und Software-Erwähnungen in wissenschaftlichen Artikeln sowie Trainingsbeispiele für die Erkennung benannter Entitäten, die Extraktion von Beziehungen, die Begriffsklärung von Entitäten und die Verknüpfung von Entitäten enthält. Die Daten bestehen aus 4.397.422 Tripeln, die Metadaten und den Kontext von 3.756 Erwähnungen in 1.367 Artikeln beschreiben.
  • SoftwareKG: SoftwareKG ist ein Wissensgraph, der Informationen zu Software-Erwähnungen aus mehr als 51.000 wissenschaftlichen Artikeln aus den Sozialwissenschaften enthält. Er ermöglicht Analysen zur Provenienz der Forschungsergebnisse, zur Attribution der Entwickler und allgemein zur Software-Zitationsanalyse. Darüber hinaus ermöglicht die Bereitstellung von Informationen darüber, ob und wie die Software und der Quellcode verfügbar sind, eine generelle Einschätzung über den Stand und die Rolle von Open Source Software in der Wissenschaft.
  • SoRa: Im Projekt SoRa - Sozial-Raumwissenschaftliche Forschungsdateninfrastruktur entsteht unter anderem ein Wissensgraph, der sozialwissenschaftliche Umfragedaten auf Studien-, Variablen- und Frageebene beschreibt. Der Graph repräsentiert bisher zwei komplementär angelegte Datensätze unterschiedlicher Institute und soll perspektivisch um Links zu raumwissenschaftlichen Forschungsdaten erweitert werden.
  • TheSoz: Der Thesaurus Sozialwissenschaften (TheSoz) ist ein kontrolliertes Vokabular, dass rund 8.000 Konzepte (empfohlene Schlagwörter) aus den Sozialwissenschaften enthält. Themen aus allen sozialwissenschaftlichen Disziplinen sind enthalten.
  • TweetsCOV19: TweetsCOV19 ist ein semantisch annotierter Korpus von Tweets über die COVID-19-Pandemie. Es ist eine Teilmenge von TweetsKB und zielt darauf ab, den Onlinediskurs über verschiedene Aspekte der Pandemie und ihre gesellschaftlichen Auswirkungen zu erfassen. Dieser Datensatz besteht aus insgesamt 20.112.480 Tweets, die von 7.384.417 Nutzenden gepostet wurden, und spiegelt den gesellschaftlichen Diskurs über COVID-19 auf Twitter im Zeitraum von Oktober 2019 bis Dezember 2020 wider.
  • TweetsKB: TweetsKB ist ein bei GESIS gehosteter Wissensgraph, der Metadaten zu 1.5 Mrd. Tweets (Feb. 2013 - März 2018) beinhaltet und als Ressource für die sozialwissenschaftliche Forschung dient. Mithilfe von Informationsextraktionsmethoden wurden Sentiments, Entitäten, Hashtags und User Mentions extrahiert und über strukturiertes RDF-Schema als Linked Data veröffentlicht.