Knowledge Graph Infrastruktur

Dr. Benjamin Zapilko

Wissenstechnologien für Sozialwissenschaften
Information Extraction & Linking
Teamleiter

+49 (221) 47694-515
E-Mail
vCard

Ziel der Knowledge Graph (KG) Infrastruktur ist der Aufbau einer Infrastruktur für die GESIS-weite Verlinkung sozialwissenschaftlicher Forschungsdaten und Ressourcen und deren Interoperabilität und Findbarkeit im Web. Dies basiert auf der Entwicklung eines Social Science Knowledge Graphen, der Datensammlungen von GESIS untereinander und diese mit etablierten Vokabularen, sozialwissenschaftlichen Datenquellen und etablierten Wissensbasen im Web wie z.B. Wikidata verlinkt.

Der KG soll darüber hinaus durch extrahierte Entitäten wie etwa Variablen und Links bspw. zwischen Publikationen und Forschungsdaten angereichert werden. Dabei werden ebenso Umfragedaten wie auch Digitale Verhaltensdaten berücksichtigt.

Die reichhaltigen Informationen des Social Science Knowledge Graphen sollen durch dessen Integration in GESIS-Angebote wie die GESIS-weite Suche dazu dienen, Nutzenden dieser Angebote einen Mehrwert an Informationen bspw. bei ihrer Recherche nach Forschungsdaten zu gewähren.

Nach diesem Vorbild sollen in der Infrastruktur weitere Knowledge Graphen bereitgestellt und verlinkt werden, die für die sozialwissenschaftliche Forschung relevante Daten, Entitäten und deren Zusammenhänge beinhalten wie bspw. ClaimsKG, ein Graph mit annotierten Behauptungen, die von Fact Checking Webseiten extrahiert.

Für die Entwicklung der Knowledge Graph Infrastruktur im Allgemeinen und des Social Science Knowledge Graphen im Speziellen werden vor allem Methoden der Informationsextraktion, Entity Interlinking, Coreference Resolution sowie Data Fusion erforscht und eingesetzt.

Projekte und Datensätze im Kontext der Knowledge Graph Infrastruktur

  • GESIS-weite Suche: Die Knowledge Graph Infrastruktur wird im Backend der GESIS-weiten Suche eingebunden und liefert so Nutzenden strukturierte Informationen zu verlinkten Forschungsdaten, Publikationen, etc.
  • GESIS Research Graph: Im Projekt GESIS Research Graph wurde prototypisch ein Graph entwickelt, der Publikationen, Forschungsdaten, Projekte und Personen miteinander verbindet. Der GESIS Research Graph basiert auf der Knowledge Graph Infrastruktur und enthält über 110.000 Publikationen, über 6.200 Forschungsdatensätze und über 53.000 Forschungsprojekte.
  • InFoLiS: Im Projekt InFoLiS - Integration von Forschungsdaten und Literatur wurde ein Verfahren erforscht und entwickelt, dass es ermöglicht, in wissenschaftlichen Publikationen Zitationen von Forschungsdatensätzen zu erkennen. Die dabei entstehenden Links zwischen Publikationen und Forschungsdaten wurden in den Social Science Knowledge Graph integriert.
  • EXCITE: Im Projekt EXCITE - Extraction of Citations from PDF Documents wurden Verfahren erforscht und entwickelt, um Literaturzitationen aus wissenschaftlichen Publikationen zu extrahieren und strukturieren. Die dabei extrahierten über 1 Million Referenzen wurden an den Open Citations Corpus (OCC) geliefert. Davon konnten über 300.00 Links zu Publikationen in GESIS-Datensammlungen identifiziert werden, die ebenfalls in den Social Science Knowledge Graph integriert werden.
  • OpenMinTeD: Im Projekt OpenMinTeD wurden Methoden erforscht und entwickelt, um Nennungen von Variablen in wissenschaftlichen Publikationen zu erkennen. Die daraus generierten 415 Links zwischen Publikationen und Variablen sollen in den Social Science Knowledge Graph integriert werden.
  • MOVING: Im Projekt MOVING wurden Verfahren erforscht und entwickelt, um Autoren von wissenschaftlichen Publikationen zu disambiguieren. Die Methoden werden weiter verwendet, um in der Knowledge Graph Infrastruktur Personennamen aus verschiedenen Datenquellen zu disambiguieren sowie um Duplikate in den Forschungsdaten zu identifizieren und aufzulösen.
  • SoRa: Im Projekt SoRa - Sozial-Raumwissenschaftliche Forschungsdateninfrastruktur entsteht unter anderem ein Wissensgraph, der sozialwissenschaftliche Umfragedaten auf Studien-, Variablen- und Frageebene beschreibt. Der Graph repräsentiert bisher zwei komplementär angelegte Datensätze unterschiedlicher Institute und soll perspektivisch um Links zu raumwissenschaftlichen Forschungsdaten erweitert werden.
  • ClaimsKG: ClaimsKG ist ein Wissensgraph, der Behauptungen und deren Beurteilung von Fact Checking Webseiten enthält und relevante Entitäten mit Konzepten von DBpedia verlinkt. Der KG enthält derzeit 28.383 Claims von 6 englischsprachigen Webseiten.
  • TweetsKB: TweetsKB ist ein am Forschungszentrum L3S gehosteter Wissensgraph, der Metadaten zu 1.5 Mrd. Tweets (Feb. 2013 - März 2018) beinhaltet und als Ressource für die sozialwissenschaftliche Forschung dient. Mithilfe von Informationsextraktionsmethoden wurden Sentiments, Entitäten, Hashtags und User Mentions extrahiert und über strukturiertes RDF-Schema als Linked Data veröffentlicht.