Text and Data Mining

Benjamin Zapilko

Wissenstechnologien für Sozialwissenschaften

Data Linking
Teamleiter(in)

+49 (221) 47694-515
E-Mail
vCard

Benjamin Zapilko

Text und Data Mining umfasst die Entwicklung und Anwendung von Methoden, um für die Sozialwissenschaften relevantes Wissen aus unstrukturierten Texten und Datenströmen zu extrahieren.

Schwerpunkte der Forschung in diesem Bereich sind:

  • Erkennung von statistischen Regelmäßigkeiten in Daten und Texten und deren Nutzung für unterschiedliche Anwendungsfälle, z.B. für die automatisierte Gruppierung von Texten oder Datenpunkten nach bestimmten Merkmalen (wie demographischen Merkmalen oder politischen Einstellungen)
  • Verknüpfung von Umfragedaten mit digitalen Verhaltensdaten, um Modelle zur Erklärung des Verhaltens unterschiedlicher Benutzergruppen zu erstellen
  • Semantische Anreicherung und Analyse von kollaborativ erstellten Dokumenten (z.B. von Wikipedia-Artikeln oder wissenschaftlichen Publikationen) und deren Verknüpfung mit Informationen zum Erstellungsprozess (z.B. demographische Attribute der Autoren, Konflikte, Produktivität)
  • Statistische Modellierung von sequentiellem menschlichen Handeln (z.B. Navigationsentscheidungen im Web oder die individuelle Fortbewegung im städtischen Straßensystem)
  • Erkennung, Disambiguierung und Verlinkung von sozialwissenschaftlich relevanten Entitäten in wissenschaftlichen Publikationen (wie insbesondere Referenzen auf Forschungsdaten)
  • Extraktion von Schlüsselinformationen aus Texten (z.B. Keywords) und (Semi-)Automatisierung der Inhaltserschließung

Publikationen

  • Schaible, Johann, Pedro Szekely, and Ansgar Scherp. 2016 (Forthcoming). "Comparing Vocabulary Term Recommendations using Association Rules and Learning To Rank: A User Study." In THE SEMANTIC WEB. LATEST ADVANCES AND NEW DOMAINS
  • Schaible, Johann, Thomas Gottron, and Ansgar Scherp. 2016 (Forthcoming). "TermPicker: Enabling the Reuse of Vocabulary Terms by Exploiting Data from the Linked Open Data Cloud." In THE SEMANTIC WEB. LATEST ADVANCES AND NEW DOMAINS
  • Zapilko, Benjamin, Johann Schaible, Timo Wandhöfer, and Peter Mutschke. 2015. "Applying linked data technologies in the social sciences." Künstliche Intelligenz : KI online first 1-4. doi: http://dx.doi.org/10.1007/s13218-015-0416-6. http://link.springer.com/article/10.1007/s13218-015-0416-6?wt_mc=internal.event.1.SEM.ArticleAuthorOnlineFirst.
  • Zapilko, Benjamin, and Brigitte Mathiak. 2014. "Object property matching utilizing the overlap between imported ontologies." In The Semantic Web: Trends and Challenges ; 11th International Conference, ESWC 2014, Anissaras, Crete, Greece, May 25-29, 2014 ; Proceedings, edited by Valentina Presutti, Claudia d'Amato, and Fabien Gandon, Lecture Notes in Computer Science ; vol. 8465, 737-751. Cham: Springer. http://2014.eswc-conferences.org/sites/default/files/papers/paper_65.pdf.
  • Boland, Katarina, Dominique Ritze, Kai Eckert, and Brigitte Mathiak. 2012. "Identifying References to Datasets in Publications." TPDL 2012 : Theory and Practice of Digital Libraries, Paphos.