Text and Data Mining

Dr. Benjamin Zapilko

Wissenstechnologien für Sozialwissenschaften
Data Linking
Teamleiter

+49 (221) 47694-515
E-Mail
vCard

Text und Data Mining umfasst die Entwicklung und Anwendung von Methoden, um für die Sozialwissenschaften relevantes Wissen aus unstrukturierten Texten und Datenströmen zu extrahieren.

Schwerpunkte der Forschung in diesem Bereich sind:

  • Erkennung von statistischen Regelmäßigkeiten in Daten und Texten und deren Nutzung für unterschiedliche Anwendungsfälle, z.B. für die automatisierte Gruppierung von Texten oder Datenpunkten nach bestimmten Merkmalen (wie demographischen Merkmalen oder politischen Einstellungen)
  • Verknüpfung von Umfragedaten mit digitalen Verhaltensdaten, um Modelle zur Erklärung des Verhaltens unterschiedlicher Benutzergruppen zu erstellen
  • Semantische Anreicherung und Analyse von kollaborativ erstellten Dokumenten (z.B. von Wikipedia-Artikeln oder wissenschaftlichen Publikationen) und deren Verknüpfung mit Informationen zum Erstellungsprozess (z.B. demographische Attribute der Autoren, Konflikte, Produktivität)
  • Statistische Modellierung von sequentiellem menschlichen Handeln (z.B. Navigationsentscheidungen im Web oder die individuelle Fortbewegung im städtischen Straßensystem)
  • Erkennung, Disambiguierung und Verlinkung von sozialwissenschaftlich relevanten Entitäten in wissenschaftlichen Publikationen (wie insbesondere Referenzen auf Forschungsdaten)
  • Extraktion von Schlüsselinformationen aus Texten (z.B. Keywords) und (Semi-)Automatisierung der Inhaltserschließung

Publikationen

  • Zielinski, Andrea, and Peter Mutschke. 2018. "Towards a Gold Standard Corpus for Variable Detection and Linking in Social Science Publications." In Proceedings of LREC 2018
  • Zielinski, Andrea, and Peter Mutschke. 2017. "Mining Social Science Publications for Survey Variables." In Proceedings of the Second Workshop on Natural Language Processing and Computational Social Science, Vancouver, Canada, August 3, 2017, edited by Dirk Hovy, Svitlana Volkova, and David Bamman, 47–52. Association for Computational Linguistics. aclweb.org/anthology/W17-29. aclweb.org/anthology/W17-29.
  • Dulisch N., Mathiak B. (2017) Towards Finding Animal Replacement Methods. In: Kamps J., Tsakonas G., Manolopoulos Y., Iliadis L., Karydis I. (eds) Research and Advanced Technology for Digital Libraries. TPDL 2017. Lecture Notes in Computer Science, vol 10450. Springer, Cham
  • Schaible, Johann, Pedro Szekely, and Ansgar Scherp. 2016 (Forthcoming). "Comparing Vocabulary Term Recommendations using Association Rules and Learning To Rank: A User Study." In THE SEMANTIC WEB. LATEST ADVANCES AND NEW DOMAINS
  • Schaible, Johann, Thomas Gottron, and Ansgar Scherp. 2016 (Forthcoming). "TermPicker: Enabling the Reuse of Vocabulary Terms by Exploiting Data from the Linked Open Data Cloud." In THE SEMANTIC WEB. LATEST ADVANCES AND NEW DOMAINS
  • Mathiak, B.; Boland K. (2015): Challenges in Matching Dataset Citation Strings to Datasets in Social Science. D-Lib Magazine 21 (1/2). doi.org/10.1045/january2015-mathiak
  • Ritze, D.; Boland, K. (2013): Integration of Research Data and Research Data Links into Library Catalogues. Proceedings of the International Conference on Dublin Core and Metadata Applications (DC 2013), 2013.
  • Boland, Katarina, Dominique Ritze, Kai Eckert, and Brigitte Mathiak. 2012. "Identifying References to Datasets in Publications." TPDL 2012 : Theory and Practice of Digital Libraries, Paphos.