GESIS Leibniz-Institut für Sozialwissenschaften: Homepage aufrufen

Text and Data Mining

Text und Data Mining umfasst die Entwicklung und Anwendung von Methoden, um für die Sozialwissenschaften relevantes Wissen aus unstrukturierten Texten und Datenströmen zu extrahieren.

Schwerpunkte der Forschung in diesem Bereich sind:

  • Erkennung von statistischen Regelmäßigkeiten in Daten und Texten und deren Nutzung für unterschiedliche Anwendungsfälle, z.B. für die automatisierte Gruppierung von Texten oder Datenpunkten nach bestimmten Merkmalen (wie demographischen Merkmalen oder politischen Einstellungen)
  • Verknüpfung von Umfragedaten mit digitalen Verhaltensdaten, um Modelle zur Erklärung des Verhaltens unterschiedlicher Benutzergruppen zu erstellen
  • Semantische Anreicherung und Analyse von kollaborativ erstellten Dokumenten (z.B. von Wikipedia-Artikeln oder wissenschaftlichen Publikationen) und deren Verknüpfung mit Informationen zum Erstellungsprozess (z.B. demographische Attribute der Autoren, Konflikte, Produktivität)
  • Statistische Modellierung von sequentiellem menschlichen Handeln (z.B. Navigationsentscheidungen im Web oder die individuelle Fortbewegung im städtischen Straßensystem)
  • Erkennung, Disambiguierung und Verlinkung von sozialwissenschaftlich relevanten Entitäten in wissenschaftlichen Publikationen (wie insbesondere Referenzen auf Forschungsdaten)
  • Extraktion von Schlüsselinformationen aus Texten (z.B. Keywords) und (Semi-)Automatisierung der Inhaltserschließung
  • Kohne, Julian, Jon Elhai, and Christian Montag. 2022 (Forthcoming). "A Practical Guide to WhatsApp Data in Social Science Research." In Digital Phenotyping and Mobile Sensing, edited by Harald Baumeister, and Christian Montag, 171 - 205. Cham: Springer. doi: https://doi.org/10.1007/978-3-030-98546-2_11.
  • Dimitrov, Dimitar, Dennis Segeth, and Stefan Dietze. 2022. "Geotagging TweetsCOV19: Enriching a COVID-19 Twitter Discourse Knowledge Base with Geographic Information." In Companion Proceedings of WWW '22: The ACM Web Conference 2022 Virtual Event, Lyon France April 25 - 29, 2022, edited by Frédérique Laforest, Raphaël Troncy, Lionel Médini, and Ivan Herman, 438-442. New York: ACM. doi: https://doi.org/10.1145/3487553.3524623.
  • Schoch, David, Franziska B Keller, Sebastian Stier, and JungHwan Yang. 2022. "Coordination patterns reveal online political astroturfing across the world." Scientific Reports 2022 (12): 4572. doi: https://doi.org/10.1038/s41598-022-08404-9.
  • Dimitrov, Dimitar, Erdal Baran, Pavlos Fafalios, Ran Yu, Xiaofei Zhu, Matthäus Zloch, and Stefan Dietze. 2020. "TweetsCOV19: A knowledge base of semantically annotated tweets about the COVID-19 pandemic." In CIKM '20: Proceedings of the 29th ACM international conference on information & knowledge management, edited by Mathieu d'Aquin, and Stefan Dietze, 2991–2998. New York: ACM. doi: https://doi.org/10.1145/3340531.3412765. https://arxiv.org/pdf/2006.14492v4.pdf.
  • Lietz, Haiko. 2020. "Drawing impossible boundaries: Field delineation of Social Network Science." Scientometrics 125 2841–2876. doi: https://doi.org/10.1007/s11192-020-03527-0.