Data Science & Natural Language Processing (NLP)

Unser Forschungsziel im Bereich Data Science und Natural Language Processing (NLP) ist die Entwicklung innovativer Methoden und Werkzeuge zur Erhebung, Nutzbarmachung, Aufbereitung und Analyse von Forschungsdaten – z.B. Daten aus Sozialen Medien oder von Smart Devices.

Anwendungsschwerpunkte sind die Verknüpfung von digitalen Verhaltensdaten mit Umfragedaten sowie die Entwicklung und Validierung von Computational Social Science-Methoden zur Messung sozialwissenschaftlich relevanter Konstrukte auf Basis von digitalen Verhaltensdaten.

Ein weiterer Schwerpunkt ist die Entwicklung von NLP-Verfahren zur automatisierten Erschließung und Aufbereitung unstrukturierter wissenschaftlicher Informationsressourcen, wie Publikationen oder Datensätze, um deren Find-, Nutz- und Reproduzierbarkeit zu verbessern.

Unsere Forschung trägt dazu bei, die Qualität von Forschungsdaten und Methoden der computerbasierten Sozialwissenschaften (wie z.B. Machine Learning-Modelle) zu verbessern.

Forschungsoutput

  • Clemm von Hohenberg, Bernhard, Sebastian Stier, Ana S. Cardenal, Andrew M. Guess, Ericka Menchen-Trevino, and Magdalena Wojcieszak. 2024. "Analysis of Web Browsing Data: A Guide." Social Science Computer Review 42 (6): 1479-504. doi: 10.1177/08944393241227868.
  • Feger, Marc, and Stefan Dietze. 2024. "BERTweet’s TACO Fiesta: Contrasting Flavors On The Path Of Inference And Information-Driven Argument Mining On Twitter." In Findings of the Association for Computational Linguistics: NAACL 2024, ed. Kevin Duh, Helena Gomez, and Seven Bethard, 2256-66. Mexico City, Mexico: Association for Computational Linguistics. doi: 10.18653/v1/2024.findings-naacl.146.
  • Kohne, Julian, and Christian Montag. 2024. "ChatDashboard: A Framework to collect, link, and process donated WhatsApp Chat Log Data." Behavior Research Methods 56 (56): 3658-84. doi: 10.3758/s13428-023-02276-1.
  • Maurer, Maximilian, Tanise Ceron, Sebastian Padó, and Gabriella Lapesa. 2024. "Toeing the Party Line: Election Manifestos as a Key to Understand Political Discourse on Twitter." In Findings of the Association for Computational Linguistics: EMNLP 2024, ed. Yaser Al-Onaizan, Mohit Bansal, Yun-Nung Chen, 6115-30. Miami: Association for Computational Linguistics. doi: 10.18653/v1/2024.findings-emnlp.354.
  • Ulloa, Roberto, Frank Mangold, Felix Schmidt, Judith Gilsbach, and Sebastian Stier. 2025 (Forthcoming). "Beyond time delays: How web scraping distorts measures of online news consumption." Communication Methods and Measures: 1-22. doi: 10.1080/19312458.2025.2482538.