Unser Forschungsziel im Bereich Data Science und Natural Language Processing (NLP) ist die Entwicklung innovativer Methoden und Werkzeuge zur Erhebung, Nutzbarmachung, Aufbereitung und Analyse von Forschungsdaten – z.B. Daten aus Sozialen Medien oder von Smart Devices.
Anwendungsschwerpunkte sind die Verknüpfung von digitalen Verhaltensdaten mit Umfragedaten sowie die Entwicklung und Validierung von Computational Social Science-Methoden zur Messung sozialwissenschaftlich relevanter Konstrukte auf Basis von digitalen Verhaltensdaten.
Ein weiterer Schwerpunkt ist die Entwicklung von NLP-Verfahren zur automatisierten Erschließung und Aufbereitung unstrukturierter wissenschaftlicher Informationsressourcen, wie Publikationen oder Datensätze, um deren Find-, Nutz- und Reproduzierbarkeit zu verbessern.
Unsere Forschung trägt dazu bei, die Qualität von Forschungsdaten und Methoden der computerbasierten Sozialwissenschaften (wie z.B. Machine Learning-Modelle) zu verbessern.
Forschungsoutput
- Clemm von Hohenberg, Bernhard, Sebastian Stier, Ana S. Cardenal, Andrew M. Guess, Ericka Menchen-Trevino, and Magdalena Wojcieszak. 2024. "Analysis of Web Browsing Data: A Guide." Social Science Computer Review 42 (6): 1479-504. doi: 10.1177/08944393241227868.
- Feger, Marc, and Stefan Dietze. 2024. "BERTweet’s TACO Fiesta: Contrasting Flavors On The Path Of Inference And Information-Driven Argument Mining On Twitter." In Findings of the Association for Computational Linguistics: NAACL 2024, ed. Kevin Duh, Helena Gomez, and Seven Bethard, 2256-66. Mexico City, Mexico: Association for Computational Linguistics. doi: 10.18653/v1/2024.findings-naacl.146.
- Kohne, Julian, and Christian Montag. 2024. "ChatDashboard: A Framework to collect, link, and process donated WhatsApp Chat Log Data." Behavior Research Methods 56 (56): 3658-84. doi: 10.3758/s13428-023-02276-1.
- Maurer, Maximilian, Tanise Ceron, Sebastian Padó, and Gabriella Lapesa. 2024. "Toeing the Party Line: Election Manifestos as a Key to Understand Political Discourse on Twitter." In Findings of the Association for Computational Linguistics: EMNLP 2024, ed. Yaser Al-Onaizan, Mohit Bansal, Yun-Nung Chen, 6115-30. Miami: Association for Computational Linguistics. doi: 10.18653/v1/2024.findings-emnlp.354.
- Ulloa, Roberto, Frank Mangold, Felix Schmidt, Judith Gilsbach, and Sebastian Stier. 2025 (Forthcoming). "Beyond time delays: How web scraping distorts measures of online news consumption." Communication Methods and Measures: 1-22. doi: 10.1080/19312458.2025.2482538.
- Dehumanization Online: Measurement and Consequences (Professorinnenprogramm) (DeHum) Leibniz-Professorinnenprogramm. Förderer: Leibniz Gemeinschaft.
- Enhancing Societal Resilience Research through AI-Powered Survey Infrastructure (AI-RESIL), Förderer: Leibniz Gemeinschaft.
- The influence of negativity in mass and interpersonal communication during an election campaign: A combination of surveys, web tracking and mobile experience sampling (MAIC). Förderer: DFG.
- Understanding the erosion of the traditional knowledge order in scientific online discourse and its impact in times of crisis (NewOrder). Förderer: Leibniz Gemeinschaft.
- Political polarization and individualized online information environments: A longitudinal tracking study (POLTRACK). Förderer: Leibniz Gemeinschaft.