Text und Data Mining umfasst die Entwicklung und Anwendung von Methoden, um für die Sozialwissenschaften relevantes Wissen aus unstrukturierten Texten und Datenströmen zu extrahieren.
Schwerpunkte der Forschung in diesem Bereich sind:
- Erkennung von statistischen Regelmäßigkeiten in Daten und Texten und deren Nutzung für unterschiedliche Anwendungsfälle, z.B. für die automatisierte Gruppierung von Texten oder Datenpunkten nach bestimmten Merkmalen (wie demographischen Merkmalen oder politischen Einstellungen)
- Verknüpfung von Umfragedaten mit digitalen Verhaltensdaten, um Modelle zur Erklärung des Verhaltens unterschiedlicher Benutzergruppen zu erstellen
- Semantische Anreicherung und Analyse von kollaborativ erstellten Dokumenten (z.B. von Wikipedia-Artikeln oder wissenschaftlichen Publikationen) und deren Verknüpfung mit Informationen zum Erstellungsprozess (z.B. demographische Attribute der Verfassenden, Konflikte, Produktivität)
- Statistische Modellierung von sequentiellem menschlichen Handeln (z.B. Navigationsentscheidungen im Web oder die individuelle Fortbewegung im städtischen Straßensystem)
- Erkennung, Disambiguierung und Verlinkung von sozialwissenschaftlich relevanten Entitäten in wissenschaftlichen Publikationen (wie insbesondere Referenzen auf Forschungsdaten)
- Extraktion von Schlüsselinformationen aus Texten (z.B. Keywords) und (Semi-)Automatisierung der Inhaltserschließung
- Soldner, Felix, Fabian Plum, Bennett Kleinberg, and Shane Johnson. 2022. "From the dark to the surface web: Scouting eBay for counterfeits." ODISSEI Conference for Social Science in the Netherlands 2022, Open Data Infrastructure for Social Science and Economic Innovations, Utrecht, 2022-11-03.
- Soldner, Felix, Bennett Kleinberg, and Shane Johnson. 2022. "Confounds and overestimations in fake review detection: Experimentally controlling for product-ownership and data-origin." PLoS ONE 17 (12): e0277869. doi: https://doi.org/10.1371/journal.pone.0277869.
- Batzdorfer, Veronika. 2022. "Theory-driven modelling of complex socio-psychological constructs in text." Invited Panel Talk on the Workshop on Computational Linguistics for Political Text Analysis (CPSS-2022), Universität Potsdam, 2022-09-12.
- Batzdorfer, Veronika. 2022. "R Programming Workshop for the BMBF Conference on Research on Digitalisation for Cultural Education. "Analysing Social Media and Text Mining in R"." Friedrich-Alexander Universität Erlangen-Nürnberg, Nürnberg.
- Soldner, Felix, Fabian Plum, Bennett Kleinberg, and Shane Johnson. 2022. "From the dark to the surface web: Scouting eBay for counterfeits." Cambridge Cybercrime Centre: Fifth Annual Cybercrime Conference, 2022-09-05.