Text und Data Mining umfasst die Entwicklung und Anwendung von Methoden, um für die Sozialwissenschaften relevantes Wissen aus unstrukturierten Texten und Datenströmen zu extrahieren.
Unsere Forschungsschwerpunkte im Bereich Text and Data Mining
- Erkennung von statistischen Regelmäßigkeiten in Daten und Texten und deren Nutzung für unterschiedliche Anwendungsfälle, z.B. für die automatisierte Gruppierung von Texten oder Datenpunkten nach bestimmten Merkmalen (wie demographischen Merkmalen oder politischen Einstellungen)
- Verknüpfung von Umfragedaten mit digitalen Verhaltensdaten, um Modelle zur Erklärung des Verhaltens unterschiedlicher Benutzergruppen zu erstellen
- Semantische Anreicherung und Analyse von kollaborativ erstellten Dokumenten (z.B. von Wikipedia-Artikeln oder wissenschaftlichen Publikationen) und deren Verknüpfung mit Informationen zum Erstellungsprozess (z.B. demographische Attribute der Verfassenden, Konflikte, Produktivität)
- Statistische Modellierung von sequentiellem menschlichen Handeln (z.B. Navigationsentscheidungen im Web oder die individuelle Fortbewegung im städtischen Straßensystem)
- Erkennung, Disambiguierung und Verlinkung von sozialwissenschaftlich relevanten Entitäten in wissenschaftlichen Publikationen (wie insbesondere Referenzen auf Forschungsdaten)
- Extraktion von Schlüsselinformationen aus Texten (z.B. Keywords) und (Semi-)Automatisierung der Inhaltserschließung
- Bensmann, Felix, and Benjamin Zapilko. 2023. ScienceLinker - Python Package. https://pypi.org/project/sciencelinker/.
- Dahou, Abdelhalim Hafedh, and Brigitte Mathiak. 2024 (Forthcoming). "Automatic Categorization of Software Repository Domains with Minimal Resources."
- Abdedaiem, Amin, Abdelhalim Hafedh Dahou, Mohamed Amine Cheragui, and Brigitte Mathiak. 2024. "FASSILA: A Corpus for Algerian Dialect Fake News Detection and Sentiment Analysis." In ACLing 2024: 6th International Conference on AI in Computational Linguistics, edited by Khaled Shaalan, and Samhaa El-Beltagy, Procedia Computer Science 244, 397-407. Elsevier. doi: https://doi.org/10.1016/j.procs.2024.10.214.
- Dahou, Abdelhalim Hafedh, Mohamed Amine Cheragui, Amin Abdedaiem, and Brigitte Mathiak. 2024. "Enhancing Model Performance through Translation-based Data Augmentation in the context of Fake News Detection." In ACLing 2024: 6th International Conference on AI in Computational Linguistics, edited by Khaled Shaalan, and Samhaa El-Beltagy, Procedia Computer Science 244, 342-352. Elsevier. doi: https://doi.org/10.1016/j.procs.2024.10.208.
- Daikeler, Jessica, Leon Froehling, Indira Sen, Lukas Birkenmaier, Tobias Gummer, Jan Schwalbach, Henning Silber, Bernd Weiß, Katrin Weller, and Clemens Lechner. 2024. "Assessing Data Quality in the Age of Digital Social Research: A Systematic Review." Social Science Computer Review online first. doi: https://doi.org/10.1177/08944393241245395.
Titel | Start | Ende | Förderer |
---|---|---|---|
Kompetenzzentrum Datenqualität in den Sozialwissenschaften
(KODAQS)
|
2023-11-15 | 2026-11-14 | Bund |
NFDI for Data Science and Artificial Intelligence
(NFDI4DS)
|
2021-10-01 | 2026-09-30 | DFG |
NFDI for Business, Economic and Related Data
(BERD@NFDI)
|
2021-10-01 | 2026-09-30 | DFG |
Dehumanization Online: Measurement and Consequences (Professorinnenprogramm)
(DeHum)
|
2021-01-01 | 2027-03-31 | SAW (Leibniz) |
Erfahren Sie mehr über unsere Beratungsangebote und Serviceleistungen:
-
Digitale Verhaltensdaten: Datensätze
Digitale Verhaltensdaten – kuratierte Datensätze.