GESIS Leibniz-Institut für Sozialwissenschaften: Homepage aufrufen

Text and Data Mining

Text und Data Mining umfasst die Entwicklung und Anwendung von Methoden, um für die Sozialwissenschaften relevantes Wissen aus unstrukturierten Texten und Datenströmen zu extrahieren.

Schwerpunkte der Forschung in diesem Bereich sind:

  • Erkennung von statistischen Regelmäßigkeiten in Daten und Texten und deren Nutzung für unterschiedliche Anwendungsfälle, z.B. für die automatisierte Gruppierung von Texten oder Datenpunkten nach bestimmten Merkmalen (wie demographischen Merkmalen oder politischen Einstellungen)
  • Verknüpfung von Umfragedaten mit digitalen Verhaltensdaten, um Modelle zur Erklärung des Verhaltens unterschiedlicher Benutzergruppen zu erstellen
  • Semantische Anreicherung und Analyse von kollaborativ erstellten Dokumenten (z.B. von Wikipedia-Artikeln oder wissenschaftlichen Publikationen) und deren Verknüpfung mit Informationen zum Erstellungsprozess (z.B. demographische Attribute der Verfassenden, Konflikte, Produktivität)
  • Statistische Modellierung von sequentiellem menschlichen Handeln (z.B. Navigationsentscheidungen im Web oder die individuelle Fortbewegung im städtischen Straßensystem)
  • Erkennung, Disambiguierung und Verlinkung von sozialwissenschaftlich relevanten Entitäten in wissenschaftlichen Publikationen (wie insbesondere Referenzen auf Forschungsdaten)
  • Extraktion von Schlüsselinformationen aus Texten (z.B. Keywords) und (Semi-)Automatisierung der Inhaltserschließung
  • Zapilko, Benjamin, and Brigitte Mathiak. 2011. "Performing statistical methods on linked data." DC-2011 - The Eleventh International Conference on Dublin Core and Metadata Applications.
  • Zapilko, Benjamin, and Brigitte Mathiak. 2011. "Defining and Executing Assessment Tests on Linked Data for Statistical Analysis." In Proceedings of the Second International Workshop on Consuming Linked Data (COLD2011), edited by Olaf Hartig, Andreas Harth, and Juan Sequeda, CEUR Workshop Proceedings 782. http://ceur-ws.org/Vol-782/ZapilkoAndMathiak_COLD2011.pdf.
  • Hienert, Daniel, Benjamin Zapilko, Philipp Schaer, and Brigitte Mathiak. 2011. "Vizgr - combining data on a visual level." In WEBIST 2011, Proceedings of the 7th International Conference on Web Information Systems and Technologies, Noordwijkerhout, Netherlands, 6-9 May, 2011, edited by José Cordeiro, and Joaquim Filipe, 202-211. http://arxiv.org/pdf/1104.5377v1.
  • van Hoek, Wilko, Brigitte Mathiak, Philipp Mayr, and Sascha Schüller. 2011. "Comparing the accuracy of the semantic similarity provided by the Normalized Google Distance (NGD) and the Search Term Recommender (STR)." 10th European NKOS Workshop at TPDL 2011.
  • Hienert, Daniel, Benjamin Zapilko, Philipp Schaer, and Brigitte Mathiak. 2011. "Web-based multi-view visualizations for aggregated statistics." In 2nd International Workshop on Data Visualization and Integration on the Web (DATAVIEW); Proceedings of the 5th International Workshop on Web APIs and Services Mashups Proceedings (Mashups '11), New York: ACM. doi: https://doi.org/10.1145/2076006.2076019. http://arxiv.org/pdf/1110.3126v1.