GESIS Leibniz-Institut für Sozialwissenschaften: Homepage aufrufen

Text and Data Mining

Text und Data Mining umfasst die Entwicklung und Anwendung von Methoden, um für die Sozialwissenschaften relevantes Wissen aus unstrukturierten Texten und Datenströmen zu extrahieren.

Schwerpunkte der Forschung in diesem Bereich sind:

  • Erkennung von statistischen Regelmäßigkeiten in Daten und Texten und deren Nutzung für unterschiedliche Anwendungsfälle, z.B. für die automatisierte Gruppierung von Texten oder Datenpunkten nach bestimmten Merkmalen (wie demographischen Merkmalen oder politischen Einstellungen)
  • Verknüpfung von Umfragedaten mit digitalen Verhaltensdaten, um Modelle zur Erklärung des Verhaltens unterschiedlicher Benutzergruppen zu erstellen
  • Semantische Anreicherung und Analyse von kollaborativ erstellten Dokumenten (z.B. von Wikipedia-Artikeln oder wissenschaftlichen Publikationen) und deren Verknüpfung mit Informationen zum Erstellungsprozess (z.B. demographische Attribute der Autoren, Konflikte, Produktivität)
  • Statistische Modellierung von sequentiellem menschlichen Handeln (z.B. Navigationsentscheidungen im Web oder die individuelle Fortbewegung im städtischen Straßensystem)
  • Erkennung, Disambiguierung und Verlinkung von sozialwissenschaftlich relevanten Entitäten in wissenschaftlichen Publikationen (wie insbesondere Referenzen auf Forschungsdaten)
  • Extraktion von Schlüsselinformationen aus Texten (z.B. Keywords) und (Semi-)Automatisierung der Inhaltserschließung
  • Hienert, Daniel, Philipp Schaer, Johann Schaible, and Philipp Mayr. 2011. "A novel combined term suggestion service for domain-specific digital libraries." In Research and advanced technology for digital libraries: international conference on theory and practice of digital libraries, TPDL 2011, edited by Stefan Gradmann, Francesca Borri, Carlo Meghini, and Heiko Schuldt, Lecture Notes in Computer Science 6966, 192-203. Springer. http://arxiv.org/abs/1106.1523.
  • Hienert, Daniel, Benjamin Zapilko, Philipp Schaer, and Brigitte Mathiak. 2011. "Vizgr: combining data on a visual level." 7th International Conference on Web Information Systems and Technologies (WEBIST).
  • Schaible, Johann. 2011. "Analysis und Numerik." Sankt Augustin. SS 2011: 4 SWS.
  • Schaible, Johann. 2011. "Mathematische und physikalische Grundlagen." Sankt Augustin. WS 2010/2011: 4 SWS.
  • Schaible, Johann, Brigitte Mathiak, and Oliver Hopt. 2011. "Structuring unstructured data using controlled vocabularies." Data Science Professionals: a Global Community of Sharing at the International Association for Social Science Information Services and Technology conference (IASSIST).