Peter Mutschke M.A.

Wissenstechnologien für Sozialwissenschaften
Open Science Technology
Kommissarischer Abteilungsleiter

+49 (221) 47694-500
E-Mail
vCard

OpenMinTeD

Open Mining Infrastructure for Text and Data

Bearbeitung: Dr. Andrea Zielinski
Leitung: Peter Mutschke
Wissenschaftlicher Arbeitsbereich: Wissenstechnologien für Sozialwissenschaften (WTS)

Projektbeschreibung

Die Menge an digitalen Daten steigt stetig – insbesondere die Menge an wissenschaftlichen Publikationen erhöht sich um 1,5 Millionen jährlich. Diese Publikationen decken eine große Bandbreite an Forschungsfeldern ab, wovon jedes eigene Terminologie, Konventionen und Ausdrucksmöglichkeiten besitzt, um Wissen zu vermitteln. Zudem sind die Publikationen in verschiedenen Sprachen verfasst und unterliegen diversen Zugriffsrechten und/oder –Restriktionen.

Gleichzeitig wurden in der Vergangenheit verschiedene Text Mining (TM) Tools und Plattformen entwickelt, zur Anwendung auf linguistisch generischem Text oder mit Fokus auf bestimmte Domänen und Sprachen. Jedes Tool bringt dabei eigene technische und linguistische Spezifikationen mit. Text Mining Tools wurden im letzten Jahrzehnt zunehmend in Text Mining Plattformen integriert, um so eine Ebene der Interoperabilität zwischen Tools und Komponenten derselben Plattform zu schaffen. Initiativen zur plattformübergreifenden Interoperabilität wurden in den letzten Jahren begonnen.

Sowohl Text Mining Tools als auch Plattformen sind derzeit nicht leicht durch die Endnutzer (Forscher, Kuratoren, Bibliothekare, Entscheidungsträger etc.) auffindbar, da sie auf verschiedenste Weise dokumentiert sind, was deren Suche und Auffindung zu einer Herausforderung macht.

OpenMinTeD strebt die Erschaffung einer Infrastruktur an, die den Gebrauch von Text und Data Mining (TDM) Technologien in der Welt der wissenschaftlichen Publikationen fördert und erleichtert, auf existierenden TM Tools und Plattformen aufbaut und diese (durch entsprechende Registraturen) auffindbar und interoperabel macht.

Die Rolle von GESIS in diesem Projekt ist die Bereitstellung von Anwendungsfällen für Text und Data Mining in den Sozialwissenschaften. Weiterhin beteiligt sich GESIS an der Implementation entsprechender Lösungen.

Projektlaufzeit

01.06.2015 – 31.05.2018

Gefördert durch

Partner

  • ATHENA Research and Innovation Center in Information, Communication and Knowledge Technologies (Greece) (Lead)
  • University of Manchester (UK)
  • Technische Universität Darmstadt (Germany)
  • Institut National de la Recherche Agronomique (France)
  • European Molecular Biology Laboratory (Germany)
  • Agro-Know (Greece)
  • Stichting LIBER (Netherlands)
  • University of Amsterdam (Netherlands)
  • Open University (UK)
  • École Polytechnique Fédérale De Lausanne (Switzerland)
  • Fundación Centro Nacional de Investigaciones Oncologicas Carlos III (Spain)
  • The University of Sheffield (UK)
  • Greek Research and Technology Network (Greece)
  • Frontiers Media SA (Switzerland)

Publikationen

  • Zielinski, Andrea, and Peter Mutschke. 2018. "Towards a Gold Standard Corpus for Variable Detection and Linking in Social Science Publications." In Proceedings of LREC 2018
  • Zielinski, Andrea, and Peter Mutschke. 2017. "Mining Social Science Publications for Survey Variables." In Proceedings of the Second Workshop on Natural Language Processing and Computational Social Science, Vancouver, Canada, August 3, 2017, edited by Dirk Hovy, Svitlana Volkova, and David Bamman, 47–52. Association for Computational Linguistics. aclweb.org/anthology/W17-29. aclweb.org/anthology/W17-29.