Open Mining Infrastructure for Text and Data (OpenMinTeD)
Projektbeschreibung
Die Menge an digitalen Daten steigt stetig – insbesondere die Menge an wissenschaftlichen Publikationen erhöht sich um 1,5 Millionen jährlich. Diese Publikationen decken eine große Bandbreite an Forschungsfeldern ab, wovon jedes eigene Terminologie, Konventionen und Ausdrucksmöglichkeiten besitzt, um Wissen zu vermitteln. Zudem sind die Publikationen in verschiedenen Sprachen verfasst und unterliegen diversen Zugriffsrechten und/oder –Restriktionen.
Gleichzeitig wurden in der Vergangenheit verschiedene Text Mining (TM) Tools und Plattformen entwickelt, zur Anwendung auf linguistisch generischem Text oder mit Fokus auf bestimmte Domänen und Sprachen. Jedes Tool bringt dabei eigene technische und linguistische Spezifikationen mit. Text Mining Tools wurden im letzten Jahrzehnt zunehmend in Text Mining Plattformen integriert, um so eine Ebene der Interoperabilität zwischen Tools und Komponenten derselben Plattform zu schaffen. Initiativen zur plattformübergreifenden Interoperabilität wurden in den letzten Jahren begonnen.
Sowohl Text Mining Tools als auch Plattformen sind derzeit nicht leicht durch die Endnutzer (Forscher, Kuratoren, Bibliothekare, Entscheidungsträger etc.) auffindbar, da sie auf verschiedenste Weise dokumentiert sind, was deren Suche und Auffindung zu einer Herausforderung macht.
OpenMinTeD strebt die Erschaffung einer Infrastruktur an, die den Gebrauch von Text und Data Mining (TDM) Technologien in der Welt der wissenschaftlichen Publikationen fördert und erleichtert, auf existierenden TM Tools und Plattformen aufbaut und diese (durch entsprechende Registraturen) auffindbar und interoperabel macht.
Die Rolle von GESIS in diesem Projekt ist die Bereitstellung von Anwendungsfällen für Text und Data Mining in den Sozialwissenschaften. Weiterhin beteiligt sich GESIS an der Implementation entsprechender Lösungen.