Open Mining Infrastructure for Text and Data (OpenMinTeD)
Projektbeschreibung
Die Menge an digitalen Daten steigt stetig – insbesondere die
Menge an wissenschaftlichen Publikationen erhöht sich um 1,5 Millionen
jährlich. Diese Publikationen decken eine große Bandbreite an
Forschungsfeldern ab, wovon jedes eigene Terminologie, Konventionen und
Ausdrucksmöglichkeiten besitzt, um Wissen zu vermitteln. Zudem sind die
Publikationen in verschiedenen Sprachen verfasst und unterliegen
diversen Zugriffsrechten und/oder –Restriktionen.
Gleichzeitig wurden in der Vergangenheit verschiedene Text Mining
(TM) Tools und Plattformen entwickelt, zur Anwendung auf linguistisch
generischem Text oder mit Fokus auf bestimmte Domänen und Sprachen.
Jedes Tool bringt dabei eigene technische und linguistische
Spezifikationen mit. Text Mining Tools wurden im letzten Jahrzehnt
zunehmend in Text Mining Plattformen integriert, um so eine Ebene der
Interoperabilität zwischen Tools und Komponenten derselben Plattform zu
schaffen. Initiativen zur plattformübergreifenden Interoperabilität
wurden in den letzten Jahren begonnen.
Sowohl Text Mining Tools als auch Plattformen sind derzeit nicht
leicht durch die Endnutzer (Forscher, Kuratoren, Bibliothekare,
Entscheidungsträger etc.) auffindbar, da sie auf verschiedenste Weise
dokumentiert sind, was deren Suche und Auffindung zu einer
Herausforderung macht.
OpenMinTeD strebt die Erschaffung einer Infrastruktur an, die den
Gebrauch von Text und Data Mining (TDM) Technologien in der Welt der
wissenschaftlichen Publikationen fördert und erleichtert, auf
existierenden TM Tools und Plattformen aufbaut und diese (durch
entsprechende Registraturen) auffindbar und interoperabel macht.
Die Rolle von GESIS in diesem Projekt ist die Bereitstellung von
Anwendungsfällen für Text und Data Mining in den Sozialwissenschaften.
Weiterhin beteiligt sich GESIS an der Implementation entsprechender
Lösungen.