GESIS Web Data

Was ist GESIS Web Data?

Der Service Web Data vereint verschiedene Aktivitäten rund um die Erhebung digitaler Verhaltensdaten aus dem Internet, insbesondere von Online-Plattformen, einschließlich sozialer Medien. Der Service bietet langfristige Datensammlungen von bestimmten Plattformen (wie Twitter oder Telegram) sowie zusätzliche Datenangebote, die speziell für die Forschung zu aktuellen Themen von gesellschaftlicher Relevanz oder zu akuten Ereignissen erhoben werden.

Wir arbeiten derzeit an der Implementierung neuer Datensammlungen. Die ersten beiden werden ein kontinuierlicher Crawl von Telegram-Kanälen sowie eine Sammlung von Inhalten und Werbung auf sozialen Medien sowie Suchmaschinendaten für die deutschen Kandidat:innen für die Europawahl 2024 sein. Allgemein basiert die Auswahl der Plattformen und Themen auf ihrer Relevanz für die sozialwissenschaftliche Forschung, der technischen Machbarkeit, rechtlichen und ethischen Erwägungen sowie Input aus der Community.

Vorhandene Datensätze

Über unsere GESIS-Suche finden Sie Digitale Verhaltensdaten aus unserem Archiv in der thematischen Datensammlung "Digitale Verhaltensdaten".

Mehr erfahren

Der Service GESIS Web Data besteht aus drei Komponenten:

Datenerhebung
Kontinuierliche oder zeitlich begrenzte thematische Datensammlungen von verschiedenen Plattformen.

Datenangebote
Spezifische Datenangebote, die aus den verschiedenen Sammlungen erstellt werden und der Community über bestehende (z. B. Datendownload über Katalog oder Zugang über das Secure Data Center) oder zukünftige Zugangswege (wie Secure Remote Access oder über APIs) zur Verfügung gestellt werden.

Einbeziehung der Community
Aktivitäten zur Einbindung der Community, wie z. B. Workshops, Hackathons und Nutzendenbefragungen, um Bedürfnisse der Nutzenden und Feedback zu erfassen, um so die Angebote (weiter) zu entwickeln.

Es gibt mehrere Gründe, warum der Service GESIS Web Data für die Forschung wertvoll ist:

  • Unabhängigkeit von kommerziellen Anbietern, deren Interessen nicht unbedingt mit den Grundsätzen der offenen Wissenschaft übereinstimmen und die die Zugangsmodalitäten jederzeit ändern können.
  • Kontinuierliche Sammlungen von Webdaten stellen sicher, dass historische Daten zu jedem aufkommenden Thema zugänglich sind und dass Forschende nicht auf eine nachträgliche Datensammlung angewiesen sind. Bei der Sammlung historischer Daten besteht insbesondere das Risiko, dass diese (teilweise) gelöscht oder der Zugang zu ihnen (durch Plattform-APIs) eingeschränkt werden kann.
  • Ressourcen für groß angelegte und/oder kontinuierliche Sammlungen von Webdaten stehen einzelnen Forschenden oder Forschungsprojekten (insbesondere kleineren) oft nicht zur Verfügung. Ein Infrastrukturinstitut wie GESIS ist jedoch in der Lage, solche Aufgaben zu übernehmen und zudem Daten auch “vorsorglich” zu sammeln.
  • Persistenz und Langzeitverfügbarkeit von Daten sind entscheidende Voraussetzungen für Reproduzierbarkeit und Nachnutzbarkeit. Reproduzierbarkeit und Nachnutzbarkeit sind wichtige Aspekte, die durch die Nutzung öffentlicher Datenarchive wesentlich unterstützt werden. Neben der Archivierung können diese auch Transparenz sowohl im Hinblick auf die genutzten Daten als auch die angewandten Methoden (zur Sammlung und Stichprobenziehung) gewährleisten.