Unsere Datensätze mit Digitalen Verhaltensdaten

Das Sammeln von Social-Media-Daten und anderen digitalen Verhaltensdaten (DBD) nach den Standards der sozialwissenschaftlichen Forschung ist eine nicht triviale Aufgabe und oft eine Herausforderung für einzelne Forschende.

GESIS entwickelt innovative Methoden zur Erhebung digitaler Verhaltensdaten in den Sozialwissenschaften. In Übereinstimmung mit den geltenden Eigentums- und Datenschutzbeschränkungen stellen wir die damit gewonnenen Daten zur wissenschaftlichen Weiterverwendung zur Verfügung. GESIS bietet eine Reihe von gesammelten, kuratierten und erweiterten Datensätzen an. Diese Daten sind transparent, ready-to-use und oft mit zusätzlichen Materialien oder Tools versehen. Wir konzentrieren uns auf aktuelle, sozialwissenschaftlich relevante Daten, Trainingsdaten – z.B. zur Attribut- oder Meinungserkennung – oder große Datensätze, die für individuelle Forschungszwecke weiter ausgewertet werden können.

Mit den "Total Error Sheets for Datasets" (TES-D) schlagen wir eine Vorlage zur Dokumentation von Datensätzen vor, die von Online-Plattformen zu Forschungszwecken gesammelt wurden; Die Total Error Sheets für Datensätze basieren auf unserem "Total Error Framework for Digital Traces of Human Behavior on Online Platforms" (TED-On).

Deutsche Bundestagswahlen

Themenkollektion
Quelle: Twitter, Facebook

Diese Datensätze präsentieren Ergebnisse aus dem Social Media Monitoring von Facebook und Twitter für die Bundestagswahlkämpfe 2013, 2017 und 2021. Das Projekt sammelt die Tweets und Facebook-Posts von politischen Kandidat*innen und Organisationen sowie die Auseinandersetzung der Nutzenden mit diesen Inhalten.

2013 Daten | 2017 Daten | 2013 Report (637 kB) (637 kB) | 2017 Report | 2021 Daten | 2021 Report | Tool | Paper | MTE Talk

TweetsCOV19

Längsschnitt-Crawl
Quelle: Twitter

Semantisch annotierter Korpus von Tweets im Zusammenhang mit der COVID-19-Pandemie, der den Online-Diskurs über verschiedene Aspekte der Pandemie und ihre gesellschaftlichen Auswirkungen ab Oktober 2019 erfasst. Der Datensatz enthält bereits berechnete Entitäts- und Stimmungsannotationen sowie extrahierte Tweet-Metadaten. Die Daten sind öffentlich zugänglich.

Beschreibung | Report | Daten

'Call me sexist but' (CMSB)

Thematische Kollektion, Trainingsdaten
Quelle: Twitter, Crowdsourced

Der "Call me sexist but"-Datensatz (CMSB) ist Teil unserer Arbeit zur Analyse verschiedener Dimensionen von Sexismus in sozialen Medien, darunter offener feindseliger Sexismus, "wohlwollender" Sexismus oder subtilere Formen, die eine besondere Herausforderung für automatische Erkennungsverfahren darstellen. Damit wollen wir Methoden verbessern, um z. B. Sexismus auf Online-Plattformen zu bekämpfen.

Daten | Paper | Blog | Github | Github

Just another Day on Twitter

Plattform-Daten, Baseline-Daten
Quelle: Twitter

Der Datensatz "Just another day on Twitter" stellt eine vollständige Aufzeichnung eines Tages auf Twitter (20./21. September 2022) dar, die in einer weltweit koordinierten Anstrengung von 80 Wissenschaftler*innen erstellt wurde. Obwohl es sich um "nur einen weiteren Tag" handelt, fallen die 24 Stunden in eine turbulente Zeit, in der Elon Musk kurz davor steht, die Plattform zu übernehmen

Daten | Paper

VACOS-NLQ

Thematische Daten, Natural Language Daten
Quelle: Crowdsourced

Der Datensatz für natürlichsprachliche Abfragen (VACOS-NLQ) ist eine Sammlung von 3.540 schriftlichen Abfragen für die Produktsuche im elektronischen Handel (Laptops und Jacken). Die Abfragen sind mit Informationen über Alter, Geschlecht und Fachwissen der Teilnehmenden angereichert.

Daten Quellcode auf GitLab | Paper

Incelforum-Daten

Thematische Daten, Plattform-Daten

Der Datensatz besteht aus allen öffentlich sichtbaren Beiträgen und den Daten, die zu jedem Beitrag des Online-Forums incels.is während einer Woche im November 2022 gehören. Die Daten ermöglichen es, Fragen rund um unfreiwilliges Zölibat, Hate-Speech, Kommunikation in Online-Foren, die Entstehung von Terrorakten und Selbstmordprävention zu untersuchen.

Daten

SocioPatterns

Soziale-Netzwerk-Daten
RFID-Sensoren-Daten, Soziodemografische Daten

Die SocioPatterns-Infrastruktur ermöglicht die Sammlung von Daten über Face-to-Face-Interaktionen in sozialen Kontexten über tragbare Sensoren. GESIS hat dies genutzt, um Kontaktdaten auf akademischen Konferenzen und in anderen sozialen Kontexten zu erhalten. Der Zugang zu den Daten ist aus Gründen der Anonymität eingeschränkt. Es wurden jedoch begrenzte Sätze von Konferenzkontaktdaten und soziodemografischen Metadaten zur Verfügung gestellt.

Kontaktdaten | Metadaten | Paper | Buchkapitel | Paper | SocioPatterns

Invasion@Ukraine

Ein Rohdatensatz mit Tweets, die über die Twitter Streaming API im Rahmen Kriegsausbruchs in der Ukraine gesammelt wurden. Insgesamt haben wir 8,7 Millionen Original-Tweets aus 2,3 Millionen Nutzendenkonten zwischen dem 17. Februar und dem 3. März 2022 gesammelt. Darüber hinaus wurden die Daten mit Verfügbarkeits-Tags versehen, die Informationen über die Moderationsrichtlinien von Twitter geben können.

Daten

TweetsKB

Längsschnitt-Crawl
Quelle: Twitter

TweetsKB ist ein öffentlicher Datensatz von semantisch annotierten Tweets, der auf einem permanenten Twitter-Crawl basiert. Der Datensatz enthält derzeit Daten für mehr als 2,0 Milliarden Tweets, die sich von Februar 2013 bis heute erstrecken. Metadaten zu den Tweets, extrahierte Entitäten, Stimmungen, Hashtags und Nutzendenerwähnungen werden als öffentliche Wissensdatenbank bereitgestell

Beschreibung | Daten | Paper

ClaimsKG

ClaimsKG ist eine strukturierte Datenbank, die als Register für Claims (Behauptungen) dient. Es bietet einen Einstiegspunkt für Forschende, um Claims und beteiligte Entitäten zu entdecken. Zudem können diese über Links zu Faktencheck-Websites verifiziert werden. Grundlage der Datenbank ist ein Knowledge Graph, der Daten über Claims, Metadaten (z. B. ihre Veröffentlichungsseite) und beteiligte Entitäten (annotiert mit NLP-Techniken) und normalisierte Fake-Ratings liefert.

Data | Paper | Description

SciTweets

SciTweets ist ein von Expert*innen kommentierter Datensatz mit 1261 Tweets aus den folgenden drei Kategorien zur Wissenschaftsbezogenheit: (1) Wissenschaftliche Erkenntnisse (wissenschaftlich überprüfbare Behauptungen), (2) Verweis auf wissenschaftliche Erkenntnisse und (3) Bezogen auf wissenschaftliche Forschung im Allgemeinen. Darüber hinaus enthalten die Anmerkungen die Konfidenzwerte der Kommentator*innen sowie Beschriftungen für zusammengesetzte Behauptungen und ironische Tweets.

Data | Paper | Code

Historische Narrative

Thematische Kollektion
Quelle: Wikipedia

Diese Daten ermöglichen die Auswertung von Zeitleisten und die Erkennung von zeitlichen Schwerpunkten der geschriebenen Geschichte in verschiedenen Sprachen auf Wikipedia. Artikel zur Geschichte aller UN-Mitgliedsstaaten wurden extrahiert und in 30 Sprachversionen verglichen. Unser computergestützter Ansatz ermöglicht es, historische Brennpunkte quantitativ zu identifizieren und verschiedene Kulturen der Geschichtsschreibung herauszuarbeiten.

Daten | Paper | Paper

Politiker auf Wikipedia

Thematische Kollektion
Quelle: Wikipedia, DBPedia

Der Datensatz enthält Informationen über internationale Politiker*nnen aus DBpedia, einschließlich Name, Geschlecht, Nationalität und für viele auch die Parteizugehörigkeit. Der Datensatz basiert auf dem englischen DBpedia-Dump vom Oktober 2015. Die Daten wurden verwendet, um eine interaktive Visualisierung der Netzwerke von Politiker*innen zu erstellen.

Daten | Visualisierung

TokTrack Wikipedia

Plattform-Daten
Quelle: Wikipedia

Dieser Datensatz enthält jede Instanz aller Token (≈ Wörter), die jemals in nicht gelöschten, nicht umgeleiteten englischen Wikipedia-Artikeln bis Oktober 2016 geschrieben wurden, insgesamt 13.545.349.787 Instanzen. Wir bieten auch "WikiWho" an - ein Service-Tool zur Verfolgung der kollaborativen Wissensproduktion auf Wikipedia.

Daten | WikiWhoTool | WikiWhoTutorial | Report

Historie der Wikipedia-Referenzen

Scientometrische Daten
Quelle: Wikipedia

Dieser Datensatz enthält die historischen Versionen aller individuellen Referenzen pro Artikel in der englischen Wikipedia bis Juni 2019. Jedes Verweisobjekt enthält auch Informationen über die ursprünglich erstellenden Redakteur*innen, die Redakteur*innen, die Änderungen daran vorgenommen haben, und Zeitstempel aller Aktionen. Der Datensatz enthält 55.503.998 Verweise mit 164.530.374 Aktionen.

Daten | Paper

Sie wollen mehr über Digitale Verhaltensdaten erfahren?

Finden Sie Forschungspublikationen zu digitalen Verhaltensdaten über die GESIS-Suche; Werkzeuge und Richtlinien für die Analyse digitaler Verhaltensdaten; weitere Datensätze in dieser thematischen Datensammlung; Videos, Tutorials und andere Schulungsmaterialien für den Aufbau von CSS-Kapazitäten oder kommende Kurse von GESIS Training.