- Home
- Angebot
- Daten finden und abrufen
- GESIS Web Data
- Digitale Verhaltensdaten: Datensätze
Unsere Datensätze mit Digitalen Verhaltensdaten
Deutsche Bundestagswahlen
Themenkollektion
Quelle: Twitter, Facebook
Diese Datensätze präsentieren Ergebnisse aus dem Social Media Monitoring von Facebook und Twitter für die Bundestagswahlkämpfe 2013, 2017 und 2021. Das Projekt sammelt die Tweets und Facebook-Posts von politischen Kandidat*innen und Organisationen sowie die Auseinandersetzung der Nutzenden mit diesen Inhalten.
2013 Daten | 2017 Daten | 2013 Report (637 kB) (637 kB) | 2017 Report | 2021 Daten | 2021 Report | Tool | Paper | MTE Talk
TweetsCOV19
Längsschnitt-Crawl
Quelle: Twitter
Semantisch annotierter Korpus von Tweets im Zusammenhang mit der COVID-19-Pandemie, der den Online-Diskurs über verschiedene Aspekte der Pandemie und ihre gesellschaftlichen Auswirkungen ab Oktober 2019 erfasst. Der Datensatz enthält bereits berechnete Entitäts- und Stimmungsannotationen sowie extrahierte Tweet-Metadaten. Die Daten sind öffentlich zugänglich.
Beschreibung | Report | Daten
'Call me sexist but' (CMSB)
Thematische Kollektion, Trainingsdaten
Quelle: Twitter, Crowdsourced
Der "Call me sexist but"-Datensatz (CMSB) ist Teil unserer Arbeit zur Analyse verschiedener Dimensionen von Sexismus in sozialen Medien, darunter offener feindseliger Sexismus, "wohlwollender" Sexismus oder subtilere Formen, die eine besondere Herausforderung für automatische Erkennungsverfahren darstellen. Damit wollen wir Methoden verbessern, um z. B. Sexismus auf Online-Plattformen zu bekämpfen.
Just another Day on Twitter
Plattform-Daten, Baseline-Daten
Quelle: Twitter
Der Datensatz "Just another day on Twitter" stellt eine vollständige Aufzeichnung eines Tages auf Twitter (20./21. September 2022) dar, die in einer weltweit koordinierten Anstrengung von 80 Wissenschaftler*innen erstellt wurde. Obwohl es sich um "nur einen weiteren Tag" handelt, fallen die 24 Stunden in eine turbulente Zeit, in der Elon Musk kurz davor steht, die Plattform zu übernehmen
VACOS-NLQ
Thematische Daten, Natural Language Daten
Quelle: Crowdsourced
Der Datensatz für natürlichsprachliche Abfragen (VACOS-NLQ) ist eine Sammlung von 3.540 schriftlichen Abfragen für die Produktsuche im elektronischen Handel (Laptops und Jacken). Die Abfragen sind mit Informationen über Alter, Geschlecht und Fachwissen der Teilnehmenden angereichert.
Incelforum-Daten
Thematische Daten, Plattform-Daten
Der Datensatz besteht aus allen öffentlich sichtbaren Beiträgen und den Daten, die zu jedem Beitrag des Online-Forums incels.is während einer Woche im November 2022 gehören. Die Daten ermöglichen es, Fragen rund um unfreiwilliges Zölibat, Hate-Speech, Kommunikation in Online-Foren, die Entstehung von Terrorakten und Selbstmordprävention zu untersuchen.
SocioPatterns
Soziale-Netzwerk-Daten
RFID-Sensoren-Daten, Soziodemografische Daten
Die SocioPatterns-Infrastruktur ermöglicht die Sammlung von Daten über Face-to-Face-Interaktionen in sozialen Kontexten über tragbare Sensoren. GESIS hat dies genutzt, um Kontaktdaten auf akademischen Konferenzen und in anderen sozialen Kontexten zu erhalten. Der Zugang zu den Daten ist aus Gründen der Anonymität eingeschränkt. Es wurden jedoch begrenzte Sätze von Konferenzkontaktdaten und soziodemografischen Metadaten zur Verfügung gestellt.
Kontaktdaten | Metadaten | Paper | Buchkapitel | Paper | SocioPatterns
Invasion@Ukraine
Ein Rohdatensatz mit Tweets, die über die Twitter Streaming API im Rahmen Kriegsausbruchs in der Ukraine gesammelt wurden. Insgesamt haben wir 8,7 Millionen Original-Tweets aus 2,3 Millionen Nutzendenkonten zwischen dem 17. Februar und dem 3. März 2022 gesammelt. Darüber hinaus wurden die Daten mit Verfügbarkeits-Tags versehen, die Informationen über die Moderationsrichtlinien von Twitter geben können.
TweetsKB
Längsschnitt-Crawl
Quelle: Twitter
TweetsKB ist ein öffentlicher Datensatz von semantisch annotierten Tweets, der auf einem permanenten Twitter-Crawl basiert. Der Datensatz enthält derzeit Daten für mehr als 2,0 Milliarden Tweets, die sich von Februar 2013 bis heute erstrecken. Metadaten zu den Tweets, extrahierte Entitäten, Stimmungen, Hashtags und Nutzendenerwähnungen werden als öffentliche Wissensdatenbank bereitgestell
Beschreibung | Daten | Paper
ClaimsKG
ClaimsKG ist eine strukturierte Datenbank, die als Register für Claims (Behauptungen) dient. Es bietet einen Einstiegspunkt für Forschende, um Claims und beteiligte Entitäten zu entdecken. Zudem können diese über Links zu Faktencheck-Websites verifiziert werden. Grundlage der Datenbank ist ein Knowledge Graph, der Daten über Claims, Metadaten (z. B. ihre Veröffentlichungsseite) und beteiligte Entitäten (annotiert mit NLP-Techniken) und normalisierte Fake-Ratings liefert.
Data | Paper | Description
SciTweets
SciTweets ist ein von Expert*innen kommentierter Datensatz mit 1261 Tweets aus den folgenden drei Kategorien zur Wissenschaftsbezogenheit: (1) Wissenschaftliche Erkenntnisse (wissenschaftlich überprüfbare Behauptungen), (2) Verweis auf wissenschaftliche Erkenntnisse und (3) Bezogen auf wissenschaftliche Forschung im Allgemeinen. Darüber hinaus enthalten die Anmerkungen die Konfidenzwerte der Kommentator*innen sowie Beschriftungen für zusammengesetzte Behauptungen und ironische Tweets.
Historische Narrative
Thematische Kollektion
Quelle: Wikipedia
Diese Daten ermöglichen die Auswertung von Zeitleisten und die Erkennung von zeitlichen Schwerpunkten der geschriebenen Geschichte in verschiedenen Sprachen auf Wikipedia. Artikel zur Geschichte aller UN-Mitgliedsstaaten wurden extrahiert und in 30 Sprachversionen verglichen. Unser computergestützter Ansatz ermöglicht es, historische Brennpunkte quantitativ zu identifizieren und verschiedene Kulturen der Geschichtsschreibung herauszuarbeiten.
Politiker auf Wikipedia
Thematische Kollektion
Quelle: Wikipedia, DBPedia
Der Datensatz enthält Informationen über internationale Politiker*nnen aus DBpedia, einschließlich Name, Geschlecht, Nationalität und für viele auch die Parteizugehörigkeit. Der Datensatz basiert auf dem englischen DBpedia-Dump vom Oktober 2015. Die Daten wurden verwendet, um eine interaktive Visualisierung der Netzwerke von Politiker*innen zu erstellen.
TokTrack Wikipedia
Plattform-Daten
Quelle: Wikipedia
Dieser Datensatz enthält jede Instanz aller Token (≈ Wörter), die jemals in nicht gelöschten, nicht umgeleiteten englischen Wikipedia-Artikeln bis Oktober 2016 geschrieben wurden, insgesamt 13.545.349.787 Instanzen. Wir bieten auch "WikiWho" an - ein Service-Tool zur Verfolgung der kollaborativen Wissensproduktion auf Wikipedia.
Historie der Wikipedia-Referenzen
Scientometrische Daten
Quelle: Wikipedia
Dieser Datensatz enthält die historischen Versionen aller individuellen Referenzen pro Artikel in der englischen Wikipedia bis Juni 2019. Jedes Verweisobjekt enthält auch Informationen über die ursprünglich erstellenden Redakteur*innen, die Redakteur*innen, die Änderungen daran vorgenommen haben, und Zeitstempel aller Aktionen. Der Datensatz enthält 55.503.998 Verweise mit 164.530.374 Aktionen.
Sie wollen mehr über Digitale Verhaltensdaten erfahren?
Finden Sie Forschungspublikationen zu digitalen Verhaltensdaten über die GESIS-Suche; Werkzeuge und Richtlinien für die Analyse digitaler Verhaltensdaten; weitere Datensätze in dieser thematischen Datensammlung; Videos, Tutorials und andere Schulungsmaterialien für den Aufbau von CSS-Kapazitäten oder kommende Kurse von GESIS Training.