GESIS Leibniz Institute for the Social Sciences: Go to homepage

2021, 28 online workshops took place. The workshops were held partly in English and partly in German and covered a large part of empirical social research.

Der Workshop bietet Einsteigern in und Umsteigern auf das Statistikprogramm Stata praxisnah die Möglichkeit den Umgang mit der Software zu erlernen. Mit einem Schwerpunkt auf Grundlagen und Syntax (Do-Files) wird sichergestellt, dass das Wissen den Teilnehmerinnen auch nachhaltig zur Verfügung steht. Statistische Grundlagen werden – wenn notwendig – angeschnitten. Die Vermittlung dieser steht aber nicht im Mittelpunkt der Veranstaltung. Der Kurs behandelt insbes. Datenaufbereitung und -management, aber auch Berechnungen aus der deskriptiven Statistik sowie einen Einblick in die lineare und logistische Regression. Behandelt werden die Bereiche Arbeiten mit dem do-File Datensätze einlesen, zusammenführen und speichern Labels Datenmanipulation Uni- und Bivariate Statistiken mit Stata Grafiken und Tabellen Lineare und logistische Regression, sowie Einführung Regressionsdiagnostik

When social scientists aim to use geospatial data, they must rely on specialized tools, called Geographic Information Systems (GIS). However, the world of GIS is complicated, since often only foreign software solutions provide a comprehensive collection of available geospatial techniques. Fortunately, nowadays, social scientists can also use the statistical software R as a proper GIS. Thus, this course will teach how to exploit R and apply its geospatial techniques in a social science context. We will learn about the most common data formats, their quirks, and their application. Most importantly, the course will present data sources, how to get the data and wrangle them for further analysis.  Central are geospatial operations, such as cropping, aggregating or linking data. Finally, what is of interest for many researchers is creating maps, which is also straightforward in R.

The primary objective of this course is to provide participants with a proper understanding and the practical skills necessary for applying advanced techniques in structural equation modeling to hierarchically ordered twolevel data structures. Core topics of the course include random intercept & slope models, twolevel confirmatory factor analyses and twolevel structural equation models, and moderation and mediation in twolevel SEM. In order to put these different techniques to practice, participants will also become proficient in the use of the Mplus statistical software. Throughout the course, an emphasis will be put on how to achieve an adequate balance between theoretical assumptions, methods of data analysis and interpretation of the results. To facilitate the transfer of theoretical knowledge into participants' own research, a large part of the course will be devoted to systematic exercises using freely available survey data. Participants are encouraged, however, to also use their own data.

YouTube is the largest and most popular video platform on the internet. The producers and users of YouTube content generate huge amounts of data. These data are also of interest to researchers (in the social sciences as well as other disciplines) for studying different aspects of online media use and communication. Accessing and working with these data, however, can be challenging. In this workshop, we will first discuss the potential of YouTube data for research in the social sciences, and then introduce participants to different tools and methods for sampling and analyzing data from YouTube. We will then demonstrate and compare several tools for collecting YouTube data. Our focus for the main part of the workshop will be on using the tuber package for R to collect data via the YouTube API and wrangling and analyzing the data in R (using various packages). Regarding the type of data, we will focus on user comments but also will also (briefly) look into other YouTube data, such as video statistics and subtitles. For the comments, we will show how to clean/process them in R, how to deal with emojis, and how to do some basic forms of automated text analysis (e.g., word frequencies, sentiment analysis). While we believe that YouTube data has great potential for research in the social sciences (and other disciplines), we will also discuss the unique challenges and limitations of using this data.

The workshop introduces logistic regression from an applied social science perspective. The main differences between linear and logistic regression are discussed. A special focus is put on the difference in interpretation between odd-ratios, relative risks, and marginal effects. For that purpose logistic regression will be contrasted with linear probability models and negative binomial regression models. Another issue that is discussed is the comparison of model fit for nested and non-nested models. The two extensions of the binary logistic regression model that are introduced are the multinomial logit model and ordered logit model. The problems that arise for certain applied research question when using logistic regression (and some solutions) are discussed with reference to the latest methodological developments in the field. The last part of the seminar focuses on the topic of statistical significance, effect size and its use, misuse and possibilities of joint interpretation. As the focus of the seminar is not on the statistical theory of logistic regression, but on applications for social science research, all topics are exemplified with Stata exercises and/or group work. Participants are expected to contribute actively to the seminar discussion.

The course is designed to encourage participants, who are already handling Stata fluently, to unpack the potential of Stata for the automation of tasks in data management and data processing. Thus, it is not an introduction to the software but addresses advanced Stata users who want to learn how to employ loops and macros to efficiently solve data processing tasks, write own little programs (ados), or generate (LaTeX) documents from within Stata. The course will provide participants with the necessary basic knowledge on automation and programming in Stata, but beyond that we will discover how to write reproducible Stata syntax and maintain standardized workflows. The lecturers will present best practice examples from processing and analyzing survey data and participants will be able to apply their knowledge to use cases in Stata directly.

The workshop will provide a comprehensive methodological and practical introduction to event history analysis. Special attention will be devoted to applications in life course research being concerned with time-dynamic modeling of social processes. After clarifying basic concepts like states, time, event, and censoring, descriptive approaches like life-tables and Kaplan-Meier estimation are discussed. Both continuous-time and discrete-time methods as well as parametric and semi-parametric regression models are introduced. Accounting for time-dependent covariates and time-varying effects are major features of survival models and will be discussed in detail. In addition, the workshop will cover a series of advanced topics like statistical inference with survival methods and survey data, multi-episode data, competing risk models, multilevel survival analysis, and comparison of effects across models, times and groups. Substantial applications from sociological and demographic research will be used for illustration. Moreover, software package Stata 14 will be used throughout the workshop and exercises will help to deepen the acquired knowledge. Moreover, participants are encouraged to discuss their own work.    

The workshop Applied Data Visualization introduces students to the theory and methods underlying data visualization. Data analysts face an ever-increasing amount of data (→ big data) and rather revolutionary technological developments allow researchers to visually engage with data in unprecedented ways. Hence, data visualization is one of the most exciting fields in data science right now. In this workshop students acquire the skills to visualize data in R both for exploratory purposes as well as for the purpose of explanation/presentation. We’ll rely on R, the most-popular statistical programming environment when it comes to visualization and we’ll make use of popular R packages such as ggplot2 and plotly. Besides creating static graphs we’ll also have a look at interactive graphs and discuss how interactive visualization may revolutionize how we present data & findings.

The workshop will cover the ethical and operational issues associated with linking Twitter and survey data. We will begin by thinking about what new and exciting opportunities this new form of linked data provides. We will then move on to the challenges associated with designing, collecting, analyzing, publishing and sharing this type of linked data. Drawing on recent experiences of three UK studies (British Social Attitudes 2015, the Understanding Society Innovation Panel 2017 (IP10) and the NatCen Panel July 2017) we will explore issues around informed consent, disclosure, security and archiving. The workshop will be interactive with a focus on participant engagement and dialogue.

Der Workshop fokussiert die praktische Durchführung von qualitativen Interviews. Hierfür werden zunächst erkenntnistheoretische Grundlagen qualitativer Sozialforschung sowie unterschiedliche Interviewarten vermittelt und anhand von Interviewkonzeption und Sampling veranschaulicht. Schließlich stehen die Erstellung eines Leitfadens und Interviewtechniken im Zentrum des Workshops. Hierbei helfen Übungen, die Interviewsituation als komplexe Interaktion verständlich zu machen. Mit der Thematisierung von online und telefonischen Interviews gehen wir außerdem auf die Forschungssituation in Zeiten einer Pandemie ein. Zum Abschluss des Workshops geben wir Ausblicke auf die qualitative Inhaltsanalyse als Auswertungsmethode und diskutieren ethische Aspekte qualitativer Interviewstudien.

Sozialwissenschaftliche Forschung steht häufig vor dem Problem, dass soziale Phänomene wie z.B. ausländerablehnende Einstellungen nicht direkt beobachtbar sind. Solche latenten Konstrukte müssen daher mittels Messmodellen operationalisiert werden. Die Strukturgleichungsmodellierung (SEM) ist ein Verfahren, mit dessen Hilfe Messmodelle empirisch getestet sowie kausale Zusammenhängen zwischen latenten Variablen überprüft werden können.  

Der Workshop führt in die Logik der Strukturgleichungsmodellierung ein und verfolgt die anwendungsbezogene empirische Analyse (u.a. mit Daten des Allbus) mit gängiger SEM-Software (v.a. Mplus, aber auch mit Anschauungsbeispielen für R (package lavaan) und AMOS).

Zu den Themen gehören u.a.:

- Spezifikation und Schätzverfahren

- Konfirmatorische Faktorenanalyse

- Pfadanalyse

- Moderator- und Mediatoreffekte

- Multigruppenanalyse und Test auf Messäquivalenz

- Methodische Fallstricke

- Einführung in SEM-Software

Der Kurs lehrt, welche Fragestellungen, Designs, Samplingtechniken, Auswertungsstrategien und Validierungstechniken in mixed methods Forschungsstrategien eingesetzt werden. Hierbei wird ein spezielles Augenmerk auf die unterschiedliche Anwendung von Mixed Methods in deskriptiven und erklärenden Studien gelegt.

Die Anwendung wird anhand praktischer Beispiele und Übungen verdeutlicht. In einem umfangreichen Praxisteil werden Mixed Methods Datensätze mit Hilfe von SPSS und MAXQDA ausgewertet. Es ist möglich, eigene Forschungsprojekte und Beispiele in den Workshop zur Diskussion mitzubringen.

Die Teilnehmenden erhalten ein Skript mit allen verwendeten PPT-Folien, ein umfangreiches Literaturverzeichnis sowie Internetquellen zur weiteren Vertiefung.

Die Mehrebenenanalyse ist ein Verfahren zur simultanen Analyse von hierarchisch strukturierten Daten, wie sie etwa in der Organisationsforschung oder bei international vergleichenden Untersuchungen vorliegen.

Sind mehrere Untersuchungsteilnehmer gleichwirkenden Kontexteinflüssen ausgesetzt, wie dies bei den Schülern verschiedener Schulklassen oder den Befragten eines Landes innerhalb einer international vergleichenden Studie der Fall ist, dann sind die Voraussetzungen für die Anwendung der herkömmlichen Regressionsanalyse in aller Regel nicht mehr erfüllt.

Unter solchen Bedingungen ist es angeraten, die Analysen mit Hilfe eines Mehrebenenprogrammes durchzuführen.

Der Workshop bietet eine Einführung in die Logik der Mehrebenenanalyse, das Schätzen von Mehrebenenmodellen und die Interpretation der Ergebnisse. Neben metrischen werden auch dichotome abhängige Variablen eine Berücksichtigung finden.

Investigating causal relations often leads to questions regarding the processes and mechanisms underlying a specific effect. Is an effect mediated by one or more other variables? In practice, this question is frequently assessed by analyzing changes in regression coefficients after adding the putative mediators to the model. The modern literature on causal inference demonstrates, however, that this approach yields valid conclusions regarding mediation only under specific assumptions that are rarely made explicit in applied research.

This course uses graphical causal models and counterfactual definitions of direct and indirect effects to make transparent the conditions under which mediation analysis yields valid conclusions. In addition to the discussion of classic approaches to mediation the course also introduces modern regression-based methods of causal mediation analysis as well as formal sensitivity analysis. Each section of the course is accompanied by practical exercises, including the estimation of direct and indirect effects in Stata and R. As the course concludes, interested participants will have the opportunity to present their own mediation analysis and discuss the implications of causal mediation analysis for their own research. Alternatively, further topics like multiple mediators, time-varying mediation, or alternative estimation approaches will be discussed.

Ziel des Workshops ist es, in die Arbeit mit der Methode der qualitativen Inhaltsanalyse einzuführen. Der Fokus liegt dabei auf der inhaltlich-strukturierenden qualitativen Inhaltsanalyse nach Udo Kuckartz (2018) unter Berücksichtigung der Ansätze von Philipp Mayring (2015) und Margrit Schreier (2012). Die Phasen des Verfahrens werden anhand von eigenem Material der Teilnehmer/innen (soweit vorhanden) in Übungen erprobt. Insbesondere werden die folgenden Themen bearbeitet: Merkmale und Ablauf des Verfahrens, Kategorienbildung und Kategorienarten, die Entwicklung von und Anforderungen an inhaltsanalytische Kategoriensysteme, kodieren, Ergebnisdarstellung, Gütekriterien und Qualitätssicherung. Die Arbeitsphasen werden verknüpft mit Inputs zu Genese, Kennzeichen, Diversität und paradigmatischen Verortung der qualitativen Inhaltsanalyse.

This course introduces participants to the statistical programming language R and its use in the integrated development environment RStudio. R is a versatile language offering both the full range of established statistical procedures and cutting-edge techniques for data collection, processing, and analysis. RStudio wraps the language in a well-structured and easier to use environment. R's breadth of applications relies on a large catalogue of (user contributed-)packages, with notable recent contributions going towards a more unified framework for these packages.

The course aims to familiarize participants with the broad potential of these tools in general and for their personal needs and applications. After completing the course, participants will understand how to implement all steps of data analysis in RStudio. This includes learning R techniques for:

  • Data import from multiple sources
  • Data manipulation and visualization
  • Basic statistical analyses and linear regression
  • Automatic and interactive report generation

In addition to the technical programming skills, participants will also learn to apply a conceptual framework to data analysis, where all the steps of a data analysis are automated via a programmatic pipeline.

Core elements participants will gain familiarity with are:

RStudio: An integrated development environment for R supporting interactive data analysis, building of data analysis pipelines, and R software development

  • Tidyverse: A framework and collection of R packages centered on the concept of tidy data
  • Visualization: Generating and tailoring high-quality figures using the R package ggplot2
  • Reproducible analysis: Writing and generating automatic and reproducible reports using R Markdown

The workshop provides a basic introduction to qualitative network research. Starting from the epistemological premises of qualitative social research, we will dedicate ourselves to the conception of a qualitative network study and discuss the collection and analysis of network data. The participants will receive a basic introduction and overview of the current premises of qualitative network research. They get to know different kind of visuals tools for data collection and use the software Vennmarker, as well as sensitising strategies of qualitative analysis and interfaces to standardised network research. Theories, concepts and relevant studies of network research will be discussed. There is the possibility to bring in your own research projects and put them up for discussion

The activities and interactions of hundreds of millions of people worldwide are recorded as digital traces including social media data from websites like Facebook, Twitter, Instagram, reddit and more. These data offer increasingly comprehensive pictures of both individuals and groups on different platforms, but also allow inferences about broader target populations beyond those platforms. Notwithstanding the many advantages, studying the errors that can occur when digital traces are used to learn about humans and social phenomena is essential.

In this workshop, we propose to combine theory, data and methods to demonstrate both the pitfalls and potentials of digital traces from social media users. It includes both hands on sessions and general reflections on how to design a social media study.

In sessions spread over the course of four days, participates will

  • Get an overview on the field of social media research.
  • Conduct exemplary hands-on exercises in data collection, data preprocessing and data analysis.
  • Learn how error frameworks and data documentation initiatives can help to reflect about potential limitations of research designs.
  • Collaboratively draft a research design for an example case and receive feedback.  

For the practical part we will be mainly working with examples from publicly available social media data, most likely from the platform Reddit. Participants can work with scripts prepared by the teachers to collect and interact with the data and to learn about potential limitations and pitfalls. Previous programming skills are not required, and necessary preparation instructions will be shared prior to the course. We will demonstrate how existing scripts can be used via different environments such as GESIS Notebooks or Google Colab.

For the theoretical part we will be drawing on existing approaches that critically reflect the possibilities and limitations of social media research, including our own approach of a Total Error Framework for Digital Traces of Humans Online (TED-On) [the first paper in the literature list]. This conceptual framework helps to identify potential sources of errors in digital trace based research, organized by the different phases in a research process such as data collection, data preprocessing and data analysis. To help understand the utility of TED-On for digital traces, we apply it to diagnose and document errors in existing computational social science studies such as Understanding Political Opinion using Twitter and Using Search Queries for Inferring Health Statistics

The focus of the course is on reproducible research in the quantitative social and behavioral sciences. Reproducibility here means that other researchers can fully understand and (re-)use your statistical analyses. The workflows and tools covered in this course will, ultimately, also facilitate your own work as they allow you to automate analysis and reporting tasks. The goal of this course is to introduce participants to tools and processes for reproducible research and enable them to make use of those for their own work.

In addition to a conceptual introduction to the processes and key terms around reproducible research, the focus in this course will be on procedures for making a data analysis with R fully reproducible. We will cover questions of organization (e.g., folder structures, naming schemes, documentation, version control), “clean” code (e.g., documentation and modularization), as well as choosing and working with the required tools (besides R: RStudio, Git & GitHub, LaTeX, RMarkdown, Jupyter Notebooks, and Binder).

Strukturgleichungsmodelle (Structural Equation Models, SEM) und deren Darstellung als Pfaddiagramme sind ein Framework für unterschiedliche multivariate Analysen. Es können komplexe Zusammenhänge abgebildet und spezifische Hypothesen getestet werden. Eine besondere Stärke ist zudem die Modellierung und Berücksichtigung von nicht direkt beobachtbaren, latenten Variablen.

Der dreitägige Workshop behandelt verschiedene Anwendungsmöglichkeiten und Vorteile von SEM. Im ersten Teil werden theoretische Grundlagen für die Modellierung latenter Variablen vermittelt, sowie deren Anwendung mit dem R Paket lavaan (latent variable analysis). Der zweite Teil erweitert die Kenntnisse in Bezug auf mehrdimensionale Modelle und stellt die Vorteile von Pfadanalysen mit latenten Variablen heraus. Praktische Übungen umfassen multiple Regressionsanalysen und Mediationsanalysen mit und ohne latenten Variablen. Die dritte Workshopeinheit illustriert Erweiterung für den Vergleich von Gruppen. Schwerpunkte dabei sind die Untersuchung von Messinvarianz und die Schätzung von Gruppenunterschieden. Für die Implementierung von Gruppenvergleichen mit latenten Variablen wird das R Paket EffectLiteR vorgestellt, welches auf lavaan basiert und die Spezifikation von Mehrgruppen SEM mithilfe einer grafischen Benutzeroberfläche ermöglicht.

This course will cover three interrelated topics: methods of selecting complex samples, creation of analysis weights that reduce sampling variance and adjust for nonresponse, and the analysis of weighted data collected via complex samples.

The first day will start with an introduction to the framework for design based inference and some basic sampling designs will be introduced. Common features of sampling designs such as stratification, sampling of clusters and multi-stage sampling will be discussed. For each method, students will learn the relevant formulas for point estimates and variance estimates; however, the course will emphasize application over theoretical proofs of the formulas.
The second day will focus on estimation based on survey samples and the usage of survey weights to reduce sampling variance and non-response bias. Furthermore, students will learn how complex designs and estimators alter the ways in which survey data should be analyzed. Traditional methods of analysis, usually taught in introductory statistics courses, are inapplicable to such data sets.

Die Schätzung kausaler Effekte ist eines der zentralen Anliegen der quantitativen empirischen Sozialforschung. In der Forschungspraxis stehen häufig nur nicht-experimentelle Daten zur Verfügung, die Kausalschlüsse aufgrund nicht-zufälliger Selektion erschweren. In der aktuellen sozialwissenschaftlichen empirischen Forschung finden zunehmend Methoden der modernen Kausalanalyse für nicht-experimentelle Daten Anwendung, denen ein klares Kausalitätsverständnis zugrunde liegt und die nicht-zufällige Selektion explizit adressieren. Dieser Workshop führt in diese Verfahren ein. Gemäß der theoriegeleiteten empirischen Sozialforschung wird als Ausgangspunkt die Idee kausaler Hypothesen erklärt und das Ziel der kausalen Inferenz von den alternativen Zielen der Deskription und Prädiktion abgegrenzt. Dann werden als theoretische Grundlage für alle Verfahren das kontrafaktische Modell der Kausalität und die Theorie kausaler Graphen (DAGs – Directed Acyclic Graphs) vorgestellt und anhand praktischer Beispiele eingeübt. Es wird erläutert, welche Implikationen sich daraus für die Regressionsanalyse ergeben, wie z.B. Auswahl der Kontrollvariablen, kausaltheoretischer Modellaufbau und Verfahren des Regression Adjustment. Darauf aufbauend werden in einer anwendungsorientierten Einführung die Verfahren (Propensity-Score) Matching, Inverse Probability Weighting, Instrumentvariablenschätzer, Regression Discontinuity Design und Differenz-von-Differenzen-Schätzer vorgestellt. Die Verfahren werden praxisnah am PC mit dem Statistikprogramm Stata eingeübt. Für die Praxisbeispiele werden sozialwissenschaftliche Daten verwendet.

Der Workshop fokussiert die praktische Durchführung von qualitativen Interviews. Hierfür werden zunächst erkenntnistheoretische Grundlagen qualitativer Sozialforschung sowie unterschiedliche Interviewarten vermittelt und anhand von Interviewkonzeption und Sampling veranschaulicht. Schließlich stehen die Erstellung eines Leitfadens und Interviewtechniken im Zentrum des Workshops. Hierbei helfen Übungen, die Interviewsituation als komplexe Interaktion verständlich zu machen. Mit der Thematisierung von online und telefonischen Interviews gehen wir außerdem auf die Forschungssituation in Zeiten einer Pandemie ein. Zum Abschluss des Workshops geben wir Ausblicke auf die qualitative Inhaltsanalyse als Auswertungsmethode und diskutieren ethische Aspekte qualitativer Interviewstudien. Um anschaulich üben zu können, werden im Kurs zahlreiche Beispielmaterialien verwendet (Intervieweinstiege, schwierige Situationen, etc.); diese stammen aus der kriminologischen Forschung der Dozierenden. Die Teilnehmenden erhalten Gelegenheit, in Übungen das erlernte auf ihre Fragen anzuwenden. Dass die Teilnehmenden erfahrungsgemäß aus ganz unterschiedlichen Disziplinen stammen, berücksichtigen wir im Kurs durch das Wechseln von Abstraktionsniveaus.

In diesem Kurs wird die fundamentale Logik, die hinter bayesscher Statistik steht, vermittelt, und wie sie sich von frequentistischer Statistik unterscheidet und wie diese Unterschiede konkret in sozialwissenschaftlicher Forschung genutzt werden können.

Der Kurs deckt zunächst eine auf Intuition und Forschungslogik basierende Einführung in die Unterschiede und Gemeinsamkeiten der beiden großen Ansätze in der Statistik ab. Formalisierung und Schätzmethoden werden dabei eher am Rande behandelt.

Das erste Beispiel behandelt die Integration von externer Information (prior knowledge) in die Modellschätzung. So wird gezeigt wie Sensitivitätsanalysen für Messfehler im bayesschen Ansatz durchgeführt werden kann. Im Anschluss daran wird besprochen in welchen Anwendungen mit denen wir schon vertraut sind (im Geheimen) auch bayessche Logik angewandt wird, ohne dass wir es merken. Das zweite Beispiel bespricht die Nutzung bayesscher Statistik beim Problem der Modellidentifikation auf Grund kleiner Datensätze (z.B. in Experimenten oder Länderdatensätzen). Das dritte Beispiel zeigt wie bayessche Formulierung von Unsicherheit helfen kann Bekannte Probleme in der Interpretation von statistischer Signifikanz zu umgehen und Schlussfolgerungen aus Forschungsergebnissen zu ziehen, die stärker unserem Alltagsverständnis von Unsicherheit und Wahrscheinlichkeit entsprechen und somit einfacher an ein nicht-wissenschaftliches Publikum zu kommunizieren sind. Zum Schluss wird die Methode der Bayesian Evaluation of Infomative Hypotheses (BEIH) vorgestellt, die eine spezielle Eigenschaft der bayesschen Schätzung nutzt, um Hypothesen bei unterschiedlichen Arten der Gruppenvergleiche angemessener zu überprüfen und uns somit hilft Theorie und empirische Überprüfung klarer miteinander zu verknüpfen.

In der konkreten Bearbeitung der Beispiele wird Stan genutzt, was entweder mit Stata (StataStan) oder R (RStan) angesteuert werden kann. Allerdings steht die Handhabung des Statistikprogramms nicht im Vordergrund.

This workshop introduces Twitter API and provides multiple examples of collecting and analyzing Twitter data in R.

The course will start with general introduction of Twitter’s API, available data and limitations. Subsequently, participants will learn how to collect diverse types of Twitter data (e.g., user timelines, tweets including certain keywords). To analyze collecting data, the course will discuss summary statistics of interested features, simple text analysis and network analysis (e.g. retweet network). Along with the data analysis, diverse possibilities for visualization will be demonstrated as well.

During the course, the following R packages will be used: rtweet (to collect data), tidyverse (explore and visualise data), and igraph (analyze and visualize network).