GESIS Training

Workshops 2022

R is a powerful, versatile, and open software environment for statistical computing and graphics. As open-source software, its functionality is constantly expanded with packages from the active R community. This workshop is intended to smooth your entry into the R universe.
The course will cover everything from setting up R, loading data, preparing data, exploring data, performing basic analyses, and presenting your findings in automatically generated documents with text, tables, and graphics.
We will use the comfortable RStudio environment and packages from the so called “tidyverse”, which makes R far more comfortable and the scripts more accessible. Moreover, we will use R Markdown to generate clear output documents and ggplot2 to generate graphs.
We will draw our examples from survey data: Specifically, the German general social survey, ALLBUS. However, the course can just as easily be applied to other social science data in table form. During the workshop, we will alternate between short input sessions and practical exercises and examples.
At the end of the workshop, you will have a good impression of what R can do for you. You will be able to tackle primary analyses and data exploration. However, most notably, the workshop will start you out on your journey towards more open, reproducible, and robust research in R.

The purpose of this workshop is to (a) familiarize participants with the problems and pitfalls missing data pose to data analysts, (b) to discuss the pros and cons of various approaches to analyze incomplete empirical data (including multilevel data), (c) to demonstrate the application of the most important and widely used missing data tools in R (e.g. norm, pan, jomo, mice), so that having successfully completed that workshop, participants will be able to select and apply a missing data strategy that is well suited to their individual problem at hand.

YouTube is the largest and most popular video platform on the internet. The producers and users of YouTube content generate huge amounts of data. These data are also of interest to researchers (in the social sciences as well as other disciplines) for studying different aspects of online media use and communication. Accessing and working with these data, however, can be challenging. In this workshop, we will first discuss the potential of YouTube data for research in the social sciences, and then introduce participants to the YouTube API and tools for collecting data from this API. Our focus for the main part of the workshop will be on using the tuber package for R to collect data via the YouTube API and wrangling and analyzing the data in R (using various packages). Regarding the type of data, we will focus on user comments but also will also (briefly) look into other YouTube data, such as video statistics and subtitles. For the comments, we will show how to clean/process them in R, how to deal with emojis, and how to do some basic forms of automated text analysis (e.g., word frequencies, sentiment analysis). While we believe that YouTube data has great potential for research in the social sciences (and other disciplines), we will also discuss the unique challenges and limitations of using this data.

Der Workshop hat zum Ziel, die Grundideen und Strategien der Grounded-Theory-Methodologie (GTM) – eine der am weitesten verbreiteten qualitativen Forschungsmethodologien – zu vermitteln und hierbei auch unterschiedliche Positionen zur GTM vorzustellen und zu diskutieren.

Orientiert an den Fragen und dem Bedarf der Teilnehmenden werden die wesentlichen Konzepte und Schritte – u.a. Theoretische Sensibilität; Offenes, Axiales und Selektives Kodieren; Theoretisches Sampling und Theoretische Sättigung – behandelt und in Übungen erprobt.

Material der Teilnehmenden wird auf Wunsch gerne berücksichtigt und besprochen.

Der Fragebogen ist eines der wichtigsten Instrumente der sozialwissenschaftlichen quantitativen Datenerhebung. Ziel dieses Workshops ist es, den Teilnehmer*innen ein fundiertes Verständnis der psychologischen Prozesse zu vermitteln, die bei der Beantwortung eines Fragebogens ablaufen, sowie sie mit den wesentlichen Prinzipien vertraut zu machen, die bei der Entwicklung und Formulierung von Survey-Fragen berücksichtigt werden sollten.

Die Inhalte des Workshops orientieren sich dabei am kognitiven Antwortprozess, den Befragte bei der Beantwortung von Fragen durchlaufen und der insgesamt vier Aufgaben umfasst: Verstehen des Fragetextes, Informationsgewinnung, Urteilsbildung und Formatierung der Antwort. Thematisiert werden sowohl allgemeine Prinzipien der Fragebogengestaltung, der Frageformulierung und der Konstruktion von Antwortformaten, als auch spezielle Aspekte, die bei der Formulierung von Sach-, Einstellungs- und sensiblen Fragen von Bedeutung sind. Außerdem thematisiert der Workshop die Gestaltung des Fragebogens insgesamt, mit einem besonderen Fokus auf den Abschnitt des Fragebogens, welcher der Messung sozio-demographischer Hintergrundmerkmale dient. Darüber hinaus erhalten die Teilnehmer*innen eine Einführung in verschiedene Methoden des Fragebogen-Pretestings.

Der Workshop kombiniert Vorträge mit praktischen Übungen und Diskussionen. Bitte beachten Sie, dass der Kurs nicht die psychometrischen Prinzipien der Item- oder Skalenentwicklung behandelt.

The workshop introduces logistic regression from an applied social science perspective. The main differences between linear and logistic regression are discussed. A special focus is put on the difference in interpretation between odd-ratios, relative risks, and marginal effects. For that purpose logistic regression will be contrasted with linear probability models and negative binomial regression models. Another issue that is discussed is the comparison of model fit for nested and non-nested models. The two extensions of the binary logistic regression model that are introduced are the multinomial logit model and ordered logit model. The problems that arise for certain applied research question when using logistic regression (and some solutions) are discussed with reference to the latest methodological developments in the field. The last part of the seminar focuses on the topic of statistical significance, effect size and its use, misuse and possibilities of joint interpretation. As the focus of the seminar is not on the statistical theory of logistic regression, but on applications for social science research, all topics are exemplified with Stata exercises and/or group work. Participants are expected to contribute actively to the seminar discussion.

In der empirischen Sozialforschung lässt sich seit längerer Zeit ein Trend zu selbstadministrierten und insbesondere Online-Umfragen beobachten. Mittlerweile gibt es eine Vielzahl niedrigschwelliger Angebote und Tools, eigene Forschungsideen mittels Websurveys umzusetzen und Online-Stichproben zu rekrutieren. Gleichzeitig zeigt die Erfahrung, dass in der universitären Ausbildung Kompetenzen zur Programmierung eigener Umfragen häufig nur am Rande – wenn überhaupt – vermittelt werden.

Der Workshop möchte diese Kompetenzen vermitteln und bietet eine praktische Einführung in die Erstellung von Online-Umfragen am Beispiel des Umfragetools Unipark/EFS. Hierbei behandelt der Workshop neben praktischen Programmierkenntnissen auch grundlegende Fähigkeiten zur Planung der Fragebogenprogrammierung.

Konkret werden folgende Themen bearbeitet:

  • die Planung der einzelnen Arbeitsschritte
  • Projekttypen und Fragetypen
  • Filter und Plausibilitätschecks
  • die Anpassung des Layouts
  • das Testen der Programmierung
  • wesentliche Schritte für den Feldstart und den Datenexport

Die Besprechung weiterer Funktionalitäten ist möglich und Teilnehmende werden ermutigt, Themenwünsche bereits im Vorfeld mitzuteilen.

This course introduces R, a free and versatile software environment for statistical computing and graphics, using the popular RStudio interface as well as R Markdown documents to combine coding, its results, and commentary. The course will cover all relevant basic functions such as setting up R and importing, managing, transforming, and exploring data. We will also cover basic tools for descriptive and model-based inference as well as for reporting and visualizing results. Furthermore, participants are going to learn how to generate reproducible publication-ready tables and figures in automatically generated documents.

The interactive workshop comprises of a mix of short input sessions and practical lab sessions. Most of our examples are going to be based on high-quality survey data from the German Longitudinal Election Study (GLES) provided by GESIS and the German Society for Electoral Studies (DGfW). However, the learning objects are easily transferable to other social science data.

The course focuses on using R through the RStudio environment and packages from the so called “tidyverse.” Moreover, we will use R Markdown to generate clear and reproducible output documents, integrating written text and the code you write, and ggplot2 to generate graphs. Both provide a comfortable and accessible coding approach particularly for beginners.

Im Kurs werden Grundlagen der deskriptiven univariaten und bivariaten Statistik und somit ein Grundverständnis der quantitativer Datenanalyse vermittelt. Hierbei steht die Beschreibung von Daten und Zusammenhängen anhand von Kennzahlen und Graphiken im Vordergrund.

Im ersten Teil des Kurses klären wir zunächst verschiedene Konzepte wie Stichprobe, Skalenniveaus oder (un-)abhängige Variable. Es folgt die Beschreibung von Daten anhand von Häufigkeitsverteilungen und Lagemaßen (wie Median und Mittelwert), Streuungsmaßen (wie Varianz, Standardabweichung) sowie Maße der Schiefe und Wölbung.

Der zweite Teil des Kurses beschäftigt sich mit bivariaten Analysen, also der Analyse von Zusammenhängen zwischen zwei Variablen. Neben der Unterscheidung von Spalten- und Zeilenprozenten in Kreuztabellen werden hier auch Kenntnisse zu Zusammenhangsmaßen wie dem Chi2, dem relativen Risiko, Odds Ratio und Korrelationskoeffizienten vermittelt.

Für ein grundlegendes Verständnis der Inhalte berechnen wir die Maßzahlen zunächst mit dem Taschenrechner und übertragen das angeeignete Wissen anschließend in die Praxis. Anhand von Beispieldaten berechnen wir Maßzahlen mit der Statistiksoftware Stata, welche wir auch zur Veranschaulichung der beschreibenden Merkmale nutzen. Wir erstellen verschiedene Abbildungen wie Säulendiagramme, Histogramme, Streudiagramme (Scatterplots) und Boxplots und interpretieren diese.


The workshop Applied Data Visualization introduces students to the theory and methods underlying data visualization. Data analysts face an ever-increasing amount of data (→ big data) and rather revolutionary technological developments allow researchers to visually engage with data in unprecedented ways. Hence, data visualization is one of the most exciting fields in data science right now. In this workshop students acquire the skills to visualize data in R both for exploratory purposes as well as for the purpose of explanation/presentation. We’ll rely on R, the most-popular statistical programming environment when it comes to visualization and we’ll make use of popular R packages such as ggplot2 and plotly. Besides creating static graphs we’ll also have a look at interactive graphs and discuss how interactive visualization may revolutionize how we present data & findings.

The workshop will provide a comprehensive methodological and practical introduction to event history analysis. Special attention will be devoted to applications in life course research being concerned with time-dynamic modeling of social processes. After clarifying basic concepts like states, time, event, and censoring, descriptive approaches like life-tables and Kaplan-Meier estimation are discussed. Both continuous-time and discrete-time methods as well as parametric and semi-parametric regression models are introduced. Accounting for time-dependent covariates and time-varying effects are major features of survival models and will be discussed in detail. In addition, the workshop will cover a series of advanced topics like statistical inference with survival methods and survey data, multi-episode data, competing risk models, multilevel survival analysis, comparison of effects across models and groups, as well as effective visualization of model results. Substantial applications from sociological and demographic research will be used for illustration. Moreover, software package Stata will be used throughout the workshop and exercises will help to deepen the acquired knowledge. Moreover, participants are encouraged to discuss their own work.    

Der Workshop bietet eine ausführliche theoretische, methodische und praktische Einführung in die Methoden der Ereignisanalyse.  Besonderes Gewicht wird auf Anwendungen in der Lebenslaufforschung, insbesondere die dynamische Modellierung sozialer Prozessen gelegt. Nach Klärung der konzeptionellen Grundlagen, werden deskriptive Ansätze wie die Sterbetafelmethode und die Kaplan-Meier Schätzung vorgestellt. Danach werden parametrische und semi-parametrische Ereignisanalysemodelle mit diskreter und kontinuierlicher Zeit vorgestellt. Die Berücksichtigung zeitveränderlicher Variablen and Effekte ist einer der wesentlichen Vorteile der Ereignisanalyse gegenüber alternativen Methoden, daher wird der Workshop vertieft darauf eingehen. Weiterhin werden im Workshop auch fortgeschrittene and viele angewandte Themen behandelt, die  in der klassischen Grundlagenliteratur häufig nicht diskutiert werden. Hierzu zählen beispielsweise inferenzstatistische Aspekte der Ereignisanalyse im Kontext von Survey-Daten, Multiple-Episode Datenstrukturen, Competing-Risk Modelle, Mehrebenenmodelle der Ereignisanalyse, und Aspekte des Vergleichs von Effekten über verschiedene Modelle und Gruppen, sowie die effektive Visualisierung von Modellergebnissen behandelt. Zur Illustration werden inhaltliche Problemstellungen aus der soziologischen und demographischen Forschung herangezogen. Der Workshop verwendet durchgehend das Statistikprogramm Stata. Teilnehmer werden darüber hinaus motiviert Problemstellungen aus ihrer eigenen Forschung in dem Workshop einzubringen.

Dr. Lydia Repke is a postdoctoral researcher in the Survey Design and Methodology department at GESIS and has been a member of the Young Academy of the Academy of Sciences and Literature | Mainz since 2020. Honored with the Special Doctorate Award, she completed her PhD on multicultural identifications and personal social networks in the field of cultural psychology (2017) at Pompeu Fabra University in Barcelona, where she also worked for the Research and Expertise Centre for Survey Methodology.

Many phenomena in social science are not directly observable, such as beliefs, attitudes,  values, life-satisfaction, or well-being. Instead, they are conceptualized as latent variables and indirectly measured by multiple observed indicators that are assumed to reflect a theoretical construct. The connection between a latent variable and its indicators can be formalized as a measurement model and tested with confirmatory factor analysis (CFA) (e.g., Brown, 2015).

In comparative social research, regression coefficients among latent variables or mean scores are often compared across groups (e.g., cultures, countries, companies). However, valid comparisons require that the parameters of the measurement model (e.g., factor loadings, indicator intercepts/thresholds) are equivalent across groups (e.g., Vandenberg & Lance, 2000). Otherwise, comparisons can be misleading, for example, when seemingly real substantive differences in a latent construct are actually due to measurement differences (e.g., Chen, 2008). Researchers can test whether a measurement model is invariant across groups using multiple-group CFA.

The course provides insight to the procedures of testing measurement invariance using the R package lavaan (Rosseel, 2012) and data from the European Social Survey (ESS) on human values and perceived threat due to immigration (Davidov et al., 2020). Optionally, and as a supplement to the methods of testing exact invariance, the alignment optimization procedure (Asparouhov & Muthen, 2014) will be illustrated as an example of approximate invariance.

The workshop will cover the ethical and operational issues associated with linking Twitter and survey data. We will begin by thinking about what new and exciting opportunities this new form of linked data provides. We will then move on to the challenges associated with designing, collecting, analyzing, publishing and sharing this type of linked data. Drawing on experiences from the research that the instructors were involved in, we will explore issues around data access, informed consent, disclosure, security, and archiving. The workshop will consist of a combination of short lectures, practical sessions, and discussions.

The primary objective of this course is to provide participants with a proper understanding and the practical skills necessary for applying advanced techniques in structural equation modeling to hierarchically ordered twolevel data structures. Core topics of the course include random intercept & slope models, twolevel confirmatory factor analyses and twolevel structural equation models, and moderation and mediation in twolevel SEM. In order to put these different techniques to practice, participants will also become proficient in the use of the Mplus statistical software. Throughout the course, an emphasis will be put on how to achieve an adequate balance between theoretical assumptions, methods of data analysis and interpretation of the results. To facilitate the transfer of theoretical knowledge into participants' own research, a large part of the course will be devoted to systematic exercises using freely available survey data. Participants are encouraged, however, to also use their own data.

Neben einer fokussierten Einführung in die bzw. einer Auffrischung der theoretischen und praktischen Grundlagen der multiplen linearen und binär-logistischen Regressionsanalyse behandelt der Workshop aktuelle Debatten. Letztere umfassen (1) die auf Basis von Forschungszielen angepasste Anwendung der Regressionsanalyse, mit einem Fokus auf theoriegeleitete hypothesenprüfende Forschung, (2) die Auswahl und Spezifikation von Kontrollvariablen, (3) die richtige Spezifikation und Interpretation von Interaktionseffekten in linearen und binär-logistischen Regressionsmodellen, (4) die Unterscheidung zwischen substanzieller Signifikanz und Effektgröße im Vergleich zur bloßen statistischen Signifikanz, (5) das lineare Wahrscheinlichkeitsmodell und die Betrachtung von marginalen Effekten als Alternativen zu Logit Koeffizienten und Odds Ratios im binär-logistischen Regressionsmodell. In gemeinsam Übungsaufgaben wird die praktische Umsetzung mit dem Statistikprogramm Stata und anhand aktueller sozialwissenschaftlicher Fragestellungen und Querschnittsdaten illustriert. Der Fokus liegt hier auf der zielgerichteten Durchführung und inhaltlichen Interpretation der Regressionsanalyse gemäß dem Stand aktueller Debatten.  

Sozialwissenschaftliche Forschung steht häufig vor dem Problem, dass soziale Phänomene wie z.B. ausländerablehnende Einstellungen nicht direkt beobachtbar sind. Solche latenten Konstrukte müssen daher mittels Messmodellen operationalisiert werden. Die Strukturgleichungsmodellierung (SEM) ist ein Verfahren, mit dessen Hilfe Messmodelle empirisch getestet sowie kausale Zusammenhängen zwischen latenten Variablen überprüft werden können.  

Der Workshop führt in die Logik der Strukturgleichungsmodellierung ein und verfolgt die anwendungsbezogene empirische Analyse (u.a. mit Daten des Allbus) mit gängiger SEM-Software (v.a. Mplus, aber auch mit Anschauungsbeispielen für R (package lavaan) und AMOS).

Zu den Themen gehören u.a.:

- Spezifikation und Schätzverfahren

- Konfirmatorische Faktorenanalyse

- Pfadanalyse

- Moderator- und Mediatoreffekte

- Multigruppenanalyse und Test auf Messäquivalenz

- Methodische Fallstricke

- Einführung in SEM-Software

Der Workshop gibt eine grundlegende Einführung in die qualitative Netzwerkforschung. Wir starten mit epistemologischen Grundlagen qualitativer Sozialforschung und machen anschließend mit den Herausforderungen qualitativer Netzwerkstudien vertraut. Die Teilnehmer:innen erhalten Einblick in zentrale Konzepte der Netzwerkforschung und ihre historische Entwicklung.

Über praktische Übungen werden die Teilnehmer:innen mit Methoden der Erhebung und der Auswertung von Netzwerkdaten vertraut gemacht. Sie erhalten einen grundlegenden Einblick in die Software Vennmaker. Abschließend sind sie sensibilisiert für Strategien qualitativer Netzwerkforschung und ihre Schnittstellen zur standardisierten Netzwerkforschung. Über den Workshop hinweg lernen sie zentrale Studien der Netzwerkforschung kennen. Es ist wünschenswert, dass Teilnehmende eigene Forschungsprojekte mitbringen und diese in die Diskussion einbringen, wir bieten Unterstützung beim eigenen Forschungsprojekt an.

During the workshop, participants will learn how to efficiently handle problems of data management with Stata, and how to avoid repetition by automating (and programming) tasks. The workshop is not an introduction to Stata, but will feature “best practice” of Stata usage in order to modify existing do-files (or create new ones) to be reproducible, maintainable, and efficient. The tips and tricks will refer mainly to data preparation and management, but they can also be used for automation of data analysis. The workshop will present some ideas about these topics, but focus on the interactive work where participants shall learn producing efficient Stata syntax by themselves.

Der Workshop fokussiert die praktische Durchführung von qualitativen Interviews. Hierfür werden zunächst erkenntnistheoretische Grundlagen qualitativer Sozialforschung sowie unterschiedliche Interviewarten vermittelt und anhand von Interviewkonzeption und Sampling veranschaulicht. Schließlich stehen die Erstellung eines Leitfadens und Interviewtechniken im Zentrum des Workshops. Hierbei helfen Übungen, die Interviewsituation als komplexe Interaktion verständlich zu machen. Mit der Thematisierung von online und telefonischen Interviews gehen wir außerdem auf die Forschungssituation in Zeiten einer Pandemie ein. Zum Abschluss des Workshops geben wir Ausblicke auf die qualitative Inhaltsanalyse als Auswertungsmethode und diskutieren ethische Aspekte qualitativer Interviewstudien. Um anschaulich üben zu können, werden im Kurs zahlreiche Beispielmaterialien verwendet (Intervieweinstiege, schwierige Situationen, etc.); diese stammen aus der kriminologischen Forschung der Dozierenden. Die Teilnehmenden erhalten Gelegenheit, in Übungen das erlernte auf ihre Fragen anzuwenden. Dass die Teilnehmenden erfahrungsgemäß aus ganz unterschiedlichen Disziplinen stammen, berücksichtigen wir im Kurs durch das Wechseln von Abstraktionsniveaus.

Im Rahmen des Workshops soll in Theorie und Praxis qualitativer Interviews als wesentliche sozialwissenschaftliche Erhebungsinstrumente eingeführt werden. Im Zentrum des Workshops stehen zum einen der Überblick über gängige Interview-Verfahren und deren Einbettung in Konzepte der Gesprächsführung und in Narrationstheorien; zudem werden Fragen des  Datenschutzes, angemessener Transkription/Datenaufbereitung und Archivierung diskutiert.
Den zweiten Schwerpunkt des Workshops bilden Übungen zur Leitfadenentwicklung und Interviewführung (mit Videofeedback). Materialien (Interviewleitfäden etc.) der Teilnehmenden werden gerne berücksichtigt und besprochen.

This course provides an introduction to the Python programming language for those who have zero coding experience (nor R, nor Stata). The focus of the course is to help participants prepare for other introductory-level Python courses (e.g., the GESIS Fall Seminar course “Introduction to Computational Social Science in Python”) by assisting with the installation and setup of the Anaconda & Google Collab software environment and familiarizing them with the basics of Python programming. The class introduces the most important data types, programming concepts (e.g., for loops, functions), and best practices for package installation and debugging. The course is highly interactive and allows participants to practice coding in groups.

R is a powerful, versatile, and open software environment for statistical computing. With R, it is possible to manage and transform data, perform a plethora of statistical analyses, and visualize scientific results. However, using R for the first time can be daunting. R is a programming language and thus works differently than many statistical software packages that primarily use graphical user interfaces (e.g., SPSS, Excel).
In this two-day crash course, we will introduce R to researchers with no or very little prior experience with R. The aim is to equip you with the skills to participate more readily in other introductory-level R courses (e.g., the GESIS Fall Seminar course “Introduction to Computational Social Science in R”).

Die Mehrebenenanalyse ist ein Verfahren zur simultanen Analyse von
hierarchisch strukturierten Daten, wie sie etwa in der
Organisationsforschung oder bei international vergleichenden
Untersuchungen vorliegen.

Sind mehrere Untersuchungsteilnehmer gleichwirkenden Kontexteinflüssen
ausgesetzt, wie dies bei den Schülern verschiedener Schulklassen oder den
Befragten eines Landes innerhalb einer international vergleichenden Studie
der Fall ist, dann sind die Voraussetzungen für die Anwendung der
herkömmlichen Regressionsanalyse in aller Regel nicht mehr erfüllt.

Unter solchen Bedingungen ist es angeraten, die Analysen mit Hilfe eines
Mehrebenenprogrammes durchzuführen.

Der Workshop bietet eine Einführung in die Logik der Mehrebenenanalyse,
das Schätzen von Mehrebenenmodellen und die Interpretation der
Ergebnisse. Neben metrischen werden auch dichotome abhängige Variablen
eine Berücksichtigung finden.

Im Workshop wird in die qualitative Inhaltsanalyse nach Udo Kuckartz eingeführt und das Verfahren der inhaltlich-strukturierenden qualitativen Inhaltsanalyse anhand von eigenem Material der Teilnehmer/innen (soweit vorhanden) in Übungen erprobt. Insbesondere werden die folgenden Themen bearbeitet: Merkmale und Ablauf des Verfahrens, Kategorienbildung und Kategorienarten, die Entwicklung von und Anforderungen an inhaltsanalytische Kategoriensysteme, Kodieren, Ergebnisdarstellung und Gütekriterien.

Im Verlauf des Workshops wird dieses Verfahren in die qualitativ inhaltsanalytische Forschungslandschaft eingeordnet. Weiterhin werden unterschiedliche Positionen zur qualitativen Inhaltsanalyse vorgestellt.

Der Workshop gibt eine anwendungsorientierte Einführung in grundlegende und weiterführende Methoden der Paneldatenanalyse. Der Fokus liegt auf der Analyse von Individualdaten aus Panelsurveys (großes N, kleines T).

Paneldaten bieten gegenüber Querschnittsdaten wichtige Vorteile. Dazu gehören insbesondere die Identifizierung kausaler Effekte mit schwächeren Annahmen und die Analyse individueller Entwicklungsverläufe. Um diese Vorteile zu nutzen, bedarf es jedoch spezieller Verfahren.

Ausgangspunkt des Workshops ist das lineare Fixed Effects (FE) Regressionsmodell und seine Vorteile gegenüber alternativen Modellen (Random Effects, RE). Ein weiterer Schwerpunkt des Kurses sind die Modellierung von zeitkonstanten oder zeitveränderlichen Kausaleffekten (Impact Functions) sowie die Modellierung von Lebensverläufen (Growth Curves). Schließlich werden wesentliche Erweiterungen präsentiert, insbesondere das lineare FE Modell mit Individuellen Steigungen (FEIS) und das nichtlineare logistische FE Regressionsmodell. Im Workshop wird die Struktur der Regressionsmodelle erläutert. Die Anwendung der statistischen Verfahren wird mit der Software Stata anhand von Analysebeispielen eingeübt.

This course introduces participants to the statistical programming language R and its use in the integrated development environment RStudio. R is a versatile language offering both the full range of established statistical procedures and cutting-edge techniques for data collection, processing, and analysis. RStudio wraps the language in a well-structured and easier to use environment. R's breadth of applications relies on a large catalogue of (user contributed-)packages, with notable recent contributions going towards a more unified framework for these packages.

The course aims to familiarize participants with the broad potential of these tools in general and for their personal needs and applications. After completing the course, participants will understand how to implement all steps of data analysis in RStudio. This includes learning R techniques for:

  • Data import from multiple sources
  • Data manipulation and visualization
  • Basic statistical analyses and linear regression

In addition to the technical programming skills, participants will also learn to apply a conceptual framework to data analysis, where all the steps of a data analysis are automated via a programmatic pipeline.

Core elements participants will gain familiarity with are:

RStudio: An integrated development environment for R supporting interactive data analysis, building of data analysis pipelines, and R software development

  • Tidyverse: A framework and collection of R packages centered on the concept of tidy data
  • Visualization: Generating and tailoring high-quality figures using the R package ggplot2

This workshop introduces sequence analysis for social science research. Sequence analysis, originally developed in biology to analyze strings of DNA, has attracted increasing attention in the social sciences for the analysis of longitudinal data. Most applications study life course processes, including labor market careers, transitions to adulthood, or family formation. This workshop covers longitudinal data management (only briefly), basic techniques of sequence analysis, as well as recent methodological developments tailored at social science research questions. Topics include different ways of calculating distances between sequences, cluster analysis after sequence analysis, sequences visualization, techniques for analyzing sequences’ multidimensionality and the association between sequences’ unfolding over time and independent variables. All methods are demonstrated with hands-on examples using and R.

Der Kurs lehrt, welche Fragestellungen, Designs, Samplingtechniken, Auswertungsstrategien und Validierungstechniken in Mixed Methods Forschungsstrategien eingesetzt werden. Ein besonderes Schwerpunkt liegt auf den Voraussetzungen gelungener "Integration" von qualitativen und quantitativen Forschungsansätzen.

Die Anwendung wird anhand praktischer Beispiele und Übungen verdeutlicht. In einem umfangreichen Praxisteil werden Mixed Methods Datensätze mit Hilfe von R und MAXQDA ausgewertet. Es ist möglich, eigene Forschungsprojekte und Beispiele in den Workshop zur Diskussion mitzubringen.

Die Teilnehmenden erhalten ein Skript mit allen verwendeten PPT-Folien, ein umfangreiches Literaturverzeichnis sowie Internetquellen zur weiteren Vertiefung.

Statistical models are widely used in the social sciences for measurement, prediction, and hypothesis testing. While popular statistical software packages cover a growing number of pre-implemented model types, the diversification of substantive research domains and the increasing complexity of data structures drive persistently high demand for custom modeling solutions. Implementing such custom solutions requires that researchers build their own models and use them to obtain reliable estimates of quantities of substantive interest. Bayesian methods offer a powerful and versatile infrastructure for these tasks. Yet, seemingly high entry costs still deter many social scientists from fully embracing Bayesian methods.

This workshop offers an advanced introduction to Bayesian statistical modeling to push past these initial hurdles and equip participants with the required skills for custom statistical modeling,. Following a targeted review of the underlying mechanics of generalized linear models and core concepts of Bayesian inference, the course introduces participants to Stan, a platform for statistical modelling and Bayesian statistical inference. Participants will get an overview of the programming language, the R interface RStan, and the workflow for Bayesian model building, inference, and convergence diagnosis. Applied exercises allow participants to write and run various model types and to process the resulting estimates into publication-ready graphs.

The focus of the course is on reproducible research in the quantitative social and behavioral sciences. Reproducibility here means that other researchers can fully understand and (re-)use your statistical analyses. The workflows and tools covered in this course will ultimately facilitate your work as they, e.g., allow you to automate analysis and reporting tasks. This course aims to introduce participants to tools and processes for reproducible research and enable them to use those for their work. In addition to a conceptual introduction to the methods and key terms around reproducible research, this course focuses on procedures for making a data analysis with R fully reproducible. We will cover questions about project organization (e.g., folder structures, naming schemes, documentation) and choosing and working with tools such as command-line interfaces (PowerShell, Bash, etc.) RStudio and R Markdown, Git and GitHub, Jupyter Notebooks, and Binder. Slides and materials of last year’s workshop can be found on GitHub: https://github.com/jobreu/reproducible-research-gesis-2021 (this year, however, we will not cover LaTeX).

Mediation analysis has been used by social scientists for the last 50 years to explain intermediate mechanisms between an assumed cause and effect. During these years many advances in statistical mediation analyses were made, including the use of multiple mediators, models for limited dependent variables, latent variable modeling, improved standard errors, and the combination of mediation and moderation analysis. However, only very recently were the causal foundations and underlying assumptions of mediation analysis clarified. These more recent advances used potential outcomes notation and graphical causal models to illuminate the types of causal effects that can be estimated – and more importantly, which assumptions are needed to recover an unbiased causal effect. This course will briefly review the traditional approaches to mediation analysis, then review fundamental topics for causal inference, and then discuss the novel methods that fall under the rubric of “causal mediation analysis.” The causal mediation methods put the assumptions of the analysis front and center, and because the causal assumptions are often untestable, tools like sensitivity analysis become important.
The course is mostly lecture-based, but will also provide numerous opportunities to practice the studied concepts using applied data examples in R.

Strukturgleichungsmodelle (Structural Equation Models, SEM) und deren Darstellung als Pfaddiagramme sind ein Framework für unterschiedliche multivariate Analysen. Es können komplexe Zusammenhänge abgebildet und spezifische Hypothesen getestet werden. Eine besondere Stärke ist zudem die Modellierung und Berücksichtigung von nicht direkt beobachtbaren, latenten Variablen.

Der dreitägige Workshop behandelt verschiedene Anwendungsmöglichkeiten und Vorteile von SEM. Im ersten Teil werden theoretische Grundlagen für die Modellierung latenter Variablen vermittelt, sowie deren Anwendung mit dem R Paket lavaan (latent variable analysis). Der zweite Teil erweitert die Kenntnisse in Bezug auf mehrdimensionale Modelle und stellt die Vorteile von Pfadanalysen mit latenten Variablen heraus. Praktische Übungen umfassen multiple Regressionsanalysen und Mediationsanalysen mit und ohne latenten Variablen. Die dritte Workshopeinheit illustriert Erweiterung für den Vergleich von Gruppen. Schwerpunkte dabei sind die Untersuchung von Messinvarianz und die Schätzung von Gruppenunterschieden. Für die Implementierung von Gruppenvergleichen mit latenten Variablen wird das R Paket EffectLiteR vorgestellt, welches auf lavaan basiert und die Spezifikation von Mehrgruppen SEM mithilfe einer grafischen Benutzeroberfläche ermöglicht.

Ein grundlegendes Verständnis der Software R und linearer Regressionsanalysen sind hilfreiche Vorkenntnisse. Der Workshop wird im online Format angeboten. Die Teilnehmer*innen werden gebeten eine aktuelle R Version und einen Editor (z.B. RStudio), sowie die Pakete lavaan und EffectLiteR bereits vor dem Workshop auf ihrem Endgerät zu installieren.

In this workshop, we provide an introductory overview of the possibilities and limitations of using data collected from social media platforms for research, structured along a theoretical framework and illustrated with practical examples.

On social media platforms, the activities and interactions of hundreds of millions of people worldwide are recorded as digital traces, for example, on websites like Facebook, Twitter, Instagram, Reddit, and more. To researchers across various disciplines, these data offer increasingly comprehensive pictures of both individuals and groups on different platforms but also allow inferences about broader target populations beyond those platforms. Notwithstanding the many potentials, this new type of data is accompanied by challenges. Therefore, studying the errors that can occur when digital traces are used to learn about humans and social phenomena is essential. With this workshop, we want to equip researchers new to working with social media with some structured guidance for better determining the limits of specific research ideas.

For this, we combine theory, data, and methods to demonstrate both the pitfalls and potentials of digital traces from social media users. The theoretical part is based on the idea of using Error Frameworks in the study design process. We will be using an error framework tailored to the specifics of digital traces collected from social media and online platforms (Sen et al., 2021), that is based on and inspired by concepts and guidelines of the Total Survey Error Framework (TSE) used by survey researchers and practitioners in the social sciences. Both the TSE and our adaptation to the specific characteristics of social media data will help to diagnose, understand, and avoid errors that may occur in studies that are based on digital traces of humans from the web.

To help understand the utility of the error framework for digital traces, we apply it to diagnose and document errors in existing computational social science. During interactive parts of the workshop, participants will learn to apply the error framework to hypothetical research scenarios (illustratively using an example dataset provided by us). Participants are invited to also propose their own case studies before or during the workshop so that the group may jointly explore the potentials and limitations of these and help to advance the research idea of the participants.

The workshop is structured along a prototypical research workflow consisting of study design, data collection, preprocessing, and analysis. For these steps, we will also provide practical hands-on exercises building on the example datasets. For the hands-on part, we will provide participants with examples of Python code that can be run in execution environments such as Google Colab. Please note though that this is not a full programming course - we will jointly work through the hands-on examples to give participants a general understanding of the processes needed for collecting, processing, and analyzing (mainly textual) social media datasets. Examples may for example include the collection of posts from Reddit and analyzing the sentiments in them.

Die Schätzung kausaler Effekte ist eines der zentralen Anliegen der quantitativen empirischen Sozialforschung. In der Forschungspraxis stehen häufig nur nicht-experimentelle Daten zur Verfügung, die Kausalschlüsse aufgrund nicht-zufälliger Selektion erschweren. In der aktuellen sozialwissenschaftlichen empirischen Forschung finden zunehmend Methoden der modernen Kausalanalyse für nicht-experimentelle Daten Anwendung, denen ein klares Kausalitätsverständnis zugrunde liegt und die nicht-zufällige Selektion explizit adressieren. Dieser Workshop führt in diese Verfahren ein. Gemäß der theoriegeleiteten empirischen Sozialforschung wird als Ausgangspunkt die Idee kausaler Hypothesen erklärt und das Ziel der kausalen Inferenz von den alternativen Zielen der Deskription und Prädiktion abgegrenzt. Dann werden als theoretische Grundlage für alle Verfahren das kontrafaktische Modell der Kausalität und die Theorie kausaler Graphen (DAGs – Directed Acyclic Graphs) vorgestellt und anhand praktischer Beispiele eingeübt. Es wird erläutert, welche Implikationen sich daraus für die Regressionsanalyse ergeben, wie z.B. Auswahl der Kontrollvariablen, kausaltheoretischer Modellaufbau und Verfahren des Regression Adjustment. Darauf aufbauend werden in einer anwendungsorientierten Einführung die Verfahren (Propensity-Score) Matching, Inverse Probability Weighting, Instrumentvariablenschätzer, Regression Discontinuity Design und Differenz-von-Differenzen-Schätzer vorgestellt. Die Verfahren werden praxisnah am PC mit dem Statistikprogramm Stata eingeübt. Für die Praxisbeispiele werden sozialwissenschaftliche Daten verwendet.

Stata is a broadly applied software for statistical data analysis within the social sciences. This course aims to give participants a first introduction to the usage of Stata. Stata allows users to manage and transform data, perform a variety of statistical analyses, and visualize and export analytical results. We start with an introduction to the interface of Stata and the different options to work with this software (using the drop-down menus or do-files). During the course, we will mainly work in do-files, in order to support a reproducible practice for scientific materials from the beginning. We will then concentrate on the most important commands and efficient data wrangling and descriptive statistics, before finally diving into some basic inferential statistics. Hence, a basic understanding of descriptive and inferential statistics is recommended to best follow the material.  Within these sections, we will practice the visualization and exporting of results (via Word or Latex).

We encourage participants during the course to practice dealing with Stata's built-in help function. Additionally, the focus is given to using online resources to find answers to programming problems.

Participants should know the fundamentals of Stata at the end of this class and be able to advance their analysis skills on their own.

This workshop offers a demonstration of the rtoot package to connect with the Mastodon API. Key functionalities of the package will be explained. This includes how to setup tokens and connect to various different API endpoints. The course will additionally offer a short introduction in the philosophy of Mastodon and outline how research using Mastodon data is more complex from an ethics point of view.