GESIS Training

2020 fanden 25 Workshops - davon 17 online – an 53 Kurstagen mit insgesamt 410 Teilnahmen statt. Bedingt durch die Corona-Pandemie mussten 10 Workshops ausfallen. Die Workshops wurden teils in englischer, teils in deutscher Sprache abgehalten und deckten einen Großteil des Themenspektrums der empirischen Sozialforschung ab.

Machine Learning is an analytical approach in which users can build statistical models that 'learn' from data to make accurate predictions and decisions. From customer-recommendation systems (think of Netflix suggesting what movies you should watch) to policy design and implementation, machine learning algorithms are becoming ubiquitous in a big data world.


Their potential, however, is only starting to be explored in the social sciences, and in few and specific areas. In this course, you will learn the fundamentals of machine learning as a data analysis approach, and will get an overview of the most common and versatile classes of ML algorithms in use today, with all practical examples in R.

By the end of the course, you will be able to identify what kind of technique is most suitable for your research question and data, and how to design, test and interpret your models. You will also be equipped with sufficient basic knowledge to proceed independently for more advanced algorithms and problems. This is an introductory course, so math and programming technicalities will be kept to a minimum. If you can run and interpret multivariate regressions in R, you can (and should!) take this course.


Bruno Castanho Silva is a post-doctoral researcher at the Cologne Center for Comparative Politics, University of Cologne. He earned his PhD in Political Science at Central European University (Budapest, Hungary), and specializes on quantitative methods in social sciences, especially text analysis, structural equation modeling, causal inference, and machine learning. Substantively, his research focuses on populist parties and voters in Europe and the Americas.

Das Beziehungs‐ und Familienpanel pairfam („Panel Analysis of Intimate Relationships and Family Dynamics“) ist eine multidisziplinäre Längsschnittstudie zur Erforschung partnerschaftlicher und familialer Lebensformen in Deutschland. Das auf 14 Jahre angelegte DFG-finanzierte Langfristvorhaben startete im Jahr 2008 mit einer Ausgangsstichprobe von 12.402 zufällig ausgewählten Ankerpersonen. Die im jährlichen Abstand durchgeführten Befragungen der Ankerpersonen sowie ihrer Partner, Eltern und Kinder ermöglichen eine detaillierte Analyse partnerschaftlicher und familialer Verläufe. Die Längsschnittstruktur und das Multi-Actor-Design bieten dabei einzigartige Potenziale, erfordern jedoch auch spezielle Kenntnisse in der Datenaufbereitung und -analyse.

Im Rahmen dieses Workshops werden die Datenstruktur und die verfügbaren Variablen und Datensätze der ersten acht pairfam-Wellen vorgestellt sowie Analysemöglichkeiten anhand von anwendungsorientierten Beispielen präsentiert. Dies beinhaltet konkrete Hinweise zum Datenmanagement (z.B. Zusammenführen verschiedener Datensätze für Quer- und Längsschnittanalysen, Verwendung generierter Variablen und Datensätze) sowie die gemeinsame Umsetzung von Beispielanalysen unter Anwendung von Verfahren der Längsschnittdatenanalyse (Panelanalyse). Darüber hinaus wird es eine Einführung in Design, Stichprobe, inhaltliche Themengebiete und Dokumentationsmaterialien der Studie geben.Für die anwendungsorientierte Umsetzung wird das Statistikprogramm Stata verwendet. Grundkenntnisse in Stata oder fortgeschrittene Kenntnisse in einem anderen Statistikprogramm werden vorausgesetzt.


Kristin Hajek ist für die Nutzerbetreuung und Öffentlichkeitsarbeit im pairfam-Team an der Ludwig-Maximilians-Universität München zuständig. Diese Aufgabengebiete hat sie im Januar 2015 übernommen; zuvor war sie 3 Jahre in der Datenaufbereitung und –dokumentation der pairfam-Daten tätig. Ihr Forschungsgebiet umfasst verschiedene Themen der Familiensoziologie sowie Surveymethodische Fragestellungen.

Dr. Martin Wetzel ist wissenschaftlicher Mitarbeiter im Bereich pairfam (Fokus Intergenerationale Beziehungen) am Institut für Soziologie und Sozialpsychologie an der Universität zu Köln.


Questionnaires are used in a variety of disciplines such as the social and behavioral sciences, medical/health sciences, and geoinformation sciences. Accordingly, the range of possible applications of questionnaires is very broad, spanning the continuum from qualitative (e.g., religious denomination, medication intake) to quantitative (e.g., symptom frequency) questions; and from single-item questions asking respondents to state simple facts (e.g., age, physical disability, life satisfaction) to multi-item batteries measuring latent constructs such as depression or personality traits. Questionnaire data can be used for cross-sectional and longitudinal purposes as baseline assessment, predictor variables, study endpoints, post-intervention outcomes, or control variables; and they can be linked to a variety of other data sources, such as physiological measures, administrative records, or geographical information.


Whatever the nature and purpose of the specific questionnaire, constructing and validating questionnaires and analyzing the resulting data requires a broad set of methodological and data-analytical skills – skills not always taught in standard university curricula. This two-day training workshop focuses on general principles of constructing instruments for testing and assessment as well as measurement based on self-reports and informant-reports. Special attention is given to validation of existing (or newly created) instruments foremostly tapping into quantitative constructs. To equip participants with critical skills in evaluating instruments, the workshop will not follow a “nuts and bolts” approach, but cover the most relevant methodological concepts for constructing instruments. Crucial psychometric aspects for validation will be explained though, supported by scripts (such as SPSS syntax) for individual use (and “hands-on” experience for exemplary statistical techniques, if time allows).


Matthias Blümke studierte Psychologie an den Universitäten Trier und Heidelberg und promovierte 2006 in Psychologie. Berufsbegleitend studierte er an der Universität Heidelberg Medizinische Biometrie/Biostatistik, wo er 2017 den Master of Science erwarb. Im Anschluss arbeitete er als Wissenschaftlicher Mitarbeiter / Akademischer Rat am Lehrstuhl für Sozialpsychologie der Universität Heidelberg. Seit 2016 ist er bei GESIS – Leibniz-Institut für Sozialwissenschaften als Senior Researcher beschäftigt, aktuell im Team Skalenentwicklung und -dokumentation. Schwerpunktmäßig ist er dabei mit der Datenanalyse aus dem Bereich der Instrumentenentwicklung, der Weiterentwicklung statistischer Methoden sowie Forschungsfragen zu Kognitions- und Verhaltenskontexten befasst

Clemens Lechner studierte Psychologie (Nebenfach Soziologie) an der Universität Jena und promovierte 2014 in Entwicklungspsychologie. Er war Postdoktorand im International Pathways to Adulthood Programme der Jacobs Foundation. In seiner Forschung beschäftigt er sich mit messtheoretischen und methodischen Fragen zu den Auswirkungen von individuellen Unterschieden in Kognition, Persönlichkeit und Werten. Seit 2016 ist er bei GESIS – Leibniz-Institut für Sozialwissenschaften als Senior Researcher beschäftigt; seit 2018 als Leiter des Teams Skalenentwicklung und –dokumentation.



YouTube is the largest and most popular video platform on the internet. The producers and users of YouTube content generate huge amounts of data. These data are also of interest to researchers (in the social sciences as well as other disciplines) for studying different aspects of online media use and communication. Accessing and working with these data, however, can be challenging. In this workshop, we will first discuss the potential of YouTube data for research in the social sciences, and then introduce participants to different tools and methods for sampling and analyzing data from YouTube. We will then demonstrate and compare several tools for collecting YouTube data. Our focus for the main part of the workshop will be on using the tuber package for R to collect data via the YouTube API and wrangling and analyzing the data in R (using various packages). Regarding the type of data, we will focus on user comments but also will also (briefly) look into other YouTube data, such as video statistics and subtitles. For the comments, we will show how to clean/process them in R, how to deal with emojis, and how to do some basic forms of automated text analysis (e.g., word frequencies, sentiment analysis). While we believe that YouTube data has great potential for research in the social sciences (and other disciplines), we will also discuss the unique challenges and limitations of using this data.


Julian Kohne studied Psychology and Social & Organizational Psychology at the University of Groningen. He joined the Computational Social Science Department at GESIS in 2017 where he is coordinating the developments of GESIS in the area of digital behavioral data. His research interests concern using digital data for quantifying human behavior, especially interpersonal relationships through text mining and the simulation of social systems.

Johannes Breuer works as a senior researcher in the team Data Linking & Data Security at the GESIS Data Archive. He received his Ph.D. in psychology from the University of Cologne in 2013. Before joining GESIS, he worked in several research projects investigating the use and effects of digital media at the universities of Cologne, Hohenheim, and Münster, and the Leibniz-Institute für Wissensmedien (Knowledge Media Research Center). His other research interests include the methods of media (effects) research, data management, and open science.

M. Rohangis Mohseni is a postdoctoral researcher of the Media Psychology and Media Design research group at TU Ilmenau in Germany. He received his Ph.D. in psychology from the University Osnabrück in 2013 and is currently working on a habilitation on the topic of sexist online hate speech. His research interests include electronic media effects and moral behavior.

Within-estimation with panel data (e.g. fixed-effects regression) has the advantage that it automatically controls for all time-constant unit-specific confounders. Therefore, within-estimation is meanwhile widely used in social research. However, available textbooks are largely silent on how to specify a within analysis and therefore it is no wonder that many published studies use problematic specifications that have the potential to spoil the advantages of within-estimation. In this workshop we will discuss several of these specification issues for within-estimation: How to model impact functions? How to model the age effect? Should one use a control group? How to use hybrid models? How to specify interaction effects? Should one use lagged outcome/treatment variables? How to get rid of the parallel trends assumption? How to deal with reverse causality?

The workshop is intended for participants who have a basic understanding of and previous experience in carrying out panel data analysis (the workshop will start with a short (!) introduction to fixed-effects regressions). Exemplary analyses will be carried out using the ‘German Socio-Economic Panel (SOEP)’.


Josef Brüderl is professor of sociology at  Ludwig-Maximilians Universität (LMU), München. He is principal investigator of the German Family Panel (pairfam).

Der Workshop hat zum Ziel, die Grundideen und  Strategien der Grounded-Theory-Methodologie (GTM) eine der am weitesten verbreiteten  qualitativen Forschungsmethodologien zu vermitteln und hierbei auch  unterschiedliche Positionen zur GTM vorzustellen und zu diskutieren.
Orientiert an den Fragen und dem Bedarf der Teilnehmenden werden die wesentlichen Konzepte und Schritte u.a. Theoretische  Sensibilität; Offenes, Axiales und Selektives Kodieren; Theoretisches Sampling  und Theoretische Sättigung behandelt und in Übungen erprobt.
Material der  Teilnehmenden wird auf Wunsch gerne berücksichtigt und besprochen.


Infos zum Dozenten Prof. Dr. Günter Mey finden Sie unter folgendem Link:

Infos zum Dozenten Paul Sebastian Ruppel finden Sie unter folgendem Link:


Im Rahmen des Workshops soll in Theorie und Praxis  qualitativer Interviews als wesentliche sozialwissenschaftliche  Erhebungsinstrumente eingeführt werden.
Im Zentrum des Workshops stehen zum einen der  Überblick über gängige Interview-Verfahren und deren Einbettung in Konzepte der  Gesprächsführung und in Narrationstheorien; zudem werden Fragen des  Datenschutzes, angemessener Transkription/Datenaufbereitung und Archivierung diskutiert.
Den zweiten Schwerpunkt des Workshops bilden Übungen  zur Leitfadenentwicklung und Interviewführung (mit Videofeedback).
Materialien (Interviewleitfäden etc.) der  Teilnehmenden werden gerne berücksichtigt und besprochen.


Infos zum Dozenten Prof. Dr. Günter Mey finden Sie unter folgendem Link:

Infos zum Dozenten Paul Sebastian Ruppel finden Sie unter folgendem Link:

Das OpenSource Software Paket R ist kostenfrei und bietet neben Standardverfahren der Datenanalyse ein umfangreiches Repertoire von hoch spezialisierten Prozeduren und Verfahren auch für komplexe Anwendungen.
Ein Schwerpunkt wird auf der Vermittlung von Methoden der grafisch gestützten Datenanalyse liegen, zu der sich R in besonderer Weise eignet.


Dr. Jan-Philipp Kolb ist Senior Researcher am Leibniz-Institut für Sozialwissenschaften (GESIS) und arbeitet als Erhebungsstatistiker im Team des GESIS-Panels. Zuvor war er im Team der GESIS-Erhebungsstatistik und als wissenschaftlicher Mitarbeiter in der Abteilung Wirtschafts- und Sozialstatistik der Universität Trier tätig und lehrte dort Stichprobenverfahren und angewandte Statistik mit R.

The workshop Applied Data Visualization introduces students to the theory and methods underlying data visualization. Data analysts face an ever-increasing amount of data (→ big data) and rather revolutionary technological developments allow researchers to visually engage with data in unprecedented ways. Hence, data visualization is one of the most exciting fields in data science right now. In this workshop students acquire the skills to visualize data in R both for exploratory purposes as well as for the purpose of explanation/presentation. We’ll rely on R, the most-popular statistical programming environment when it comes to visualization and we’ll make use of popular R packages such as ggplot2 and plotly. Besides creating static graphs we’ll also have a look at interactive graphs and discuss how interactive visualization may revolutionize how we present data & findings.


Paul C. Bauer is a research fellow at the Mannheim Centre for European Social Research (MZES). His research mostly focuses on political sociology (trust, polarization, social media) and methods. He previously worked and studied at the European University Institute, the University of Bern, the University of Konstanz, the University of Pompeu Fabra and at Sciences Po Bordeaux. More information under

The workshop will cover the ethical and operational issues associated with linking Twitter and survey data. We will begin by thinking about what new and exciting opportunities this new form of linked data provides. We will then move on to the challenges associated with designing, collecting, analyzing, publishing and sharing this type of linked data. Drawing on recent experiences of three UK studies (British Social Attitudes 2015, the Understanding Society Innovation Panel 2017 (IP10) and the NatCen Panel July 2017) we will explore issues around informed consent, disclosure, security and archiving. The workshop will be interactive with a focus on participant engagement and dialogue.


Luke Sloan is a Reader in the School of Social Sciences and Deputy Director of the Social Data Science Lab, at Cardiff University UK ( His work focusses on exploring how social media data, specifically from Twitter, can be used for social scientific analysis with a particular focus on demographics, representation and data linkage.

Libby Bishop is the Coordinator for International Data Infrastructures in the Data Archive at GESIS-Leibniz Institute for Social Sciences.  She manages connections between GESIS and international data infrastructures, such as the Consortium of European Social Science Data Archives (CESSDA).   She is participating in the Social Sciences and Humanities Open Science Cloud (SSHOC) project.  She is also implementing a data governance framework at GESIS.  She publishes on the methodological and ethical issues of reusing and sharing data.


Der Workshop vermittelt einen Einstieg in den Umgang mit Item Nonresponse, wobei zunächst einfache (aber verbreitete) Verfahren wie listwise deletion und Mittelwertsergänzung diskutiert werden, bevor schwerpunktmäßig Multiple Imputation (MI) behandelt wird. Während am ersten Tag hauptsächliche einige theoretische Grundlagen und wichtige Annahmen wie Ignorierbarkeit der fehlenden Daten (Missing at Random und Distinctness) vermittelt werden, und praktisches Arbeiten sich auf Visualisierungen von Datenausfallmuster und –mechanismen beschränkt, ist der zweite Tag praxis-orientierter: Neben einem Überblick über diverse MI-Implementierungen beschäftigt sich der Kurs dann mit softwareübergreifenden Parallelen der zugrundeliegenden Algorithmen und deren Parameter. Datenaufbereitung und Beispiele erfolgen in R und mit dort vorwiegend mit dem R-Paket mice, aber es werden auch Vergleiche zu den Implementationen in Stata (und SPSS) gezogen, deren Aufbau sehr ähnlich ist. Ein besonderes Augenmerk kommt der Regressionsanalyse mit fehlenden Werten in den X-Variablen und/oder der Y-Variable zu. Abschließend werden Anwendungsbeispiele wie Fragenbogensplitting oder Datenfusion vorgestellt, bei denen ein bewusstes missing-by-design in Kauf genommen wird.


Florian Meinfelder ist seit 2010 an der Otto-Friedrich-Universität Bamberg am Lehrstuhl für Statistik und Ökonometrie, wo er den Masterstudiengang Survey-Statistik koordiniert. Davor war er bei der GfK Fernsehforschung tätig, wo er den Bereich Datenintegration leitete. Neben zahlreichen Publikationen zum Thema „Missing Data“ ist er Ko-Autor des R-Pakets BaBooN, das fehlende Werte multipel ergänzt. Neben einem einwöchigen Kurs bei der GESIS Summer School hält er regelmäßig Short Courses zum Missing Data/ Multiple Imputation.

Die Mehrebenenanalyse ist ein Verfahren zur simultanen Analyse von hierarchisch strukturierten Daten, wie sie etwa in der Organisationsforschung oder bei international vergleichenden Untersuchungen vorliegen.

Sind mehrere Untersuchungsteilnehmer gleichwirkenden Kontexteinflüssen ausgesetzt, wie dies bei den Schülern verschiedener Schulklassen oder den Befragten eines Landes innerhalb einer international vergleichenden Studie der Fall ist, dann sind die Voraussetzungen für die Anwendung der herkömmlichen Regressionsanalyse in aller Regel nicht mehr erfüllt.

Unter solchen Bedingungen ist es angeraten, die Analysen mit Hilfe eines Mehrebenenprogrammes durchzuführen.

Der Workshop bietet eine Einführung in die Logik der Mehrebenenanalyse, das Schätzen von Mehrebenenmodellen und die Interpretation der Ergebnisse. Neben metrischen werden auch dichotome abhängige Variablen eine Berücksichtigung finden.



Hermann Dülmer ist Privatdozent am Institut für Soziologie und Sozialpsychologie der Universität zu Köln. Seine methodischen Interessensschwerpunkte bilden die Mehrebenenanalyse einschließlich Mehrebenenstrukturgleichungsmodelle (ML CFA, ML SEM) und der Faktorielle Survey (Vignettenanalyse). Den Schwerpunkt seiner inhaltlich ausgerichteten Forschung bilden die vergleichende Kultursoziologie (Wertewandel, gesellschaftlicher Wandel) und die politische Soziologie (Wahlforschung).

This workshop introduces sequence analysis for social science research. Sequence analysis, originally developed in biology to analyze strings of DNA, has attracted increasing attention in the social sciences for the analysis of longitudinal data. Most applications study life course processes, including labor market careers, transitions to adulthood, or family formation. This workshop covers longitudinal data management (only briefly; with Stata), basic techniques of sequence analysis (with Stata, but mainly with R), as well as recent methodological developments tailored at social science research questions. Topics include different ways of calculating distances between sequences, cluster analysis after sequence analysis, sequences visualization, techniques for analyzing sequences’ multidimensionality and the association between sequences’ unfolding over time and independent variables. All methods are demonstrated with hands-on examples using Stata (SQ package, for data preparation and basic sequence analysis) and R (TraMineR package).

Marcel Raab  is Assistant Professor for Sociology at the University of Mannheim and visiting researcher in the research group Demography and Inequality at the WZB Berlin Social Science Center. Previously, he worked as research assistant at the National Educational Panel Study and the Professorship of Demography at the University of Bamberg, and as research fellow at the WZB. In 2011 he was a visiting pre-doctoral fellow at the Center for Research on Inequalities and the Life Course (CIQLE) at Yale University. His research interests cover life course sociology, family demography, aging, and intergenerational relationships within families.

Emanuela Struffolino is senior research fellow at the “Demography and Inequality” research group at the WZB Berlin Social Science Center and at the chair of Microsociology at Humboldt University of Berlin. Previously, she was senior research fellow at “NCCR LIVES - Overcoming vulnerability: Life Course perspective” at the University of Lausanne. In 2016 she was a visiting scholar at Sapienza University of Rome. Her research interests include life-course sociology, gender inequalities in the labor market, social stratification, and methods for longitudinal data. Her publications include journal articles in Advances in Life Course Research (2016), Social Science Research (2017), Sociological Methodology (in press).

Sozialwissenschaftliche Forschung steht häufig vor dem Problem, dass soziale Phänomene wie z.B. ausländerablehnende Einstellungen nicht direkt beobachtbar sind. Solche latenten Konstrukte müssen daher mittels Messmodellen operationalisiert werden. Die Strukturgleichungsmodellierung (SEM) ist ein Verfahren, mit dessen Hilfe Messmodelle empirisch getestet sowie kausale Zusammenhängen zwischen latenten Variablen überprüft werden können.  
Der Workshop führt in die Logik der Strukturgleichungsmodellierung ein und verfolgt die anwendungsbezogene empirische Analyse (u.a. mit Daten des Allbus) mit gängiger SEM-Software (v.a. Mplus, aber auch mit Anschauungsbeispielen für R (package lavaan) und AMOS).
Zu den Themen gehören u.a.:
- Spezifikation und Schätzverfahren
- Konfirmatorische Faktorenanalyse
- Pfadanalyse
- Moderator- und Mediatoreffekte
- Multigruppenanalyse und Test auf Messäquivalenz
- Methodische Fallstricke
- Einführung in SEM-Software


Henrik Andersen ist wissenschaftlicher Mitarbeiter am Fakultät für Human- und Sozialwissenschaften, Institut für Soziologie, Fachgebiet Soziologie mit Schwerpunkt Empirische Sozialforschung an der TU Chemnitz. Zuvor war er wissenschaftlicher Mitarbeiter im Fachbereich Sozialwissenschaften, Fachgebiet Empirische Sozialforschung an der TU Kaiserslautern.

Prof. Dr. Jochen Mayerl ist Professor für Soziologie mit Schwerpunkt Empirische Sozialforschung an der TU Chemnitz. Zuvor war er Juniorprofessor für Methoden der empirischen Sozialforschung an der TU Kaiserslautern. Seit 2012 lehrt er Strukturgleichungsmodellierung an der ECPR Summer School in Ljubljana und Budapest. Zu seinen Forschungsgebieten gehören Strukturgleichungsmodelle, Surveyforschung und Einstellungs-Verhaltens-Forschung insbesondere in den Bereichen Ethnozentrismus und Umweltbewusstsein.


Ziel des Workshops ist es, eine Einführung in Konzepte, Verfahren und Strategien qualitativer Inhaltsanalyse zu vermitteln. Der Schwerpunkt liegt dabei auf der thematischen bzw. qualitativ-strukturierenden Inhaltsanalyse. Ausgehend von einem kurzen Überblick über Merkmale und Ablauf des Verfahrens besprechen wir insbesondere die folgenden Themen: Aufbau von und Anforderungen an inhaltsanalytische Kategoriensysteme; Vorgehen bei der Entwicklung von Kategoriensystemen; Unterteilung des Materials in Kodiereinheiten; Probekodierung; Kodierbesprechung; Überarbeitung des Kategoriensystems. Sämtliche Schritte werden anhand von eigenem Material der Teilnehmer/innen (soweit vorhanden) in Übungen erprobt. Der Schwerpunkt der Veranstaltung liegt auf dem Verfahren der qualitativen Inhaltsanalyse, unabhängig von Software-Paketen.


Markus Janssen ist Akademische Mitarbeiter im Fach Erziehungswissenschaft an der Pädagogischen Hochschule Weingarten und verantwortlich für die Forschungswerkstatt Qualitative Inhaltsanalyse an der PH Weingarten, die einen Rahmen zur kollegialen Diskussion methodologischer Fragen und zur gemeinsamen Arbeit an Projekten und empirischem Material bietet. Er lehrt qualitative Methoden für Bachelor- und Masterstudierende, bietet Workshops zu Verfahren und Techniken qualitativer Inhaltsanalyse an (z. B. bei der Graduiertenakademie der Pädagogischen Hochschulen Baden-Württemberg). 2016 war er hauptverantwortlich für die Ausrichtung der Tagung „Qualitative Inhaltsanalyse  and beyond?“

Christoph Stamann ist akademischer Mitarbeiter im Fach Erziehungswissenschaft an der Pädagogischen Hochschule Weingarten und verantwortlich für die Forschungswerkstatt Qualitative Inhaltsanalyse an der PH Weingarten, die einen Rahmen zur kollegialen Diskussion methodologischer Fragen und zur gemeinsamen Arbeit an Projekten und empirischem Material bietet. Er lehrt qualitative Methoden für Bachelor- und Masterstudierende, bietet Workshops zu Verfahren und Techniken qualitativer Inhaltsanalyse an (z. B. bei der Graduiertenakademie der Pädagogischen Hochschulen Baden-Württemberg). 2016 war er hauptverantwortlich für die Ausrichtung der Tagung „Qualitative Inhaltsanalyse and beyond?“