38th GESIS Methods Seminar (2018)

09 - 27 July 2018, Cologne

The GESIS Methodenseminar is aimed at graduate students in the social sciences and humanities as well as related fields. It consists of five courses, three in German, two in English - all are research based and teach practically relevant skills. The basic module and advanced modules I and II (Basismodul, Aufbaumodul I, and Aufbaumodul II) are held in German and teach basic knowledge and skills on how to analyze quantitative, scientific data. The Big Data-Modules I and II are held in English and focus on methods and techniques used in data science - for - example, how to handle and analyze large amounts of data from the internet.

The Basismodul teaches the basics of univariate and bivariate statistics. Aufbaumodule I and II teach theory and applications of popular techniques from multivariate statistics. Big Data-Module I introduces participants to the programming language “Python” and how to use it for different methods and techniques for the analysis of big data, such as machine learning. Big Data-Module II focuses on text mining, that is, algorithm-based analysis of texts.

All courses are five day courses. In all courses, teaching is accompanied by hands-on tutorials in which participants apply the acquired knowledge and skills to empirical real world questions.

Course description

Das Modul vermittelt analysepraktische und mathematische Grundlagen der uni- und bivariaten Statistik. Im Zentrum des Kurses stehen dabei ausgewählte Koeffizienten der bivariaten Zusammenhangsanalyse, aber auch parametrische und nonparametrische Tests zur Unterschiedsprüfung werden vorgestellt. Alle Analysen werden mit dem Statistikpaket STATA durchgeführt, einige grundlegende Koeffizienten werden zusätzlich „per Hand“ berechnet. Nötiges Wissen für eine inferenzstatistische Interpretation der Koeffizienten wird ebenfalls vermittelt. Darüber hinaus vermittelt der Kurs Techniken zum Datenmanagement und zur Datenaufbereitung mit Stata und gibt einen Ausblick auf weiterführende multivariate Verfahren.

Learning objectives

Am Ende des Moduls soll jeder Teilnehmer anhand der Eigenschaften seines Datenmaterials und seiner Forschungsfrage geeignete Koeffizienten der uni- und bivariaten Statistik sicher auswählen, mit Stata berechnen und interpretieren können. Die im Kurs vermittelten Grundlagen der bivariaten Zusammenhangs- und Unterschiedsprüfung können in weiterführenden Kursen über Regressions- und Varianzanalysen ausgebaut werden.

Lecturers

Lars Vogel ist seit Oktober 2017 an der Universität Leipzig, Institut für Politikwissenschaft und dort verantwortlicher Wissenschaftlicher Mitarbeiter für den Arbeitsbereich „Empirische Methoden und politische Soziologie". Seine Forschungsschwerpunkte sind Fragestellungen der politischen Repräsentation und international vergleichenden Elitensoziologie, die er mit unterschiedlichen Methoden untersucht (Regressions-, Mehrebenen- und Varianzanalyse sowie Faktoren-, Cluster- und Korrespondenzanalyse). Neben der Anwendung in nationalen und internationalen Forschungsprojekten verfügt er über langjährige Erfahrungen (19 Veranstaltungen) in der grundständigen und weiterführenden akademischen Methodenausbildung.

Katja Salomo ist seit 2012 wissenschaftliche Mitarbeiterin am Institut für Soziologie der Friedrich-Schiller-Universität Jena. Sie erforscht Determinanten der politischen Kultur, insbesondere anti-demokratischer und anti-sozialer Einstellungen sowie politischer Gewalt, auf Mikro-, Meso- und Makroebene. Über die Mitarbeit in zahlreichen Forschungsprojekten hat sie sich theoretische und anwendungsbezogene Kenntnisse mit verschiedensten Auswertungsperspektiven angeeignet. Dies schließt (Mehrebenen-) Pfad- und Strukturgleichungsmodellierung, ANCOVAs, Ereignisdatenanalysen, dimensionsreduzierende Verfahren wie Faktoren-, Cluster-, Korrespondenzanalyse und Raschmodelle als auch quantifizierende Verfahren der Inhaltsanalyse ein. Durch zahlreich absolvierte Methoden- und Lehrforschungsseminare im Bachelorstudium (13 Veranstaltungen) konnte sie fundierte didaktische Kenntnisse zur Vermittlung quantitativer Methoden erwerben.

Course Description

Data Science is the interdisciplinary science of the extraction of interpretable and useful knowledge from digital datasets. Due to the rapid surge of digital trace data (often as “Big Data”) in a wide range of application areas, Data Science is also increasingly utilized in the social sciences and humanities. In contrast to empirical social science, Data Science methods often serve purposes of exploration and inductive inference. In this course, we aim to provide an introductory overview on the field of Data Science for practitioners. In particular, we want to impart basic understanding of the main methods and algorithms and understand how these can be deployed in practical application scenarios, focusing on the analysis of large behavioral data found on the Web. For that purpose, our schedule alternates between lecture sessions that present the theoretical and technical background of data analysis and practical sessions that allow participants to directly apply acquired knowledge with simple code in the Python programming language. We cover aspects of data collection, preprocessing, interactive exploration, regression analysis, hypothesis testing, machine learning, and network analysis using basic Python and key packages.

Learning Objectives

Participants will obtain profound knowledge about typical data types and structures encountered when dealing with behavioral traces from the Web, state-of-the art data analysis methods, and they will learn how this approach differs from those typically encountered in survey-based or experimental research. This will enable them to identify benefits and pitfalls of these methods in their field of interest and will, thus, allow them to select and appropriately apply data analysis and machine-learning methods for large datasets in their own research. The knowledge obtained in this course provides a starting point that enables participants to investigate specialized methods for their individual research projects.

Lecturers

Dr. Arnim Bleier is a postdoctoral researcher in the Department Computational Social Science at GESIS. His research interests are in the field of Natural Language Processing and Computational Social Science. In collaboration with social scientists, he develops Bayesian models for the content, structure and dynamics of social phenomena.

Dr. Fabian Flöck studied communication sciences and sociology, and subsequently acquired a PhD in computer science. Specifically, he developed algorithmic methods to extract rich behavioral traces from Wikipedia editing data and studied them with data science methods. He is a post-doctoral researcher at the Computational Social Science department at GESIS and interested in collaborative content production, crowdsourcing and data visualization.

Dr. Florian Lemmerich studied computer science, mathematics and history at the University of Würzburg, where he finished his PhD in 2014 with a dissertation on the data mining method of subgroup discovery. Today, Florian works a post-doctoral data scientist at the Computational Social Science department at GESIS. Additionally, he is a lecturer at the University of Koblenz-Landau. His main research topics cover methods for data analysis - specifically, pattern mining, sequential data, and Bayesian statistics - as well as practical applications with a focus on social data and web environments.

Dr. Haiko Lietz is a sociologist with an engineering background. His dissertation at the University of Duisburg Essen is about network theory and analysis of scientific practice (2016). He is a post-doc researcher at the Computational Social Science department at GESIS, focussing on complex systems approaches and cultural analytics.

Course description

In the digital age, large collections of text are an increasingly attractive data source for analysis in the social sciences. Corpora from thousands up to several millions of retro-digitized or natively digital documents cannot be investigated with conventional, manual methods alone. (Semi-)automatic computational analysis algorithms, also known as text mining, provide interesting opportunities for social scientists to extend their toolbox.

To realize complex designs in empirical social research, scientists need basic knowledge of computational algorithms to be able to select those appropriate for their needs. Specific projects may further require certain adaptations to standard procedures, language resources or analysis workflows. Instead of relying on off-the-shelf analysis software, using script programming languages is a very powerful way to fulfill such requirements. The course teaches an overview of text mining in connection with data acquisition, preprocessing and methodological integration using the statistical programming language R.

In sessions alternating between lectures and tutorials, we teach theoretical and methodological foundations, introduce exemplary studies and get hands on programming to realize different analyses.

Learning objectives

Participants will learn about opportunities and limits of text mining methods to analyze qualitative and quantitative aspects of large text collections. With example scripts provided in the programming language R, participants will learn how to realize single steps of such an analysis on a specific corpus. We cover a range of text mining methods from simple lexicometric measures such as word frequencies, key term extraction and co-occurrence analysis, to more complex machine learning approaches such as topic models and supervised text classification. The goal is to provide a broad overview of several technologies already established in social sciences. Participants will be enabled to identify their own priorities and to lay foundations for further independent studying tailored to their individual needs.

Lecturers

Dr. Gregor Wiedemann works in the natural language processing (NLP) group at Leipzig University. He studied political science and computer science in Leipzig and Miami. In 2016, he received his doctoral degree in computer science for his dissertation “Integrating Text Mining into Qualitative Data Analysis for Social Sciences”. Wiedemann has worked in several projects in the fields of digital humanities and computational social science where he developed methods and workflows to analyze large text collections.

Dr. Andreas Niekler is a researcher at Leipzig University. He studied media technology at HTWK Leipzig and the University of West Scotland. After two years working as a freelance programmer and teacher at the Leipzig School of Media, he joined the NLP group at Leipzig University. In his dissertation project he worked with automated methods for content and topic analyses in news-oriented text sources.

Course description

Faktoren- und Clusteranalysen gehören zu den strukturprüfenden und -findenden Verfahren. Ihr Einsatzgebiet liegt vor allem in der Überprüfung von Konstruktdefinitonen (Messen die erhobenen Indikatoren tatsächlich alle das gleiche latente Konstrukt? (Wie) Kann man sie zu einer Skala zusammenfasen?), der Dimensionsreduktion (Auf welche übergreifenden latenten Konstrukte lässt sich eine Menge an Indikatoren zurückführen? Gliedern sich bestimmte Konstrukte in unterscheidbare Subdimensionen?) und Typenbildung (Was sind typische Kombinationen von Merkmalsausprägungen? Wie lassen sich so gefundene Gruppen ähnlicher Fälle näher beschreiben?).

Aufbaumodul I richtet sich an Fortgeschrittene und baut auf dem Stoff des Basismoduls Statistik auf. Als Einführung konzipiert, verzichtet der Kurs weitgehend auf eine formelgestützte mathematische Herleitung der Verfahren zugunsten einer praxisnahen Vorstellung der Verfahren im Statistikprogramm Stata. Auf diese Weise legt der Kurs Grundlagen für die praktische Anwendung konfirmatorischer und explorativer Faktorenanalysen sowie von Clusteranalysen (einschließlich Verfahren zu Gruppenvergleichen).

An Beispielen aus dem Thüringen-Monitor 2015 und anderen sozialwissenschaftlichen Datensätzen wird den Kursteilnehmern der sichere Umgang mit den verschiedenen genannten Verfahren der Dimensionsreduktion vermittelt.

Learning objectives

Am Ende des Moduls sollen die Teilnehmer in der Lage sein, je nach Eigenschaften des Datenmaterials und Ausrichtung der Forschungsfrage geeignete strukturprüfende und -findende Verfahren auszuwählen, mit Stata durchzuführen und die Ergebnisse zu interpretieren. Der Kurs legt die Grundlagen für eine vertiefende Beschäftigung mit den vorgestellten Verfahren im Frühjahrseminar oder einem GESIS Workshop.

Lecturers

Stefan Jahr war nach dem Soziologiestudium an der Universität Leipzig wissenschaftlicher Mitarbeiter am Sonderforschungsbereich 580 „Gesellschaftliche Entwicklungen nach dem Systemumbruch“ sowie am Methodenlehrstuhl des soziologischen Instituts der Universität Jena tätig. Seit 2012 ist er Senior Information Analyst am National Drug Evidence Centre der Universität Manchester.

Katja Salomo ist seit 2012 wissenschaftliche Mitarbeiterin am Institut für Soziologie der Friedrich-Schiller-Universität Jena. Sie erforscht Determinanten der politischen Kultur, insbesondere anti-demokratischer und anti-sozialer Einstellungen sowie politischer Gewalt, auf Mikro-, Meso- und Makroebene. Über die Mitarbeit in zahlreichen Forschungsprojekten hat sie sich theoretische und anwendungsbezogene Kenntnisse mit verschiedensten Auswertungsperspektiven angeeignet. Dies schließt (Mehrebenen-) Pfad- und Strukturgleichungsmodellierung, ANCOVAs, Ereignisdatenanalysen, dimensionsreduzierende Verfahren wie Faktoren-, Cluster-, Korrespondenzanalyse und Raschmodelle als auch quantifizierende Verfahren der Inhaltsanalyse ein. Durch zahlreich absolvierte Methoden- und Lehrforschungsseminare im Bachelorstudium (13 Veranstaltungen) konnte sie fundierte didaktische Kenntnisse zur Vermittlung quantitativer Methoden erwerben.

Course description

Das Aufbaumodul II führt grundlegend in die multiple lineare Regressionsanalyse ein und behandelt darauf aufbauend fortgeschrittene Aspekte der multiplen linearen Regressionsanalyse und der logistischen Regressionsanalyse mit binär-abhängigen Variablen. Ein großer Bestandteil des Kurses ist die praktische Anwendung durch Übungen mit dem Statistikprogramm Stata, inklusive einer kurzen Einführung in Stata zu Beginn des Moduls. Der Ablauf des Aufbaumoduls ist insgesamt durch eine enge Verzahnung von Theorie und praktischen Anwendungen charakterisiert. Vormittags werden im Rahmen einer Vorlesung die theoretischen Grundlagen vermittelt und mit den Teilnehmern diskutiert. Nachmittags findet die praktische Umsetzung der zuvor theoretisch behandelten Themen im Rahmen von Übungen am PC statt. Die praktischen Übungen erfolgen auf Basis aktueller sozialwissenschaftlicher Fragestellungen und Datensätzen.

Learning objectives

Im Anschluss an die Veranstaltung können die Teilnehmer grundlegende Konzepte und Annahmen der Regressionsanalyse erläutern, entsprechend der jeweiligen Forschungsfrage geeignete Regressionsmodelle auswählen und spezifizieren, multiple lineare Regressionsanalysen und logistische Regressionsanalysen mit binär-abhängigen Variablen selbstständig mit Stata durchführen und die Ergebnisse der Regressionsanalyse (Regressionsoutput von Stata) verstehen und interpretieren.

Lecturers

Prof. Dr. Michael Gebel studierte VWL und Sozialwissenschaften an der Universität Mannheim und der UCL Louvain-la-Neuve und erwarb seinen Doktorgrad in Soziologie an der Universität Mannheim. Er ist Professor für Methoden der empirischen Sozialforschung an der Universität Bamberg. Seine Forschungsschwerpunkte sind die Lebensverlaufsforschung (insb. Transition to Adulthood), Längsschnittdatenanalyse, Mehrebenenanalyse mit international vergleichenden Mikrodaten und Verfahren der modernen Kausalanalyse. Prof. Dr. Michael Gebel hat einen ERC Starting Grant für das Projekt “The socio-economic consequences of temporary employment: A comparative panel data analysis (SECCOPA)” für den Zeitraum 2018-2023 erhalten.

Jonas Voßemer studierte Soziologie und Volkswirtschaftslehre an der Universität Mannheim (B.A. 2011) und Soziologie an der Universität Mannheim und Indiana University, IN, USA (M.A. 2014). Zurzeit arbeitet er am Lehrstuhl für Soziologie, insb. Methoden der empirischen Sozialforschung an der Universität Bamberg sowie als wissenschaftlicher Mitarbeiter im EU-Horizon-2020 EXCEPT Projekt "Social Exclusion of Youth in Europe: Cumulative Disadvantage, Coping Strategies, Effective Policies and Transfer". In seiner Forschung befasst er sich mit den kurz- und langfristigen Folgen von Arbeitsplatzverlusten und Arbeitslosigkeit für die weitere Karriere und die individuelle Lebenszufriedenheit und Gesundheit.