39th GESIS Methods Seminar (2019)

08 - 26 July 2019, Cologne

The GESIS Methodenseminar is aimed at graduate students in the social sciences and humanities as well as related fields. Participants can choose from six courses, three in German, three in English. All courses are research-based and teach practically relevant skills. The Basismodul, Aufbaumodul I, and Aufbaumodul II are held in German and teach essential knowledge and skills on how to analyze quantitative, scientific data. The Big Data Modules I, II and III are held in English and convey knowledge and skills from data science – for example, how to handle and analyze large amounts of data from the internet to cope with the relational dimension of digital behavioral data and to perform network analyses with these.

All courses are five day courses. In all courses, teaching is accompanied by practical hands-on sessions in which participants apply the acquired knowledge and skills to empirical real world questions.

Course Description

Data Science is the interdisciplinary science of the extraction of interpretable and useful knowledge from potentially large datasets. Due to the rapid surge of digital trace data (often as “Big Data”) in a wide range of application areas, Data Science is also increasingly utilized in the social sciences and humanities. In contrast to empirical social science, Data Science methods often serve purposes of exploration and inductive inference. In this course, we aim to provide an introduction into Data Science for practitioners. In particular, we want to impart basic understanding of the main methods and algorithms and understand how these can be deployed in practical application scenarios, focusing on the analysis of digital behavioral data found on the Web. For that purpose, our schedule alternates between lecture sessions that present the theoretical and technical background of data analysis and practical sessions that allow participants to directly apply acquired knowledge with code in the Python programming language. We cover aspects of data collection, preprocessing, exploration, visualization, and machine learning, using basic Python and key packages like pandas, numpy and scikit-learn. Data used will cover a large array of sources, from "native Web" data such as Social Media data to more "traditional" survey data.

Learning Objectives

Participants will obtain profound knowledge about typical data types and structures encountered when dealing with digital behavioral data, state-of-the art data analysis methods and tools in Python, and they will learn how this approach differs from those typically encountered in survey-based or experimental research. This will enable them to identify benefits and pitfalls of these data types and methods in their field of interest and will thus allow them to select and appropriately apply data analysis and machine-learning methods for large datasets in their own research. The knowledge obtained in this course provides a starting point for participants to investigate specialized methods for their individual research projects.

Lecturers

Dr. Arnim Bleier is a postdoctoral researcher in the Department Computational Social Science at GESIS. His research interests are in the field of Natural Language Processing and Computational Social Science. In collaboration with social scientists, he develops Bayesian models for the content, structure and dynamics of social phenomena.

Dr. Fabian Flöck studied communication sciences and sociology, and subsequently acquired a PhD in computer science. Specifically, he developed algorithmic methods to extract rich behavioral traces from Wikipedia editing data and studied them with data science methods. He is a post-doctoral researcher at the Computational Social Science department at GESIS and interested in collaborative content production, crowdsourcing and data visualization.

Dr. Juhi Kulshrestha is a post doctoral researcher in the Department of Computational Social Science at GESIS. Prior to joining GESIS, she studied, physics, informatics and computer science and acquired a Ph.D. in computer science. Her research focuses on studying how users are consuming news and information on online social media and in evaluating the role played by automated retrieval algorithms, like search and recommendation systems, in shaping the users' news & information consumption. 

Course Description

In the wake of the digital revolution, masses of Digital Behavioral Data (DBD) are becoming available for social research. Typically, this data has a relational dimension. As a consequence, network analysis is becoming increasingly important as a social science method. The social networks constructed from DBD, however, are much larger than the small-scale structures classically studied in the past. They give rise to higher-order structures and functionalities (complexity) that spring from lower-order processes. Plus, DBD typically allows for the analysis of the dynamics of these so-called complex networks. In this course, we present a basic understanding of social relations, the structures and dynamics which they collectively self-organize into, and how network methods and programming in Python can be deployed in practical application scenarios. Following an introduction to data formats, network construction, and plotting, the first day covers node-level measures such as centrality. The second day deals with community detection and stochastic blockmodeling, the main classes of methods at the meso-scale of analysis. The third day focuses on macro-scale structures and dynamics. It covers the small-world and scale-free properties that make networks complex and why these are relevant for the social sciences. The fourth day is dedicated to simulations of social mechanisms (network generation) and dynamics on networks. The last day is reserved for group projects. The program plan alternates between demonstrations and exercises. The former presents the theoretical and technical background of network analysis, while the latter allows participants to apply acquired knowledge with code directly.

Learning Objectives

Participants will obtain profound knowledge of relational methods integrated with social theory. The course includes material typically taught in Social Network Analysis classes but goes beyond it regarding the topic of complexity. Hence, it is aimed at scholars who are interested in the potential of BDB and how networks can be analyzed in an interdisciplinary way. Throughout the course, the Python libraries are used that are most suited for the respective analysis task. For example, community detection will be done with networkx while graph-tool is the library of choice for stochastic blockmodeling. To ease access to network analysis, well-known, also small, datasets are used. Participants are strongly encouraged to bring their own datasets to be analyzed in group projects or during the course.

Lecturers

Dr. Fariba Karimi is a postdoctoral researcher at the Computational Social Science department at GESIS. She received her PhD in Physics and Computational Science from Umea University. Her research interests lie in network analysis, complex systems, and data science.

Dr. Haiko Lietz is a sociologist with an engineering background. His dissertation at the University of Duisburg Essen is about network theory and analysis of scientific practice (2016). He is a post-doc researcher at the Computational Social Science department at GESIS, focussing on complex systems approaches, analytical and relational sociology.

Dr. Marcos Oliveira is a postdoctoral researcher at the Computational Social Science department at GESIS. He received his PhD in Computer Science from the Florida Institute of Technology. His research interests lie in complex systems, city science, human dynamics, and self-organizing mechanisms.

Course Description

In the digital age, large collections of text are an increasingly attractive data source for analysis in the social sciences. Corpora from thousands up to several millions of retro-digitized or natively digital documents cannot be investigated with conventional, manual methods alone. (Semi-)automatic computational analysis algorithms, also known as text mining, provide interesting opportunities for social scientists to extend their toolbox. To realize complex designs in empirical social research, scientists need basic knowledge of computational algorithms to be able to select those appropriate for their needs. Specific projects may further require certain adaptations to standard procedures, language resources or analysis workflows. Instead of relying on off-the-shelf analysis software, using script programming languages is a very powerful way to fulfill such requirements. The course teaches an overview of text mining in connection with data acquisition, preprocessing and methodological integration using the statistical programming language R (www.r-project.org). In sessions alternating between lectures and tutorials, we teach theoretical and methodological foundations, introduce exemplary studies and get hands on programming to realize different analyses.

Learning Objectives

Participants will learn about opportunities and limits of text mining methods to analyze qualitative and quantitative aspects of large text collections. With example scripts provided in the programming language R, participants will learn how to realize single steps of such an analysis on a specific corpus. We cover a range of text mining methods from simple lexicometric measures such as word frequencies, key term extraction and co-occurrence analysis, to more complex machine learning approaches such as topic models and supervised text classification. The goal is to provide a broad overview of several technologies already established in social sciences. Participants will be enabled to identify their own priorities and to lay foundations for further independent studying tailored to their individual needs.

Lecturers

Dr. Gregor Wiedemann works in the Language Technology processing (NLP) group at Hamburg University. He studied political science and computer science in Leipzig and Miami. In 2016, he received his doctoral degree in computer science for his dissertation “Text Mining for Qualitative Data Analysis in the Social Sciences”. Wiedemann has worked in several projects in the fields of digital humanities and computational social science where he developed methods and workflows to analyze large text collections.

Dr. Andreas Niekler is a researcher at Leipzig University. He studied media technology at HTWK Leipzig and the University of West Scotland. After two years working as a freelance programmer and teacher at the Leipzig School of Media, he joined the NLP group at Leipzig University. In his dissertation project he worked with automated methods for content and topic analyses in news-oriented text sources.

Course Description

Konfirmatorische Faktorenanalysen, explorative Faktorenanalysen (Hauptkomponenten-/Hauptachsenanalysen) und Clusteranalysen (hierarchisch, partitionierend) sind die am weitesten verbreiteten Verfahren zur Komplexitätsreduktion und kommen insbesondere im Rahmen der Skalenkonstruktion bzw. Typenbildung zum Einsatz. Wenngleich sich Faktoren- und Clusteranalysen sinnvoll ergänzen lassen, werden sie häufig auch gewinnbringend unabhängig voneinander angewandt. Ausgehend von „einfacher“ Indexbildung über additive Skalen (z.B. Mittelwertskala) oder Mehrfeldertafeln zur Typenbildung werden im Seminar zunächst die Grenzen dieser einfachen Vorgehensweisen aufgezeigt. Darüber werden die Einsatzfelder von Faktoren- und Clusteranalysen vorgestellt, und in den Kontext weiterer komplexitätsreduzierender Verfahren eingeordnet. Nebenbei wird so auch in grundlegende Begriffe der Operationalisierung und Indexbildung eingeführt, sowie für die Umsetzung in Stata relevantes Randwissen wiederholt (Datengewichtung, Umgang mit fehlenden Werten, etc.). Im Anschluss widmet sich das Seminar den einzelnen Verfahren und deren Umsetzung in Stata. Schwerpunkt konfirmatorischer Faktorenanalysen ist das Testen von theoretisch begründeten Annahmen hinsichtlich der Existenz und dimensionalen Struktur latenter Konstrukte, auf die sich eine Anzahl konkret gemessener Indikatoren zurückführen (reduzieren) lassen. Die größte Herausforderung stellt hier meist die richtige Übersetzung dieser theoretischen Annahmen in geeignet modellierte Faktorenmodelle dar, was entsprechend ausführlich und stets anwendungsorientiert im Seminar besprochen wird. Verfahren der explorativen Faktorenanalyse setzen weniger konkrete Annahmen voraus, was die Wahl des statistischen Modells unter Umständen erleichtert, jedoch die Interpretation erschwert und folglich im Seminar geübt wird. Aus der Familie der Clusteranalysen liegt der Schwerpunkt auf hierarchischen Verfahren, während partitionierende Verfahren (k-Means Algorithmus) als Ergänzung zu hierarchischen Verfahren (oder als einzige Alternative zu diesen bei sehr großen Datenmengen) vorgestellt werden. Zur Verbesserung der Interpretationsmöglichkeiten der Ergebnisse von Clusteranalysen werden zudem grundlegende Verfahren zum Vergleich von Gruppen vorgestellt. An Beispielen aus dem Thüringen-Monitor 2015 und anderen sozialwissenschaftlichen Datensätzen wird den Teilnehmenden ein sicherer Umgang mit den genannten Verfahren vermittelt.

Learning Objectives

Das Seminar vermittelt folgende Kompetenzen: (1) Einschätzung (ob und) welche der vorgestellten Verfahren zur Komplexitätsreduktion im konkreten Fall gewinnbringend angewandt werden können. (2) Beurteilung, welche Konsequenzen die Eigenschaften von Forschungsfrage und Datenmaterial für die Modellspezifikation haben. (3) Umsetzung dieserart spezifizierten Analysen in Stata. (4) Interpretation der Ergebnisse mit Blick auf die Forschungsfrage. (5) Ableitung des weiteren Vorgehens bis zur zufriedenstellenden Beantwortung der Forschungsfrage im Rahmen der Möglichkeiten. Das Seminar legt die Grundlagen für eine vertiefende Beschäftigung mit den vorgestellten Verfahren im Frühjahrseminar oder einem GESIS Workshop.

Lecturers

Katja Salomo ist seit 2012 wissenschaftliche Mitarbeiterin am Institut für Soziologie der Friedrich-Schiller-Universität Jena. Sie forscht zu anti-demokratischen und rechtsextremen Einstellungen, Partizipation und politischer Gewalt, insbesondere deren Determinanten auf Individual- und Kontextebene in Europa. Durch Mitarbeit in zahlreichen Projekten hat sie Erfahrung mit empirischer sozialwissenschaftlicher Forschung von der Datenerhebung bis zur Publikation gesammelt. Ihre Lehrerfahrung im Bereich der Methodenausbildung umfasst mehr als 20 Seminare für Anfänger und Fortgeschrittene.

Janka Goldan ist seit 2015 wissenschaftliche Mitarbeiterin am Wuppertaler Institut für bildungsökonomische Forschung (WIB) und an der School of Education der Bergischen Universität Wuppertal. Ihr thematischer Forschungsschwerpunkt ist die schulische Inklusion, welche sie sowohl auf der Makro- als auch auf der Mikroebene untersucht, sodass sie über Erfahrung quantitativer empirischer Methoden für unterschiedliche Anwendungsgebiete verfügt. Sie hat in zahlreichen Projekten mitgewirkt und Erfahrung im gesamten Forschungszyklus sammeln können. Ihre Lehrtätigkeit konzentrierte sich bislang auf Diagnostik und diagnostische Methoden für Lehramtsstudierende.

Course Description

Das Aufbaumodul II führt grundlegend in die multiple lineare Regressionsanalyse ein und behandelt darauf aufbauend fortgeschrittene Aspekte der multiplen linearen Regressionsanalyse und der logistischen Regressionsanalyse mit binär-abhängigen Variablen. Ein großer Bestandteil des Kurses ist die praktische Anwendung durch Übungen mit dem Statistikprogramm Stata, inklusive einer kurzen Einführung in Stata zu Beginn des Moduls. Der Ablauf des Aufbaumoduls ist insgesamt durch eine enge Verzahnung von Theorie und praktischen Anwendungen charakterisiert. Vormittags werden im Rahmen einer Vorlesung die theoretischen Grundlagen vermittelt und mit den Teilnehmern diskutiert. Nachmittags findet die praktische Umsetzung der zuvor theoretisch behandelten Themen im Rahmen von Übungen am PC statt. Die praktischen Übungen erfolgen auf Basis aktueller sozialwissenschaftlicher Fragestellungen und Datensätzen.

Learning Objectives

Im Anschluss an die Veranstaltung können die TeilnehmerInnen grundlegende Konzepte und Annahmen der Regressionsanalyse erläutern, entsprechend der jeweiligen Forschungsfrage geeignete Regressionsmodelle auswählen und spezifizieren, multiple lineare Regressionsanalysen und logistische Regressionsanalysen mit binär-abhängigen Variablen selbstständig mit Stata durchführen und die Ergebnisse der Regressionsanalyse (Regressionsoutput von Stata) verstehen und interpretieren.

Lecturers

Prof. Dr. Michael Gebel studierte VWL und Sozialwissenschaften an der Universität Mannheim und der UCL Louvain-la-Neuve und erwarb seinen Doktorgrad in Soziologie an der Universität Mannheim. Er ist Inhaber des Lehrstuhls für Soziologie, insbesondere Methoden der empirischen Sozialforschung an der Universität Bamberg. Seine Forschungsschwerpunkte sind die Lebensverlaufsforschung (insb. Transition to Adulthood), Mehrebenenanalysen mit international vergleichenden Mikrodaten und Verfahren der modernen Kausalanalyse.

Jonas Voßemer studierte Soziologie und Volkswirtschaftslehre an der Universität Mannheim (B.A. 2011) und Soziologie an der Universität Mannheim und Indiana University, IN, USA (M.A. 2014). Zurzeit arbeitet er am Lehrstuhl für Soziologie, insb. Methoden der empirischen Sozialforschung an der Universität Bamberg als wissenschaftlicher Mitarbeiter. In seiner Forschung befasst er sich mit den kurz- und langfristigen Folgen von Arbeitsplatzverlusten und Arbeitslosigkeit für die weitere Karriere und die individuelle Lebenszufriedenheit und Gesundheit.