37. GESIS Methodenseminar (2017)

14.09. - 02.10.2020, Online-Seminar

Das GESIS-Methodenseminar (früher: ZHSF-Herbstseminar) vermittelt – forschungsbasiert und praxisnah – Grundlagenwissen und -fertigkeiten im Umgang mit quantitativen Forschungsdaten. Die deutsch- und englischsprachigen Kurse sind modular strukturiert und interdisziplinär ausgerichtet.

Die deutschsprachigen Basis- und Aufbaumodule vermitteln die Grundlagen der uni- und bivariaten Statistik sowie die Theorie und Anwendung grundlegender Verfahren der multivariaten Datenanalyse. Die englischsprachigen Big Data-Module vermitteln die Grundlagen von Verfahren aus dem Bereich der Data Science, wie sie bei der Analyse von Big Data zum Einsatz kommen.

Modulbeschreibung

Der Workshop bietet eine anwendungsorientierte Einführung in die Grundlagen der deskriptiven und schließenden Statistik. Im Teil zur deskriptiven Statistik beschäftigten wir uns mit der Beschreibung und Zusammenfassung von Daten mittels numerischer Kennwerte (z.B. Mittelwerte & Streuungsmaße) sowie tabellarischer und grafischer Methoden, alles mit dem Ziel, einen Überblick über die Daten zu erlangen und interessante Muster herauszuarbeiten. Vorgestellt werden sowohl Methoden für die Beschreibung einzelner Variablen (univariat) als auch für die Beschreibung des Zusammenhangs zweier  auch unterschiedlich skalierter - Variablen (bivariat; u.a. Chi-Quadrat, Pearsons r, einfache lineare Regression). Wenn die Zeit es erlaubt, ergänzen wir diesen Teil um einen Ausblick auf die multiple Regression und die Möglichkeit der Drittvariablenkontrolle. Im Teil zur schließenden oder Inferenzstatistik beschäftigen wir uns auf Grundlage der Wahrscheinlichkeitstheorie mit dem Testen der Verallgemeinerbarkeit der aus einer Stichprobe gewonnenen Ergebnisse für eine interessierende Grundgesamtheit. Dazu werden verschiedene Testverfahren vorgestellt, die diesen Schluss für verschiedene Datenarten ermöglichen. Quer zu den genannten Themen liegt ein Schwerpunkt auf der Visualisierung von Daten, die (nicht nur) in den Sozialwissenschaften aktuell eine Renaissance erlebt.

Lernziele

Dieses Seminar vermittelt einen Überblick über die gängigen Konzepte und Methoden der grundlegenden beschreibenden und schließenden Statistik. Es vermittelt darüber hinaus die Fähigkeit, quantitative Daten mittels dem Statistikprogramm Stata für die wissenschaftliche Analyse aufzubereiten und auszuwerten sowie existierende empirische Analysen anderer, die einem heute mehr denn je auf verschiedenen Kanälen präsentiert werden, kritisch zu bewerten und einzuordnen.

Referenten

Nach erfolgreicher Promotion an der Yale University im Jahr 2010 war Sebastian Schnettler zunächst Postdoc am MPI für demografische Forschung in Rostock und danach akademischer Rat auf Zeit am Arbeitsbereich „Methoden der empirischen Sozialforschung“ in Konstanz. Seit 2016 leitet er die gleichnamige Professur an der Universität Oldenburg. Seine Forschungsschwerpunkte liegen in der Demografie, Lebenslauf- und Netzwerkforschung. In Oldenburg unterrichtet er seit 2016 u.a. regelmäßig die Vorlesungen Statistik I und II. Gefördert durch das MWK Niedersachsen haben wir dabei bereits vor der Corona-Krise mit Online-Elementen gearbeitet, ein Versuch, der im letzten Jahr in Lehrevaluationen und durch einen Lehrpreis gewürdigt wurde.

Andreas Filser studierte Soziologie und Wirtschaftswissenschaften an der Universität Konstanz sowie anschließend Sozialökonomik an der Friedrich-Alexander-Universität Erlangen-Nürnberg. Seit März 2016 ist er als wissenschaftlicher Mitarbeiter in der AG für Methoden der empirischen Sozialforschung der Universität Oldenburg beschäftigt und arbeitet dort an seiner Promotion. Seine Forschungsinteressen umfassen demographische und familiensoziologische Fragestellungen. Seit 2016 betreut er die Begleitseminare zur grundlegenden Statistikausbildung und bietet darüber hinaus regelmäßig eine Statistik- und Methodenberatung für Bachelor- und Masterstudierende an.

Modulbeschreibung

Data Science is the interdisciplinary science of the extraction of interpretable and useful knowledge from potentially large datasets. In contrast to empirical social science, data science methods often serve purposes of exploration and inductive inference. In this course, we aim to provide a gentle introduction to the Python programming language with a specific emphasis on learning how to work with Python's data science stack. Participants will be provided an introduction to the Python data science stack and Jupyter notebooks, basic concepts of Python, and data exploration and preprocessing with Pandas.

Referent*innen

Arnim Bleier is a postdoctoral researcher in the Department Computational Social Science at GESIS. His research interests are in the field of Natural Language Processing and Computational Social Science. In collaboration with social scientists, he develops Bayesian models for the content, structure and dynamics of social phenomena.

Juhi Kulshrestha is a post doctoral researcher in the Department of Computational Social Science at GESIS. Prior to joining GESIS, she studied, physics, informatics and computer science and acquired a Ph.D. in computer science. Her research focuses on studying how users are consuming news and information on online social media and in evaluating the role played by automated retrieval algorithms, like search and recommendation systems, in shaping the users' news & information consumption.

Indira Sen is a doctoral candidate at the Computational Social Science Department at GESIS. Her interest lies in understanding biases in inferential studies from digital traces, with a focus on natural language processing.

Modulbeschreibung

Data Science is the interdisciplinary science of the extraction of interpretable and useful knowledge from potentially large datasets. Due to the rapid surge of digital trace data in a wide range of application areas, data science is also increasingly utilized in the social sciences and humanities. In contrast to empirical social science, data science methods often serve purposes of exploration and inductive inference. In this course, we aim to provide an introduction into data science for practitioners with Python. In particular, we want to impart basic understanding of the main methods and algorithms and understand how these can be deployed in practical application scenarios, focusing on the analysis of digital behavioral data (or "digital traces of humans") found on the Web. For that purpose, our schedule alternates between lecture sessions that present the theoretical and technical background of data analysis and practical sessions that allow participants to directly apply acquired knowledge with code in the Python programming language. We cover foundational aspects of data collection, visualization, and machine learning, using basic Python and key packages like pandas, numpy and scikit-learn. Data used will cover a broad array of sources, from "native Web" data such as Social Media data to more "traditional" survey data.

Referent*innen

Arnim Bleier is a postdoctoral researcher in the Department Computational Social Science at GESIS. His research interests are in the field of Natural Language Processing and Computational Social Science. In collaboration with social scientists, he develops Bayesian models for the content, structure and dynamics of social phenomena.

Fabian Flöck is a Senior Researcher and Head of the Data Science Team (acting) at the Computational Social Science Department at GESIS. He is currently mainly concerned with transparency and fairness of NLP and machine learning pipelines in social science contexts, but also researches interactive data analysis services, collaborative content creation and digital communication processes. He studied communication sciences and sociology, and subsequently acquired a PhD in computer science.

Juhi Kulshrestha is a post doctoral researcher in the Department of Computational Social Science at GESIS. Prior to joining GESIS, she studied, physics, informatics and computer science and acquired a Ph.D. in computer science. Her research focuses on studying how users are consuming news and information on online social media and in evaluating the role played by automated retrieval algorithms, like search and recommendation systems, in shaping the users' news & information consumption.

Modulbeschreibung

Das Modul führt grundlegend in die multiple lineare Regressionsanalyse ein und behandelt darauf aufbauend fortgeschrittene Aspekte der multiplen linearen Regressionsanalyse und der logistischen Regressionsanalyse mit binär-abhängigen Variablen. In gemeinsamen Übungsaufgaben wird die praktische Umsetzung mit dem Statistikprogramm Stata illustriert, wobei der Fokus auf der Durchführung und der Einübung der Interpretation von Regressionsanalysen liegt. Der Ablauf des Moduls ist insgesamt durch eine enge Verzahnung von Theorie und gemeinsamen Übungsaufgaben charakterisiert. Im Rahmen von Vorlesungen werden die theoretischen Grundlagen vermittelt und mit den Teilnehmern diskutiert. Darauf aufbauend wird die praktische Umsetzung der zuvor theoretisch behandelten Themen mit dem Statistikprogramm Stata illustriert. Die gemeinsamen Übungen erfolgen auf Basis aktueller sozialwissenschaftlicher Fragestellungen und Datensätzen.

Lernziele

Im Anschluss an die Veranstaltung können die TeilnehmerInnen grundlegende Konzepte und Annahmen der Regressionsanalyse erläutern, entsprechend der jeweiligen Forschungsfrage geeignete Regressionsmodelle auswählen und spezifizieren, multiple lineare Regressionsanalysen und logistische Regressionsanalysen mit binär-abhängigen Variablen selbstständig mit Stata durchführen und die Ergebnisse der Regressionsanalyse (Regressionsoutput von Stata) verstehen und interpretieren.

Referent*innen

Michael Gebel studierte VWL und Sozialwissenschaften an der Universität Mannheim und der UCL Louvain-la-Neuve und erwarb seinen Doktorgrad in Soziologie an der Universität Mannheim. Er ist Inhaber des Lehrstuhls für Soziologie, insbesondere Methoden der empirischen Sozialforschung an der Universität Bamberg. Seine Forschungsschwerpunkte sind die Lebensverlaufsforschung (insb. Transition to Adulthood), Mehrebenenanalysen mit international vergleichenden Mikrodaten und Verfahren der modernen Kausalanalyse.

Jonas Voßemer studierte Soziologie und Volkswirtschaftslehre an der Universität Mannheim und Indiana University, IN, USA. Zurzeit arbeitet er als Postdoc an der Umeå Universität in Schweden in dem ERC Projekt HEALFAM „The effects of unemployment on health of family members“ und ist wissenschaftlicher Mitarbeiter am Lehrstuhl für Soziologie, insb. Methoden der empirischen Sozialforschung an der Universität Bamberg. In seiner Forschung befasst er sich mit den ökonomischen und sozialen Folgen von Arbeitsplatzverlusten und Arbeitslosigkeit für Individuen und ihre Familien.

Course description

In the wake of the digital revolution, masses of digital behavioral data are becoming available for social research. This data resembles transactions or events that typically consist of both social relations and their communicative content. As such, it can facilitate understanding not only how networks emerge from actions, but also how actors are formed by networks. In this course, we convey basic network analysis skills and how relational methods and coding in Python can be deployed in practical application scenarios. Following an introduction to relational data structures, the first day covers how to construct networks from data. The second day deals with network visualization and how to characterize the centrality of nodes in networks. The third day is dedicated to brokerage and closure, two main concepts to describe the positions of nodes in networks. The fourth day aims at identifying groups (community detection) and introduces a statistical procedure for relational hypothesis testing. The last day is reserved for individual or group projects. Throughout the course, NetworkX will be used as the Python package for network analysis because it provides a wide range of tools. Thematic blocks start with an introductory lecture in which network analytical tools and their social network theoretic contexts are presented. Then the instructors demonstrate how to apply them, using classic, bibliometric, and Twitter networks. Finally, in exercises, the participants apply acquired knowledge in their own code. Participants are encouraged to prepare their own network datasets and research questions to work on in the exercises and projects. The course is adapted to an online teaching environment, that means, instructors and participants will have time to individually exchange in breakout rooms.

Learning Objectives

Participants can expect to learn how to load network data, how to visualize networks, and how social network theoretic concepts can be operationalized to analyze social networks using Python's NetworkX package. On one day, participants will learn how to test hypotheses using network data.

Lecturers

Lisette Espin-Noboa is a PhD. candidate in computer science at the University of Koblenz, and a research assistant at the Computational Social Science department at GESIS. Her research interest is data science with a focus on the study of relational data including network inference, machine learning, and human behavior.

Haiko Lietz is a sociologist with an engineering background. His dissertation at the University of Duisburg Essen is about network theory and analysis of scientific practice (2016). He is a post-doc researcher at the Computational Social Science department at GESIS, focussing on complex systems approaches, analytical and relational sociology.

Olga Zagovora is a doctoral candidate at the Computational Social Science department at GESIS. Prior to joining GESIS, she studied computer science, web and data science. Her research focuses on the evaluation of alternative metrics for measuring scholarly communication and scientific impact. She has experience working with big data for social science research.

Modulbeschreibung

Der Kurs ist als anwendungsorientierte Einführung in die Analyse von Panel- und Mehrebenendaten in Stata konzipiert. Modelle zur Analyse von Panel- und Mehrebenendaten gehören heute zu den wichtigsten Auswertungsmethoden der Sozialwissenschaften. Neben den theoretischen (statistischen) Grundlagen werden im Kurs Gemeinsamkeiten und Unterschiede zwischen Modellen zur Analyse von Panel- und Mehrebenendaten, der praktische Umgang mit den jeweiligen Daten, die Spezifikation und Interpretation von Panel- und Mehrebenenmodellen (insbesondere Random und Fixed Effects Modelle) sowie, wenn es die Zeit erlaubt, die (graphische) Darstellung von Ergebnissen behandelt.

Lernziele

Die Teilnehmenden können mit Panel- und Mehrebenendaten in Stata umgehen, sie können grundlegende Analysemodelle (Random- und Fixed Effects Modelle) spezifizieren, kennen deren Annahmen und können die Ergebnisse darstellen und interpretieren.

Referent*innen

Reinhard Schunck ist Professor für Soziologie an der Bergischen Universität Wuppertal. Neben inhaltlichen Schwerpunkten in den Bereichen der Familien-, Migrations- und Ungleichheitssoziologie, gehören zu seinen Forschungs- und Lehrschwerpunkten quantitative Methoden, insbesondere Analysemethoden für Panel- und Mehrebenendaten. Er mag Stata.

Janna Teltemann ist Professorin für Bildungssoziologie an der Universität Hildesheim. Sie arbeitet seit mehr als 10 Jahren mit den Daten der OECD PISA-Studie und interessiert sich vor allem für Effekte von (Bildungssystem-) Institutionen auf Bildungsungleichheiten  und damit für eine klassische Anwendung von Mehrebenenanalysen. Darüber hinaus arbeitet sie gemeinsam mit Reinhard Schunck zu Möglichkeiten längsschnittlicher Analysen mit internationalen Schulleistungsstudien.

 

Course Description

In the digital age, large collections of text are an increasingly attractive data source for analysis in the social sciences. Corpora from thousands up to several millions of retro-digitized or natively digital documents cannot be investigated with conventional, manual methods alone. Semi-automatic computational analysis algorithms, also known as text mining, provide interesting opportunities for social scientists to extend their toolbox.

To realize complex designs in empirical social research, scientists need basic knowledge of computational algorithms to be able to select those appropriate for their needs. Specific projects may further require certain adaptations to standard procedures, language resources or analysis workflows. Instead of relying on off-the-shelf analysis software, using script programming languages is a very powerful way to fulfill such requirements. The course teaches an overview of text mining in connection with data acquisition, preprocessing and methodological integration using the statistical programming language R.

In sessions alternating between lectures and tutorials, we teach theoretical and methodological foundations, introduce exemplary studies and get hands on programming to realize different analyses.

Learning Objective

Participants will learn about opportunities and limits of text mining methods to analyze qualitative and quantitative aspects of large text collections. With example scripts provided in the programming language R, participants will learn how to realize single steps of such an analysis on a specific corpus. We cover a range of text mining methods from simple lexicometric measures such as word frequencies, key term extraction and co-occurrence analysis, to more complex machine learning approaches such as topic models and supervised text classification. The goal is to provide a broad overview of several technologies already established in social sciences. Participants will be enabled to identify their own priorities and to lay foundations for further independent studying tailored to their individual needs. The last workshop day is reserved to discuss participant's project ideas and study designs.

Lecturers

Andreas Niekler is a researcher at Leipzig University. He studied media technology at HTWK Leipzig and the University of West Scotland. After two years working as a freelance programmer and teacher at the Leipzig School of Media, he joined the NLP group at Leipzig University. In his dissertation project he worked with automated methods for content and topic analyses in news-oriented text sources.

Gregor Wiedemann works in the language technology (LT) group at Hamburg University. He studied political science and computer science in Leipzig and Miami. In 2016, he received his doctoral degree in computer science for his dissertation “Text Mining for Qualitative Data Analysis in the Social Sciences” from Leipzig University. Wiedemann has worked in several projects in the fields of digital humanities and computational social science in which he developed methods and workflows to analyze large text collections.