German Microdata Lab

Anonymisierung und Datenschutz

Während der Zugang zu amtlichen Mikrodaten bis Ende der 70er Jahre relativ liberal gehandhabt wurde, was sich in einer intensiven Nutzung dieser Daten durch verschiedene Forschungsprojekte (z.B. Sonderforschungsbereich 3, Projekt „Vergleichende Analyse der Sozialstruktur mit Massendaten - VASMA") und ertragreichen Forschungsergebnissen niederschlug, wurden vor dem Hintergrund der Anfang der 80er Jahre einsetzenden Datenschutzdiskussion äußerst restriktive Zugangsregelungen eingeführt. Erst als das Bundesverfassungsgericht in dem sogenannten Volkszählungsurteil den Nutzungsbedarf von amtlichen Mikrodaten von Seiten der Forschung explizit anerkannte, wurden die noch im Bundesstatistikgesetz von 1980 festgelegten restriktiven Datenzugangsregeln relativiert. In das Bundesstatistikgesetz von 1987 wurde eine sogenannte Wissenschaftsklausel aufgenommen, nach welcher amtliche Mikrodaten an die Forschung weitergegeben werden dürfen, wenn die Reidentifikation der Befragten nur mit einem unverhältnismäßig hohen Aufwand möglich ist (Konzept der faktischen Anonymität). Eine unmittelbare Umsetzung dieser gesetzlichen Regelung in die Praxis war jedoch nicht möglich, weil zum damaligen Zeitpunkt keine Kenntnisse zu den zentralen Aspekten der faktischen Anonymität vorlagen. Vor diesem Hintergrund hat die Abteilung Mikrodaten ein gemeinsames Forschungsprojekt mit dem Statistischen Bundesamt und dem Lehrstuhl für angewandte empirische Sozialforschung (Universität Mannheim; Projektleitung: Prof. Dr. Walter Müller) durchgeführt. Eines der wesentlichsten Ergebnisse dieses Projektes war die Erkenntnis, dass die Reidentifikation von Einzeldatensätzen bei Verwendung von realen Daten bei weitem nicht so einfach ist, wie häufig angenommen. Als quasi ‘natürlicher’ Schutzfaktor erwiesen sich hierbei vor allem Inkompatibilitäten von Informationen, die aus unterschiedlichen Datenquellen stammen. Vor diesem Hintergrund war es möglich, Weitergabeempfehlungen zu entwickeln, die einen größtmöglichen Schutz vor Reidentifikationsrisiken bieten bei einer weitgehenden Erhaltung des Analysepotentials dieser Daten. Die Ergebnisse des Anonymisierungsprojekts bedeuteten auf nationaler Ebene einen wichtigen Durchbruch für die Weitergabe anonymisierter Mikrodaten, auf internationaler Ebene brachten sie neue Impulse in die Anonymisierungsforschung.

Wirth, H., 2003: Angriffsszenarien auf wirtschaftsstatistische Einzeldaten - ein Überblick, S. 11-24. In: Forum der Bundesstatistik, Band 42. Stuttgart: Metzler-Poeschel.

Wirth, H., 1992: Die faktische Anonymität von Mikrodaten: Ergebnisse und Konsequenzen eines Forschungsprojektes. ZUMA-Nachrichten 30: 7-42.

Müller, W./Blien, U./Knoche, P./Wirth, H. u.a., 1991: Die faktische Anonymität von Mikrodaten, Bd. 19 der Schriftenreihe Forum der Bundesstatistik. Statistisches Bundesamt (Hrsg.). Stuttgart: Metzler-Poeschel.   

Lüttinger, P./Wirth, H., 2004: Zur Weitergabe von älteren amtlichen Mikrodaten an die Wissenschaft. Allgemeines Statistisches Archiv, Heft 88/4: 473-486.

Bedingt durch die ständig wachsenden Datensammlungen und den sich hieraus ergebenden Verknüpfungsmöglichkeiten von Informationen über Einzelpersonen bleibt der Datenschutz ein Dauerthema in den Sozialwissenschaften. Die Bereitschaft von Personen, an Bevölkerungsumfragen teilzunehmen und die Zuverlässigkeit der Antworten wird zukünftig vermutlich noch stärker als bisher von dem Vertrauen der Befragten in die Wahrung ihrer Anonymität beeinflusst. Von diesem Problem sind nicht nur alle auf Bevölkerungsbefragungen angewiesenen Forschungszweige, sondern auch die amtliche Statistik und die Nutzer der amtlichen Statistik betroffen. Datenschutz im weiteren und engeren Sinne war daher Gegenstand zweier Arbeiten, an welchen Mitarbeiter der Abteilung Mikrodaten beteiligt waren. Die erste Arbeit beschäftigte sich mit dem Spannungsverhältnis zwischen dem durch die wirtschaftliche und politische Integration von Europa zunehmenden Nutzungsbedarf amtlicher Mikrodaten auf europäischer Ebene einerseits und datenschutzrechtlichen, sowie administrativ begründeten Zugangsbeschränkungen andererseits. Vorschläge, wie dieses Spannungsverhältnis zumindest reduziert werden kann, wurden im Rahmen eines Vortrags beim ‘Second International Seminar on Statistical Confidentiality’ (EUROSTAT) in Luxemburg vorgestellt.

Müller, W.& Wirth, H. 1995: Research Needs for European Microdata and Data Confidentiality. International Seminar on Statistical Confidentiality. Proceedings. 28 to 30 November 1994 (pp. 235-240). Luxembourg. Eurostat 0E.

Die zweite Arbeit konzentrierte sich auf unmittelbare Reidentifikationsrisiken anonymisierter Daten aus der amtlichen Statistik. Hierbei wurden in einem Artikel für Sociological Methods and Research auf Basis der Ergebnisse aus dem Anonymisierungsprojekt unterschiedliche Reidentifikationsszenarien in Hinblick auf ihr Reidentifikationspotential dargestellt, wobei der Schwerpunkt der Arbeit auf der Analyse der von Dateninkompatibilitäten ausgehenden Schutzwirkung lag.

Müller, W., Blien, U. & Wirth, H., 1995: Identification Risks of Microdata. Evidence from experimental studies. Sociological Methods & Research, 24 (2): 131-157.

Amtliche Daten bieten zwar ein reichhaltiges Forschungspotential, das der Forschung jedoch aufgrund datenschutzrechtlicher Bedenken oftmals nicht zur Verfügung steht. Die Nutzung solcher amtlicher Datenbestände ist jedoch in mindestens zweifacher Hinsicht wünschenswert: Erstens stoßen unnötige Mehrfacherhebungen zu ein und demselben Gegenstand bei der Bevölkerung auf zunehmendes Unverständnis; zweitens werden auch amtliche Datenerhebungen von der Allgemeinheit finanziert und sollten daher der Forschung schon aus Kostengründen soweit wie möglich zugänglich sein. In diesem Kontext stand ein im Frühjahr 1994 begonnenes Projekt, dessen Ziel es war, die Beschäftigtenstatistik des IAB in Form einer faktisch anonymisierten 1-Prozent Stichprobe der Forschung als Scientific-Use-File allgemein zugänglich zu machen. Das Projekt wurde durch Mittel des Wissenschaftszentrum Berlin für Sozialforschung und von ZUMA, sowie durch Eigenmittel des IAB finanziert. Die Abteilung Mikrodaten hat als Mitglied des projektbegleitenden Beirats bei der Konzeption und Durchführung der Anonymisierungsarbeiten beraten und konkrete Schutzmaßnahmen vorgeschlagen, die das Analysepotential weitestgehend erhalten und Auswirkungen auf die Analysierbarkeit, die z.B. in Folge von datenverfälschenden Eingriffen erfolgen können, so gering als möglich halten. Gleichzeitig tragen die Anonymisierungsmaßnahmen aber auch dem Datenschutz Rechnung. In gleichem Sinn wurden Vorschläge zur Gestaltung des Nutzervertrages gemacht, um den Anforderungen der Forschungspraxis möglichst gerecht zu werden. Zur Robustheit von Ereignisanalysen bei längsschnittanonymisierten Daten hat die Abteilung in Kooperation mit der Statistikabteilung von ZUMA eine Expertise für das IAB erstellt. In bezug auf das komplexe Problem der Längsschnittanonymisierung wurden in direktem Kontakt mit dem Bundesbeauftragten für den Datenschutz und dem IAB konkrete Verfahren vorgeschlagen. Ein Aufsatz in den ZUMA-Nachrichten beschreibt die Daten und die Anonymisierungsmaßnahmen. Die unter anderem auf Basis dieser Vorschläge anonymisierte IAB-Beschäftigtenstichprobe ist über das Zentralarchiv (ZA) zugänglich, womit der empirischen Sozialforschung eine informations- und umfangreiche Datenbasis für Arbeitsmarktanalysen zur Verfügung steht.

Bender, S., Hilzendegen, J. & Schimpl-Neimanns, B., 1995: Die IAB-Beschäftigtenstichprobe: Eine neue Datei für die Arbeitsmarktforschung. ZUMA-Nachrichten 36: 122-129.

Das Statistische Informationssystem des Bundes (STATIS-BUND) bietet rund 900.000 Zeitreihen aus vielen Bereichen der amtlichen Statistik sowie ein komplexes Auswertungs- und Analysesystem. STATIS-BUND steht auch Nutzern außerhalb der amtlichen Statistik zur Verfügung. Unter bestimmten Voraussetzungen kann ein externer Nutzer per Online-Anschluss schnell und flexibel Tabellen aus Einzeldaten der amtlichen Statistik (z.B. aus dem Mikrozensus) erhalten. Der externe Nutzer kann dann selbständig nach eigenen Wünschen Fallzahltabellen spezifizieren. Zur Wahrung der statistischen Geheimhaltung werden die Tabellen vor der Weitergabe in einem automatischen Verfahren anonymisiert, wobei die Zellenbesetzungen mit Zufallsfehlern überlagert werden. Mit den Auswirkungen dieses Anonymisierungsverfahrens auf Analyseergebnisse, die auf Mikrozensustabellen aus dem Statistischen Informationssystem des Bundes (STATIS-BUND) basieren, beschäftigte sich eine in Kooperation mit dem Statistischen Bundesamt durchgeführte Untersuchung. Ein Vergleich von Analyseergebnissen bei anonymisierten Mikrozensus-Tabellen mit den Ergebnissen bei den entsprechenden nicht-anonymisierten Tabellen zeigte bei Regressionskoeffizienten, die mit schwach besetzten Zellen in Verbindung stehen, stärkere Verzerrungen. Neben dem praxisorientierten Vergleich wurden Näherungsformeln entwickelt, die Hinweise auf die Art und Größenordnung der Verzerrung von Schätzwerten liefern. Darüber hinaus wurden Ansätze vorgestellt, wie man "Fehler in den Fallzahlen" bei Logit-Analysen angemessen berücksichtigen kann.

Heer, G. & Schimpl-Neimanns, B., 1994: Vergleichende Logit-Analyse mit anonymisierten und nicht anonymisierten Mikrozensustabellen. Allgemeines Statistisches Archiv 78 (1): 54-73.

Heer, G. & Schimpl-Neimanns, B., 1992: Multivariate Analysen mit zufallsüberlagerten Tabellen aus dem Statistischen Informationssystem des Bundes (STATIS-BUND). ZUMA-Nachrichten 30: 66-94.