Sie sind hier: Dienstleistungen / Daten / Amtliche Mikrodaten / Mikrozensus / Stata-Einleseroutine
09.01.09

Nachfolgend finden Sie das Stata-Setup, das dazu dient, die Rohdaten des Mikrozensus Scientific Use Files 1991 einzulesen und ein Stata-Datenfile zu erstellen.

Das Stata-Setup setup_91.do und das Dokument setup_91.dct erfüllen folgende Aufgaben:

  • Einlesen der Rohdaten, wie sie vom Statistischen Bundesamt bereitgestellt werden
  • Umwandeln von alphanumerischen Variablen in numerische Variablen
  • Ersetzen von fehlenden Werten (Blanks, @)
  • Recodieren der Missing Values
  • Umformatierung des Hochrechnungsfaktors
  • Hinzufügen der Variable und Value Labels
  • Speichern des endgültigen Stata-Systemfiles 

Das Stata-Setup sowie eine Kurzbeschreibung des Mikrozensus 1991 stehen als ZIP- Datei (43 KB) (Version: 07/2005) zum Herunterladen bereit.

Um eine reibungsfreie Aufbereitung der Daten zu gewährleisten, empfiehlt es sich, die in dem Setup vorgesehenen Voreinstellungen zu berücksichtigen und je nach Leistung des verarbeitenden Systems das Setup schrittweise durchführen zu lassen. Sind die Daten eingelesen und ist das entsprechende Systemfile erstellt, kann die folgende Fallzahl (ohne Gewichtung, ohne Selektion) zur Kontrolle, ob der Rohdatensatz fehlerfrei eingelesen wurde, mit der des eingelesenen Datensatzes verglichen werden. Unterscheiden sich die Fallzahlen, weist dies auf einen Fehler beim Einlesen hin.

Fallzahl Mikrozensus 1991 (ohne Gewichtung, ohne Selektion) =  516038

Des Weiteren können die Verteilungen ausgewählter Variablen des Mikrozensus SUF 1991 zur Prüfung des fehlerfreien Ablaufs des Setups herangezogen werden.

Wichtige Hinweise zur Verarbeitung

[nach oben]

Das Stata-Setup beruht auf dem SPSS-Setup und wurde mit Hilfe des Programms StatTrans automatisch erstellt. Dadurch sind die Variable und Value Labels gekürzt bzw. abgeschnitten. Vollständige Labellisten finden sich z.B. in der Datendokumentation, im Internet und im SPSS-Setup.  

Stata benötigt für temporäre Operationen ca. das Dreifache des Plattenplatzes des Rohdatenfiles. D.h. es sollten ca. 500 MB Plattenplatz zur Verfügung stehen. 

Das Rohdatenfile des StBA enthält alle Variablen des Mikrozensus 1991. Damit das obige Stata-Setup für jede mögliche Variablen-Auswahl verwendbar ist, wurden alle Variablen erfasst. Variablen, die Sie nicht bestellt haben, sind in Ihrem Rohdatenfile auf 0 oder BLANK gesetzt. Um einen Systemfile zu erzeugen, der nur die von Ihnen bestellten Variablen enthält, fügen Sie im Stata-Setup (setup_91.do) vor der save-Zeile den Ausdruck keep + Variablennamen hinzu und nennen dort Ihre bestellten Variablen.

Recodierungen und Missing-Kategorien im Setup Mikrozensus 1991 im Vergleich zum Schlüsselverzeichnis

[nach oben]

Im Setup des Mikrozensus 1991 wurden von ZUMA zum Teil Recodierungen vorgenommen, die zu Abweichungen in der numerischen Bezeichnung der Value Labels im Vergleich zum Schlüsselverzeichnis führen. Im Stata-Setup hat dies zur Folge, dass, abweichend vom Schlüsselverzeichnis, die Missing-Kategorien keine System-Missings mehr sind, sondern numerische Werte aufweisen.

Im Folgenden werden die wichtigsten Regeln, die hinter diesen Recodierungen im Setup stehen, benannt:

  • Die meisten Recodierungen im Setup wurden vorgenommen, um eine einheitliche Kennzeichnung der Missing-Kategorien zu erreichen. Diese sind im Falle der Ausprägung 'Entfällt' mit 9; 99 oder 999 und im Falle der Ausprägung 'Angabe fehlt/keine Angabe' mit 8; 98 und 998 gekennzeichnet. Das hat zur Folge, dass der Ausprägung 'Nein' - im Schlüsselverzeichnis in der Regel mit der Zahl 9 versehen - eine Zahl zugewiesen wurde, die sich an die anderen Ausprägungen anschließt. Die 0 für 'Angabe fehlt/keine Angabe' wurde durch die 8; 98 oder 998 ersetzt. 
  • Weitere Recodierungen gibt es, wenn sich innerhalb der Zahlenfolgen Lücken ergaben (z.B. 1,2,4,5,6 und 9 wurde zu 1,2,3,4,5 und 9).
  • Zum Teil wurden Recodierungen vorgenommen um die Merkmalsausprägungen in eine "logische Folge" zu bringen. Das betrifft die Variablen EF108 - EF110 und EF220 und EF221.So wurde zum Beispiel bei der Variable "Stellung im Beruf" (EF110) die Ausprägung 'Direktor, Amtsleiter, Geschäftsführer oder Betriebsleiter/Werksleiter' von 0 (Schlüsselverzeichnis) auf 10 (Setup) recodiert, so dass sie sich an die Ausprägung 'Abteilungsleiter, Prokurist' (9) anschließt und nicht der Ausprägung 'Auszubildender, Praktikant, Volontär' (1) vorangestellt ist. 
  • In einigen Variablen wurde die Gruppe der Personen in Gemeinschaftsunterkünften, die als Missing geführt wird von 0 auf einen anderen numerischen Wert gesetzt, damit sie sich am Ende der Häufigkeitsauszählung wiederfindet. Dies ist bei den Variablen, die die Haushalte und die Familien betreffen der Fall.
  • Zahlenfolgen in der Form von 0,1,2,3.... wurden in die Form von 1,2,3,4.... umgewandelt. Dies betrifft die Variable "Schulbesuch" (EF56) und Variablen, die auf der Frage nach der "Stellung im Beruf" basieren (EF115, EF227) sowie die Variablen zum "sonstigen öffentlichen und privaten Einkommen" (EF144 und EF145).

Die Regeln gelten nicht für alle im Setup aufgeführten Variablen. Als Grundlage für das vorliegende Setup diente ein Setup, das zunächst für das ZUMA-File (d.h. für eine bestimmte Merkmalsauswahl aus dem Mikrozensus Grundfile) erstellt wurde. Zu einem späteren Zeitpunkt wurde das Setup um die restlichen Variablen des Mikrozensus Grundfiles ergänzt. Dieses enthält nun alle im Mikrozensus Grundfile verfügbaren Variablen und wird von ZUMA für alle Nutzer bereitgestellt. 
Bei den ergänzten Variablen wurde möglichst auf Recodierungen verzichtet. Fehlende Werte wurden bei diesen Variablen wie folgt codiert: Sofern die 0 nicht besetzt war, wurden Missings mit 0 codiert. War die 0 vergeben, so wurde auf die 9; 99 oder 999 zurückgegriffen. Falls diese Zahlen ebenfalls besetzt waren, wurden die Missings mit 8 oder 10 gekennzeichnet. Betroffen sind die Variablen zur Kranken- und Rentenversicherung (EF76, EF78, EF82, EF83), zur Schichtarbeit und den geleisteten Arbeitsstunden in der Berichtswoche (EF101, EF111, EF112, EF118, EF128) sowie zum Arbeitszeittyp der Ehefrau der Familienbezugsperson (EF231). Von diesem Muster leicht abweichend sind wieder die Variablen zu den Pendlereigenschaften (EF130-EF134) codiert.

Besonderheiten des Setups Mikrozensus 1991<small><small></small></small>

[nach oben]

Das Setup für den Mikrozensus 1991 weist drei Besonderheiten auf:

  • Im Rohdatensatz gibt es für die Variablen EF181, EF188 und EF199 zwei Kategorie ("leer" und "0"), in denen sich Personen befinden, die in Gemeinschaftsunterkünften leben. Diese beiden Kategorien werden im Setup automatisch zu einer Missing-Kategorie "9" bzw."99" zusammengefasst, so dass sich auch für die obengenannten Variablen eine einheitliche Fallzahl von 5667 für die Ausprägung "Personen in Gemeinschaftsunterkünften" ergibt. 
  • Im Grundfile des Statistischen Bundesamt findet sich offensichtlich in der Variable EF225 "Erwerbs-/Unterhaltstyp der Ehefrau der Familienbezugsperson" eine Zusammenfassung der Kategorien "B" und "C" bzw. "2"="Erwerbstätige mit überwiegendem Lebensunterhalt durch Arbeitslosengeld/-hilfe" und "3"="Erwerbstätige mit überwiegendem Lebensunterhalt durch Rente, Pension, eigenes Vermögen, Vermietung, Zinsen, Altenteil, Sozialhilfe und sonstige Unterstützung, Bafög". Diese Zusammenfassung kann durch die dem eigentlichen Setup angefügte Befehlsfolge wieder aufgelöst werden. Mit diesem Befehl wird die Bandsatzerweiterung "Erwerbs-/Unterhaltstyp der Ehefrau der Familienbezugsperson" aus den Informationen des Grundfiles neu erstellt (Variable v225). Die Häufigkeiten der Variablen EF225 und v225 stimmen überein. Lediglich für die Ausprägung "2"="ET:Alo-Geld/-Hilfe" ergibt sich nun eine Fallzahl von 187; für die Ausprägung "3"="ET: Rente, Pension" eine Fallzahl von 2463. (Siehe: Schimpl-Neimanns, B./Schmidt, K. Konstruktion von Bandsatzerweiterungen zum Haushalt und zur Familie im Mikrozensus mittels satzübergreifenden Operationen in SPSS; Mannheim: ZUMA-Technischer Bericht Nr. 97/08.
  • Durch einen Programmierfehler im Statistischen Bundesamt wurde die Angabe zum Eheschließungsjahr (EF39, EF214) '1990' gelöscht und statt dessen der Wert 'ohne Angabe' vergeben.