|
STATA-Setup zum Einlesen der Rohdaten des Mikrozensus 1989
Nachfolgend finden Sie das Stata-Setup, das dazu dient, die Rohdaten des Mikrozensus
Scientific Use Files 1989
einzulesen und ein Stata-Datenfile zu erstellen.
Das Stata-Setup setup89.do und das Dokument setup89.dct erfüllen folgende Aufgaben:
- Einlesen der Rohdaten, wie sie vom Statistischen Bundesamt bereitgestellt werden
- Umwandeln von alphanumerischen Variablen in numerische Variablen
- Ersetzen von fehlenden Werten (Blanks, @)
- Recodieren der Missing Values
- Umformatierung des Hochrechnungsfaktors
- Hinzufügen der Variable und Value Labels
-
Speichern des endgültigen Stata-Systemfiles
Das Stata-Setup sowie eine Kurzbeschreibung des Mikrozensus 1989 stehen als
ZIP-
Datei (44 KB) (Version vom 05/2006) zum Herunterladen bereit.
Um
eine reibungsfreie Aufbereitung der Daten zu gewährleisten, empfiehlt es
sich, die in dem Setup vorgesehenen Voreinstellungen zu berücksichtigen
und je nach Leistung des verarbeitenden Systems das Setup schrittweise
durchführen zu lassen. Sind die Daten eingelesen und ist das
entsprechende Systemfile erstellt, kann die folgende Fallzahl (ohne
Gewichtung, ohne Selektion) zur Kontrolle, ob der Rohdatensatz fehlerfrei
eingelesen wurde, mit der des eingelesenen Datensatzes verglichen werden.
Unterscheiden sich die Fallzahlen, weist dies auf einen Fehler beim
Einlesen hin.
Fallzahl Mikrozensus 1989 (ohne Gewichtung, ohne
Selektion) = 385831
Des Weiteren können die Verteilungen ausgewählter
Variablen des Mikrozensus SUF 1989 zur Prüfung des fehlerfreien Ablaufs
des Setups herangezogen werden.
Wichtige Hinweise zur Verarbeitung [nach
oben]
Das Stata-Setup beruht auf dem SPSS-Setup und wurde mit Hilfe des Programms
StatTrans
automatisch erstellt. Dadurch sind die Variable und Value Labels gekürzt bzw. abgeschnitten. Vollständige Labellisten finden sich z.B. in der Datendokumentation, im Internet und im SPSS-Setup.
Stata benötigt für temporäre Operationen ca. das Dreifache des Plattenplatzes des
Rohdatenfiles. D.h. es sollten ca. 500 MB Plattenplatz zur Verfügung stehen.
Das Rohdatenfile des StBA enthält alle Variablen des Mikrozensus 1989. Damit das obige Stata-Setup für jede mögliche Variablen-Auswahl verwendbar ist,
wurden alle Variablen erfasst. Variablen, die Sie nicht bestellt haben, sind in
Ihrem Rohdatenfile auf 0 oder BLANK gesetzt. Um einen Systemfile zu erzeugen,
der nur die von Ihnen bestellten Variablen enthält, fügen Sie im Stata-Setup
(setup_89.do) vor der save-Zeile den Ausdruck keep + Variablennamen hinzu und nennen dort Ihre bestellten Variablen.
Recodierungen
und Missing-Kategorien im Setup Mikrozensus 1989 im Vergleich zum Schlüsselverzeichnis
[nach oben]
Im Setup des
Mikrozensus 1989 wurden von ZUMA zum Teil Recodierungen vorgenommen, die
zu Abweichungen in der numerischen Bezeichnung der Value Labels im
Vergleich zum Schlüsselverzeichnis führen. Im Stata-Setup hat dies zur Folge, dass,
abweichend vom Schlüsselverzeichnis, die Missing-Kategorien keine System-Missings mehr sind, sondern numerische Werte aufweisen.
Im Folgenden werden
die wichtigsten Regeln, die hinter diesen Recodierungen im Setup stehen,
benannt:
-
Die meisten Recodierungen im Setup wurden vorgenommen um
eine einheitliche Kennzeichnung der Missing-Kategorien zu erreichen. Diese
sind im Falle der Ausprägung ‚Entfällt’ mit 9; 99 oder 999 und im
Falle der Ausprägung ‚Angabe fehlt/keine Angabe’ mit 8; 98 und 998 gekennzeichnet. Das hat zur Folge, dass der Ausprägung ‚Nein’ – im
Schlüsselverzeichnis in der Regel mit der Zahl 9 versehen – eine Zahl
zugewiesen wurde, die sich an die anderen Ausprägungen anschließt. Die 0
für ‚Angabe fehlt/keine Angabe’ wurde durch die 8; 98 oder 998
ersetzt.
-
Weitere Recodierungen gibt es, wenn sich innerhalb der
Zahlenfolgen Lücken ergaben (z.B. 1,2,4,5,6 und 9 wurde zu 1,2,3,4,5
und 9).
-
Zum Teil wurden Recodierungen vorgenommen um die
Merkmalsausprägungen in eine „logische Folge“ zu bringen. Das
betrifft die Variablen EF108 – EF110 und EF220 und EF221. So
wurde zum Beispiel bei der Variable „Stellung im Beruf“ (EF110) die
Ausprägung ‚Direktor, Amtsleiter, Geschäftsführer oder
Betriebsleiter/Werksleiter’ von 0
(Schlüsselverzeichnis) auf 10 (Setup) recodiert, so dass sie sich an die
Ausprägung ‚Abteilungsleiter, Prokurist’ (9) anschließt und nicht
der Ausprägung ‚Auszubildender, Praktikant, Volontär’ (1)
vorangestellt ist.
-
In einigen Variablen wurde die Gruppe der Personen in
Gemeinschaftsunterkünften, die als Missing geführt wird von 0 auf einen
anderen numerischen Wert gesetzt, damit sie sich am Ende der Häufigkeitsauszählung
wiederfindet. Dies ist bei den Variablen, die die Haushalte und die
Familien betreffen der Fall.
-
Zahlenfolgen in der Form von 0,1,2,3.... wurden in die Form
von 1,2,3,4.... umgewandelt. Dies betrifft die Variable „Schulbesuch“
(EF56), alle Variablen, die auf der Frage nach der „Stellung im Beruf“
basieren (EF94, EF115, EF194, EF217, EF227) und die Variablen zum
„sonstigen öffentlichen und privaten Einkommen“ (EF144 und EF145).
Die Regeln gelten nicht für
alle im Setup aufgeführten Variablen. Als Grundlage für das vorliegende
Setup diente ein Setup, das zunächst für das ZUMA-File (d.h. für eine
bestimmte Merkmalsauswahl aus dem Mikrozensus Grundfile) erstellt wurde.
Zu einem späteren Zeitpunkt wurde das Setup um die restlichen Variablen
des Mikrozensus Grundfiles ergänzt. Dieses enthält nun alle im
Mikrozensus Grundfile verfügbaren Variablen und wird von ZUMA für alle
Nutzer bereitgestellt. Bei den ergänzten Variablen wurde möglichst auf
Recodierungen verzichtet. Fehlende Werte wurden bei diesen Variablen wie
folgt codiert: Sofern die 0 nicht besetzt war, wurden Missings mit 0
codiert. War die 0 vergeben, so wurde auf die 9; 99 oder 999 zurückgegriffen.
Falls diese Zahlen ebenfalls besetzt waren, wurden die Missings mit 8 oder
10 gekennzeichnet. Betroffen sind die Variablen zur Kranken- und
Rentenversicherung (EF78, EF82, EF83, EF86), zum Thema Verwendung von
Jodsalz (EF87, EF89) zur Schichtarbeit und den geleisteten Arbeitsstunden
in der Berichtswoche (EF101, EF111, EF112, EF117, EF118, EF128), Fragen
zur Krankheit, Unfall und Behinderung (EF166U2 – EF166U8, EF167U1,
EF167U2) sowie zum Raucherverhalten (EF137, EF166U9, EF166U11).
© GESIS Yvonne Lechert
23. Juli 2008
|