|
|
STATA-Setup zum Einlesen der Rohdaten des Mikrozensus 1996
Nachfolgend finden Sie das Stata-Setup, das Ihnen dabei hilft, die Rohdaten des Mikrozensus 1996 einzulesen und ein SPSS-Systemfile zu erstellen.
Das Stata-Setup setup96.do und das Dokument setup96.dct erfüllen folgende Aufgaben:
- Einlesen der Rohdaten, wie sie vom Statistischen Bundesamt bereitgestellt werden
- Umwandeln von alphanumerischen Variablen in numerische Variablen
- Ersetzen von fehlenden Werten (Blanks, @)
- Recodieren der Missing Values
- Umformatierung des Hochrechnungsfaktors
- Hinzufügen der Variable und Value Labels
-
Speichern des endgültigen Stata-Systemfiles
Das Stata-Setup sowie eine Kurzbeschreibung des Mikrozensus 1996 stehen als
ZIP-
Datei (68 KB) (Version vom 07/2005) zum Herunterladen bereit.
Um eine reibungsfreie Aufbereitung der Daten zu gewährleisten, empfiehlt es
sich, die in dem Setup vorgesehenen Voreinstellungen zu berücksichtigen und je
nach Leistung des verarbeitenden Systems das Setup schrittweise durchführen zu
lassen. Sind die Daten eingelesen und ist das entsprechende Systemfile erstellt,
kann die folgende Fallzahl (ohne Gewichtung, ohne Selektion) zur Kontrolle, ob
der Rohdatensatz fehlerfrei eingelesen wurde, mit der des eingelesenen
Datensatzes verglichen werden. Unterscheiden sich die Fallzahlen, weist dies auf
einen Fehler beim Einlesen hin.
Fallzahl Mikrozensus 1996 (ohne Gewichtung, ohne Selektion) = 509243
Des Weiteren können die Verteilungen
ausgewählter Variablen des Mikrozensus SUF 1996 zur Prüfung des
fehlerfreien Ablaufs des Setups herangezogen werden.
Wichtige Hinweise zur Verarbeitung: [nach
oben]
Das Stata-Setup beruht auf dem SPSS-Setup und wurde mit Hilfe des Programms
StatTrans
automatisch erstellt. Dadurch sind die Variable und Value Labels gekürzt bzw. abgeschnitten.
Vollständige Labellisten finden sich z.B. in der Datendokumentation, im Internet und im SPSS-Setup.
Stata benötigt für temporäre Operationen ca. das Dreifache des Plattenplatzes des
Rohdatenfiles. D.h. es sollten ca. 500 MB Plattenplatz zur Verfügung stehen.
Das Rohdatenfile des StBA enthält alle Variablen des Mikrozensus 1996.
Damit das obige Stata-Setup für jede mögliche Variablen-Auswahl verwendbar ist,
wurden alle Variablen erfasst. Variablen, die Sie nicht bestellt haben, sind in
Ihrem Rohdatenfile auf 0 oder BLANK gesetzt. Um einen Systemfile zu erzeugen,
der nur die von Ihnen bestellten Variablen enthält, fügen Sie im Stata-Setup
(setup_96.do) vor der save-Zeile den Ausdruck keep + Variablennamen hinzu und nennen dort Ihre bestellten Variablen.
Recodierungen
und Missing-Kategorien im Setup Mikrozensus 1996 im Vergleich zum Schlüsselverzeichnis
[nach oben]
Im Setup des Mikrozensus 1996 wurde größtenteils auf Recodierungen verzichtet.
Recodierungen wurden nur vorgenommen, um den im Rohdatensatz nicht gekennzeichneten
Missings einen numerischen Wert zu zuordnen. Die Missing-Kategorien im Schlüsselverzeichnis werden durch das
Stata-Setup nicht in System-Missings umgewandelt. Den Missing-Kategorien werden stattdessen
numerische Werte zugeordnet.
Im Folgenden wird die Systematik dieser Recodierungen kurz vorgestellt:
-
Soweit die 0 in den einzelnen Variablen nicht vergeben ist, wird die Missing-Kategorie mit der 0
gekennzeichnet.
-
Ist die 0 besetzt, so wird die Missing-Kategorie mit der 9 oder der 99 gekennzeichnet.
-
Ist auch die 9 in der Variable schon vergeben, so wird die 8 gewählt.
Besonderheiten des Setups
Mikrozensus 1996 [nach oben]
Das Mikrozensus Scientific Use File (SUF) 1996 weist folgende Besonderheiten auf:
-
In der Variable EF569
"Bevölkerungsgruppe der Bezugsperson" tritt im Rohdatenfile die Kategorie "0" mit 102 Fällen auf.
Diese 102 Fälle sind Personen in Gemeinschaftsunterkünften, die der
Missing-Kategorie "leer" zugehören.
Das gleiche Problem tritt bei den Variablen EF538 und EF558 auf. Mit dem Setup werden die 102 Fälle
jeweils automatisch mit der Kategorie "Entfällt (Personen in Gemeinschaftsunterkünften)"
zusammengefasst.
Problematisch wirkt sich die Fehlcodierung in der Variable EF569 aus. Sie ist
die Grundlage zur Erstellung weiterer Bandsatzerweiterungen. In den Variablen EF528-EF531 "Anzahl der Kinder von ... bis ... Jahren im
Haushalt" und EF576-581 "Anzahl der Kinder von ... bis ... Jahren in
der Familie" wurden die 102 Fälle, die als Personen in Gemeinschaftsunterkünften zu identifizieren sind, jeweils der
Kategorie "0 = Keine Kinder im Alter von ... bis ... Jahren" zugeordnet. Am Ende des Setups befindet sich eine Befehlssyntax, die
dieses Problem behebt und die gegebenenfalls aktiviert werden kann.
-
Bei der Kontrolle der Variable
EF688 (Beruf frühere Erwerbstätigkeit nach ISCO88 (COM)) fiel auf, dass im Rohdatensatz neben der
Missing-Kategorie "leer" noch eine weitere, nicht weiter spezifizierte
Kategorie mit der Ausprägung "0" auftaucht, die im Schlüsselverzeichnis
nicht näher beschrieben wurde. Durch einige Test konnten diese beiden Gruppen unterschieden
und genauer spezifiziert werden. Welche Personen sich in der Kategorie "0"
bzw. "leer" (codiert mit 999) befinden wurde im Schlüsselverzeichnis ergänzt. Darüber hinaus gibt es jedoch 11146 ungeklärte Fälle, bei denen nicht klar
ersichtlich ist, warum ihnen für die ISCO88 (COM) keine Ausprägung zugeschrieben wurde. Denn diese
Fälle haben sowohl bei der Angabe zur früheren Erwerbstätigkeit sowie
des Berufs der früheren Erwerbstätigkeit nach KldB (ef114) gültige Werte.
-
Es finden sich im Datensatz des
Mikrozensus SUF 1996 bei einigen Variablen einzelne Fälle, die nicht einer der vorhandenen Kategorien zugeordnet
sind. Diese werden - soweit möglich - im Setup direkt mit der Missing-Kategorie "Entfällt" zusammengefasst oder
explizit als Missing ausgewiesen.
© GESIS Yvonne Lechert
01. August 2007
|