|
STATA-Setup zum Einlesen der Rohdaten des Mikrozensus 1997
Nachfolgend finden Sie das Stata-Setup, das Ihnen dabei hilft, die Rohdaten der Mikrozensus
1997
einzulesen und ein Stata-Datenfile zu erstellen.
Das Stata-Setup setup97.do und das Dokument setup97.dct
erfüllen
folgende Aufgaben:
- Einlesen der Rohdaten, wie sie vom Statistischen Bundesamt bereitgestellt werden
- Umwandeln von alphanumerischen Variablen in numerische Variablen
- Ersetzen von fehlenden Werten (Blanks, @)
- Recodieren der Missing Values
- Umformatierung des Hochrechnungsfaktors
- Hinzufügen der Variable Labels
- Hinzufügen der Value Labels
- Speichern des endgültigen Stata-Systemfiles
Das Stata-Setup sowie eine Kurzbeschreibung des Mikrozensus 1997 stehen als ZIP-
Datei (67 KB) (Version 05/2005) zum Herunterladen bereit.
Um eine reibungsfreie Aufbereitung der Daten zu gewährleisten,
empfiehlt es sich, die in dem Setup vorgesehenen Voreinstellungen zu berücksichtigen
und je nach Leistung des verarbeitenden Systems das Setup schrittweise
durchführen zu lassen. Sind die Daten eingelesen und ist das
entsprechende Systemfile erstellt, kann die folgende Fallzahl (ohne
Gewichtung, ohne Selektion) zur Kontrolle, ob der Rohdatensatz fehlerfrei
eingelesen wurde, mit der des eingelesenen Datensatzes verglichen werden.
Unterscheiden sich die Fallzahlen, weist dies auf einen Fehler beim
Einlesen hin.
Fallzahl Mikrozensus 1997 (ohne Gewichtung, ohne Selektion) = 509892
Des Weiteren können die Verteilungen
ausgewählter Variablen des Mikrozensus SUF 1997 zur Prüfung des
fehlerfreien Ablaufs des Setups herangezogen werden.
Wichtige Hinweise zur Verarbeitung:
Das Stata-Setup beruht auf dem SPSS-Setup und wurde mit Hilfe des Programmes StatTrans
automatisch erstellt. Dadurch sind die Variable und Value Labels gekürzt bzw.
abgeschnitten. Vollständige Labellisten finden sich z.B. in der Datendokumentation, im Internet und im SPSS-Setup.
Stata benötigt für temporäre Operationen ca. das Dreifache des Plattenplatzes des
Rohdatenfiles. D.h. es sollten ca. 500 MB Plattenplatz zur Verfügung stehen.
Das Rohdatenfile des StBA enthält alle Variablen des Mikrozensus 1997. Damit das obige Stata-Setup für jede mögliche Variablen-Auswahl verwendbar ist,
wurden alle Variablen erfasst. Variablen, die Sie nicht bestellt haben, sind in
Ihrem Rohdatenfile auf 0 oder BLANK gesetzt. Um einen Systemfile zu erzeugen,
der nur die von Ihnen bestellten Variablen enthält, fügen Sie im Stata-Setup
(setup_97.do) vor der save-Zeile den Ausdruck keep + Variablennamen hinzu und nennen dort Ihre bestellten Variablen.
Recodierungen
und Missing-Kategorien im Setup Mikrozensus 1997 im Vergleich zum Schlüsselverzeichnis
Im Setup des Mikrozensus 1997 wurde größtenteils
auf Recodierungen verzichtet. Recodierungen wurden nur vorgenommen, um den im Rohdatensatz nicht
gekennzeichneten Missings einen numerischen Wert zu zuordnen. Die
Missing-Kategorien im Schlüsselverzeichnis werden durch das Stata-Setup nicht in
System-Missings umgewandelt. Den Missing-Kategorien werden stattdessen
numerische Werte zugeordnet.
Im Folgenden wird die Systematik dieser Recodierungen kurz vorgestellt:
-
Soweit die 0 in den einzelnen Variablen nicht vergeben ist, wird die Missing-Kategorie mit der 0
gekennzeichnet.
-
Ist die 0 besetzt, so wird die Missing-Kategorie mit der 9 oder
der 99 gekennzeichnet.
-
Ist auch die 9 in der Variable schon vergeben, so wird die 8 gewählt.
Besonderheiten des Setups
Mikrozensus 1997
Das Setup zum Mikrozensus Scientific Use File
(SUF) 1997 weist folgende Besonderheiten auf:
-
Es finden sich im Datensatz des
Mikrozensus SUF
1997 bei einigen Variablen einzelne Fälle, die nicht einer der vorhandenen Kategorien zugeordnet sind. Diese werden, soweit
möglich, im Setup direkt mit der Missing-Kategorie "Entfällt" zusammengefasst oder aber extra als Missing ausgewiesen.
-
Bei der Kontrolle der Variable
EF668 (Beruf frühere Erwerbstätigkeit nach ISCO88(COM)) fiel auf, dass im Rohdatensatz neben der
Missing-Kategorie "leer" noch eine weitere, nicht weiter spezifizierte
Kategorie mit der Ausprägung "0" auftaucht, die im Schlüsselverzeichnis nicht näher
beschrieben wurde. Durch einige Test konnten diese beiden Gruppen unterschieden und genauer spezifiziert werden. Welche Personen sich in der Kategorie "0" bzw. "leer" (codiert mit 999) befinden, wurde im Schlüsselverzeichnis ergänzt. Darüber hinaus gibt es jedoch 10939 ungeklärte Fälle, bei denen nicht klar ersichtlich ist, warum ihnen für die ISCO88
(COM) keine Ausprägung zugeschrieben wurde. Denn diese Fälle haben sowohl bei der Angabe zur früheren Erwerbstätigkeit sowie des Berufs der früheren Erwerbstätigkeit nach KldB (ef114) gültige Werte.
© GESIS Yvonne Lechert 01. August 2007
|