|
STATA-Setup zum Einlesen der Rohdaten des Mikrozensus 1995
Nachfolgend finden Sie das Stata-Setup, das dazu dient, die Rohdaten des Mikrozensus
Scientific Use Files 1995
einzulesen und ein Stata-Datenfile zu erstellen.
Das Stata-Setup setup_95.do und das Dokument setup_95.dct erfüllen folgende Aufgaben:
- Einlesen der Rohdaten, wie sie vom Statistischen Bundesamt bereitgestellt werden
- Umwandeln von alphanumerischen Variablen in numerische Variablen
- Ersetzen von fehlenden Werten (Blanks, @)
- Recodieren der Missing Values
- Umformatierung des Hochrechnungsfaktors
- Hinzufügen der Variable und Value Labels
-
Speichern des endgültigen Stata-Systemfiles
Das Stata-Setup sowie eine Kurzbeschreibung des Mikrozensus 1995 stehen als ZIP-
Datei (48 KB) (Version vom 07/2005) zum Herunterladen bereit.
Um eine reibungsfreie Aufbereitung der Daten zu gewährleisten, empfiehlt es
sich, die in dem Setup vorgesehenen Voreinstellungen zu berücksichtigen und je
nach Leistung des verarbeitenden Systems das Setup schrittweise durchführen zu
lassen. Sind die Daten eingelesen und ist das entsprechende Systemfile erstellt,
kann die folgende Fallzahl (ohne Gewichtung, ohne Selektion) zur Kontrolle, ob
der Rohdatensatz fehlerfrei eingelesen wurde, mit der des eingelesenen
Datensatzes verglichen werden. Unterscheiden sich die Fallzahlen, weist dies auf
einen Fehler beim Einlesen hin.
Fallzahl Mikrozensus 1995 (ohne Gewichtung, ohne Selektion) = 512509
Des Weiteren können die Verteilungen
ausgewählter Variablen des Mikrozensus SUF 1995 zur Prüfung des
fehlerfreien Ablaufs des Setups herangezogen werden.
Wichtige Hinweise zur Verarbeitung:
Das Stata-Setup beruht auf dem SPSS-Setup und wurde mit Hilfe des Programmes StatTrans
automatisch erstellt. Dadurch sind die Variable und Value Labels gekürzt bzw. abgeschnitten. Vollständige Labellisten finden sich z.B. in der Datendokumentation, im Internet und im SPSS-Setup.
Stata benötigt für temporäre Operationen ca. das Dreifache des Plattenplatzes des
Rohdatenfiles. D.h. es sollten ca. 500 MB Plattenplatz zur Verfügung stehen.
Das Rohdatenfile des StBA enthält alle Variablen des Mikrozensus 1995. Damit das obige Stata-Setup für jede mögliche Variablen-Auswahl verwendbar ist,
wurden alle Variablen erfasst. Variablen, die Sie nicht bestellt haben, sind in
Ihrem Rohdatenfile auf 0 oder BLANK gesetzt. Um einen Systemfile zu erzeugen,
der nur die von Ihnen bestellten Variablen enthält, fügen Sie im Stata-Setup
(setup_95.do) vor der save-Zeile den Ausdruck keep + Variablennamen hinzu und nennen dort Ihre bestellten Variablen.
Recodierungen
und Missing-Kategorien im Setup Mikrozensus 1995 im Vergleich zum Schlüsselverzeichnis
Im Setup des Mikrozensus 1995 wurde größtenteils auf Recodierungen verzichtet. Recodierungen wurden nur vorgenommen, um den im Rohdatensatz nicht gekennzeichneten
Missings einen numerischen Wert zu zuordnen. Die Missing-Kategorien im Schlüsselverzeichnis werden durch das Stata-Setup
nicht in System-Missings umgewandelt. Den Missing-Kategorien werden stattdessen
numerische Werte zugeordnet.
Im Folgenden wird die Systematik dieser Recodierungen kurz vorgestellt:
-
Soweit die 9 bzw. 99 oder 999 in den einzelnen Variablen nicht vergeben ist, wird die
Missing-Kategorie mit diesen Zahlen bezeichnet.
-
Ist die 9 bzw. 99 oder 999 besetzt, so wird die Missing-Kategorie mit
der 0 gekennzeichnet.
-
Ist auch die 0 in der Variable schon vergeben, so wird die 8 bzw. die 98
oder 998 gewählt. Lediglich in den Variablen EF221 und EF231 (Arbeitszeittyp) wurden weitere
Recodierungen vorgenommen. Hier wird die Lücke innerhalb der Zahlenfolge
geschlossen (1,2,3,4,5,7,8,9, 0 und "leer" wurde zu 1,2,3,4,5,6,7,8,0 und 9
als Missing-Kategorie)
Besonderheiten des Setups
Mikrozensus 1995
Der Mikrozensus 1995 weist drei Besonderheiten auf:
-
Im Gegensatz zu
Scientific Use Files (SUF) aus anderen Jahrgängen sind im Mikrozensus
SUF 1995
oftmals die Kategorien "ohne Angabe" und "entfällt" in eine Missing-Kategorie zusammengefasst.
-
Es finden sich im Datensatz des
Mikrozensus SUF 1995 bei einigen Variablen einzelne
Fälle, die nicht einer der vorhandenen Kategorien zugeordnet sind. Diese werden, soweit möglich,
im Setup direkt mit der Missing-Kategorie "Entfällt" zusammengefasst oder aber extra
als Missing ausgewiesen.
-
Bei der Bandsatzerweiterung der
Variablen EF226 "Wirtschaftszweig der Ehefrau der Ehefrau der Familienbezugsperson" gibt es
geringe Abweichungen zur Variable EF92 "Wirtschaftszweig". Einige Personen, die in EF92 eine gültige
Angabe haben, sind in EF226 der Kategorie "entfällt" zugeordnet. Zur
Behebung dieses Problems vergleiche:
Schimpl-Neimanns, B./Schmidt, K., 1997: Konstruktion von Bandsatz-Erweiterungen zum Haushalt und zur Familie im
Mikrozensus mittels satzübergreifenden Operationen in SPSS. ZUMA-Technischer Bericht Nr. 97/08.
© GESIS Yvonne Lechert
01. August 2007
|