Sie sind hier: Dienstleistungen / Daten / Amtliche Mikrodaten / Mikrozensus / Stata-Einleseroutine
08.01.09

STATA-Setup zum Einlesen der Rohdaten des Mikrozensus 1996

Nachfolgend finden Sie das Stata-Setup, das Ihnen dabei hilft, die Rohdaten des Mikrozensus 1996 einzulesen und ein SPSS-Systemfile zu erstellen.

Das Stata-Setup setup96.do und das Dokument setup96.dct erfüllen folgende Aufgaben:

  • Einlesen der Rohdaten, wie sie vom Statistischen Bundesamt bereitgestellt werden
  • Umwandeln von alphanumerischen Variablen in numerische Variablen
  • Ersetzen von fehlenden Werten (Blanks, @)
  • Recodieren der Missing Values
  • Umformatierung des Hochrechnungsfaktors
  • Hinzufügen der Variable und Value Labels
  • Speichern des endgültigen Stata-Systemfiles 

Das Stata-Setup sowie eine Kurzbeschreibung des Mikrozensus 1996 stehen als ZIP- Datei (68 KB) (Version vom 07/2005) zum Herunterladen bereit.

Um eine reibungsfreie Aufbereitung der Daten zu gewährleisten, empfiehlt es sich, die in dem Setup vorgesehenen Voreinstellungen zu berücksichtigen und je nach Leistung des verarbeitenden Systems das Setup schrittweise durchführen zu lassen. Sind die Daten eingelesen und ist das entsprechende Systemfile erstellt, kann die folgende Fallzahl (ohne Gewichtung, ohne Selektion) zur Kontrolle, ob der Rohdatensatz fehlerfrei eingelesen wurde, mit der des eingelesenen Datensatzes verglichen werden. Unterscheiden sich die Fallzahlen, weist dies auf einen Fehler beim Einlesen hin.

Fallzahl Mikrozensus 1996 (ohne Gewichtung, ohne Selektion) = 509243

Des Weiteren können die Verteilungen ausgewählter Variablen des Mikrozensus SUF 1996 zur Prüfung des fehlerfreien Ablaufs des Setups herangezogen werden.

Wichtige Hinweise zur Verarbeitung:

[nach oben]

Das Stata-Setup beruht auf dem SPSS-Setup und wurde mit Hilfe des Programms StatTrans automatisch erstellt. Dadurch sind die Variable und Value Labels gekürzt bzw. abgeschnitten. 
Vollständige Labellisten finden sich z.B. in der Datendokumentation, im Internet und im SPSS-Setup.  

Stata benötigt für temporäre Operationen ca. das Dreifache des Plattenplatzes des Rohdatenfiles. D.h. es sollten ca. 500 MB Plattenplatz zur Verfügung stehen. 

Das Rohdatenfile des StBA enthält alle Variablen des Mikrozensus 1996. 
Damit das obige Stata-Setup für jede mögliche Variablen-Auswahl verwendbar ist, wurden alle Variablen erfasst. Variablen, die Sie nicht bestellt haben, sind in Ihrem Rohdatenfile auf 0 oder BLANK gesetzt. Um einen Systemfile zu erzeugen, der nur die von Ihnen bestellten Variablen enthält, fügen Sie im Stata-Setup (setup_96.do) vor der save-Zeile den Ausdruck keep + Variablennamen hinzu und nennen dort Ihre bestellten Variablen.

Recodierungen und Missing-Kategorien im Setup Mikrozensus 1996 im Vergleich zum Schlüsselverzeichnis 

[nach oben]

Im Setup des Mikrozensus 1996 wurde größtenteils auf Recodierungen verzichtet. Recodierungen wurden nur vorgenommen, um den im Rohdatensatz nicht gekennzeichneten Missings einen numerischen Wert zu zuordnen. Die Missing-Kategorien im Schlüsselverzeichnis werden durch das Stata-Setup nicht in System-Missings umgewandelt. Den Missing-Kategorien werden stattdessen numerische Werte zugeordnet.
Im Folgenden wird die Systematik dieser Recodierungen kurz vorgestellt:

  • Soweit die 0 in den einzelnen Variablen nicht vergeben ist, wird die Missing-Kategorie mit der 0 gekennzeichnet.
  • Ist die 0 besetzt, so wird die Missing-Kategorie mit der 9 oder der 99 gekennzeichnet.
  • Ist auch die 9 in der Variable schon vergeben, so wird die 8 gewählt.

Besonderheiten des Setups Mikrozensus 1996

[nach oben]

Das Mikrozensus Scientific Use File (SUF) 1996 weist folgende Besonderheiten auf:

  • In der Variable EF569 "Bevölkerungsgruppe der Bezugsperson" tritt im Rohdatenfile die Kategorie "0" mit 102 Fällen auf. Diese 102 Fälle sind Personen in Gemeinschaftsunterkünften, die der Missing-Kategorie "leer" zugehören. Das gleiche Problem tritt bei den Variablen EF538 und EF558 auf. Mit dem Setup werden die 102 Fälle jeweils automatisch mit der Kategorie "Entfällt (Personen in Gemeinschaftsunterkünften)" zusammengefasst.
    Problematisch wirkt sich die Fehlcodierung in der Variable EF569 aus. Sie ist die Grundlage zur Erstellung weiterer Bandsatzerweiterungen. In den Variablen EF528-EF531 "Anzahl der Kinder von ... bis ... Jahren im Haushalt" und EF576-581 "Anzahl der Kinder von ... bis ... Jahren in der Familie" wurden die 102 Fälle, die als Personen in Gemeinschaftsunterkünften zu identifizieren sind, jeweils der Kategorie "0 = Keine Kinder im Alter von ... bis ... Jahren" zugeordnet. Am Ende des Setups befindet sich eine Befehlssyntax, die dieses Problem behebt und die gegebenenfalls aktiviert werden kann.
  • Bei der Kontrolle der Variable EF688 (Beruf frühere Erwerbstätigkeit nach ISCO88 (COM)) fiel auf, dass im Rohdatensatz neben der Missing-Kategorie "leer" noch eine weitere, nicht weiter spezifizierte Kategorie mit der Ausprägung "0" auftaucht, die im Schlüsselverzeichnis nicht näher beschrieben wurde. Durch einige Test konnten diese beiden Gruppen unterschieden und genauer spezifiziert werden. Welche Personen sich in der Kategorie "0" bzw. "leer" (codiert mit 999) befinden wurde im Schlüsselverzeichnis ergänzt. Darüber hinaus gibt es jedoch 11146 ungeklärte Fälle, bei denen nicht klar ersichtlich ist, warum ihnen für die ISCO88 (COM) keine Ausprägung zugeschrieben wurde. Denn diese Fälle haben sowohl bei der Angabe zur früheren Erwerbstätigkeit sowie des Berufs der früheren Erwerbstätigkeit nach KldB (ef114) gültige Werte.
  • Es finden sich im Datensatz des Mikrozensus SUF 1996 bei einigen Variablen einzelne Fälle, die nicht einer der vorhandenen Kategorien zugeordnet sind. Diese werden - soweit möglich - im Setup direkt mit der Missing-Kategorie "Entfällt" zusammengefasst oder explizit als Missing ausgewiesen.