Dateneingang und Aufnahme ins Archiv

Die Aufnahme der Daten in das Archiv (auch Ingest genannt) ist ein wichtiger Arbeitsschritt vor allem im Hinblick auf die langfristige Sicherung der Daten. Je präziser die Datenübernahme geplant und durchgeführt wird, desto einfacher sind zukünftige Erhaltungsmaßnahmen planbar und zu realisieren. Deshalb werden bereits vor der Aufnahme in das Archiv möglichst umfassende Informationen zu der Studie erhoben und dokumentiert. Nachdem die Studie aufgenommen wurde, werden die Angaben geprüft und durch weitere Informationen ergänzt.

Eingangskontrolle

Sind die Daten im Archiv eingetroffen, wird zunächst eine Dateneingangskontrolle/Validierung vorgenommen, bei der folgende Aspekte geprüft werden:

  • Kontrolle der Dokumente: Welche Erhebungsinstrumente wurden verwendet, in welchen Formaten liegen sie vor, sind sie vollständig?
  • Kontrolle der Daten:
    • In welchen Formaten liegen sie vor, sind sie vollständig?
    • Passen die Daten zum Projekt? (Datensatz entspricht Fragebogen?)
    • Prüfung auf Gewichtung, Wild Codes, Vercodungs- oder Dopplungsfehler, etc.
    • Prüfung auf Vollständigkeit und Verständlichkeit der Labels
    • Plausibilitätsprüfung
    • Einhaltung des Datenschutzes (Wie granular sind die Daten, z.B. in Bezug auf Region oder Berufsklassifikation?)

Die Studien werden mit einer Studiennummer versehen und im Datenbestandskatalog (DBK) angelegt.

Die überlieferten Daten werden gemeinsam mit sinnvollen Kontext-Informationen (Archivierungsvertrag, Schriftwechsel zwischen Archiv und Datengeber, etc) im Archivsystem abgelegt.

Es werden standardmäßig zwei zusätzliche Variablen hinzugefügt (Studiennummer und Versionskennung & -datum). Welche weiteren Aufbereitungsschritte durchgeführt werden, hängt vom Ausgangsmaterial ab, die Aufbereitung kann z.B. folgende Arbeiten umfassen:

  • Ergänzung fehlender oder unklarer Variablen- oder Wertelabels
  • Umstellungen der Variablenreihenfolge (Anpassung an Fragebogen)
  • Löschung oder Rekodierung von Variablen aus Datenschutzgründen
  • Harmonisierung
  • Kumulation
  • u.v.a.

Alle an den Daten vorgenommenen Änderungen werden dokumentiert und mit dem Datensatz gespeichert.

Einige herausragende Studienreihen (ALLBUS, Eurobarometer, EVS, ISSP, Politbarometer) werden von spezialisierten Teams betreut.

Versionierung

Die im Datenarchiv archivierten Daten unterliegen – in unterschiedlichem Ausmaß – auch nach ihrer Veröffentlichung einer gewissen Dynamik, d.h. sie werden bspw. zu Zwecken der Fehlerbereinigung oder zur Aufwertung verändert bzw. durch zusätzliche Variablen oder Befragte erweitert. Durch die Vergabe einer Versionsnummer ist sichergestellt, dass die von DAS bereitgestellten Datensätze, die häufig auch einer Publikation zugrundeliegen, in Kombination mit der Studiennummer eindeutig identifizierbar und somit auch referenzierbar bzw. zitierbar sind. Die Vergabe eines persistenten Identifikators (DOI-Namen) für jede Version erlaubt darüber hinaus nicht nur eine eindeutige u. weniger fehlerträchtige Referenzierung bzw. Zitierung, sondern führt auch gleichzeitig zu einer deutliche verbesserten Lokalisierbarkeit der Daten. Die von DAS vergebenen DOI-Namen führen Nutzer i.d.R. direkt zur entsprechenden Studienbeschreibung im DBK.

Änderungen werden auf drei Ebenen dokumentiert: Major.Minor.Revision (z. B. 2.1.0):

 1. Position – Major:

  • Hinzufügen eines oder mehrerer neuer Sample (in der Regel Länder) in einen integrierten oder kumulierten Datensatz
  • Hinzufügen einer oder mehrerer neuer Wellen in einen kumulierten Datensatz
  • Hinzufügen (Löschen) einer oder mehrerer Variablen in (aus) einem Datensatz
  • Hinzufügen (Löschen) eines oder mehrerer Fälle in (aus) einem Datensatz
  • Qualitätsänderung durch  Aufbereitung für eine höhere Datenzustandsklasse (in der Regel Klasse 1)

 2. Position – Minor

  • Änderung einer Variablen, d.h. bedeutungsrelevante Korrekturen oder Ergänzungen im Datensatz (Label, Rekodierungen, Datenformate …)  

3. Position – Revision

  • Nicht bedeutungsrelevante Korrekturen (z.B. die Verbesserung von Rechtschreibfehlern)
  • Einfache Überarbeitung von Labeln ohne Bedeutungsrelevanz

Beispiel:
An einem bestehenden Datensatz mit der Version 1.2.3 wird ein Rechtschreibfehler korrigiert (→1.2.4), eine Variable rekodiert (→1.3.0) und eine Variable hinzugefügt (→ 2.0.0). Fließen alle Änderungen in die neue Version ein, wird die Versionsnummer 2.0.0 vergeben. Werden nur die beiden erstgenannten Änderungen vorgenommen, wird die Version 1.3.0 erzeugt.