Datenbeschreibung (Dokumentation)

Die ausführliche Beschreibung und Registrieung von Forschungsdaten ist eine Voraussetzung für deren Auffindbarkeit sowie für deren Interpretation und Auswertung. GESIS folgt hier den FAIR-Kriterien (Findability, Accesibility, Inter-Operability und Re-Usability).

Ein ganz wesentlicher Aspekt bei der Archivierung sozialwissenschaftlicher Studien ist die ausführliche Beschreibung der Studien. Als Studie bezeichnet GESIS das Paket aus Daten und Daten beschreibenden Dokumenten wie etwa dem Fragebogen oder einer Methodenbeschreibung. Die Studienbeschreibung wird anhand eines strukturierten und standardisierten (Metadaten-) Schemas erstellt. Diese umfassen inhaltliche, methodische und formale Elemente enthält.

Pflichtelemente der Beschreibung sind:

  • eine Studiennummer,
  • der Titel der Studie,
  • die Namen der Datengeber*innen oder Primärforscher*innen,
  • die Angabe der Zugangskategorie,
  • sowie ein Digital Object Identifier (DOI), der von GESIS vergeben wird.

Die Studienbeschreibung ist in unterschiedliche Bereiche gegliedert:

  • Die bibliographischen Angaben erfassen die genannten obligatorischen Felder sowie weitere Informationen zur Erhebung, Version und Zitation.
  • Die inhaltliche Beschreibung umfasst die Zusammenfassung der wesentlichen Befragungsinhalte und eine detaillierte Beschreibung des Erhebungsinstruments auf Frage- bzw. Variablenebene. Es können weitere Angaben zum Inhalt gemacht werden.
  • Methodische Angaben beinhalten das Untersuchungsgebiet, die Grundgesamtheit, die Auswahl, das Erhebungsverfahren und der Erhebungszeitraum sowie die Datenerhebung.
  • Sind Veröffentlichungen vorhanden, die in direktem Zusammenhang mit der Studie stehen, werden diese ebenfalls verzeichnet.

Die Daten werden in verschiedenen technischen Formaten (in der Regel in SPSS und STATA) zusammen mit den zugehörigen Dokumenten zum Download oder nach Bestellen bereitgestellt.

Alle für die Publikation von Daten verwendeten Metadaten werden nach Vorgabe der Data Documentation Initiative (DDI) verarbeitet. Eine Beschreibung von Daten für unseren Katalog oder eine Dokumentation der Daten auf Variablenebene entsprechen somit international weit genutzten Standards.

DDI ist ein internationaler Standard für die Beschreibung von Daten aus den Sozial-, Verhaltens-, Wirtschafts- und Gesundheitswissenschaften. Es ist ein freier Standard, mit dem verschiedene Phasen im Lebenszyklus von Forschungsdaten dokumentiert und verwaltet werden können, z. B. Konzeptualisierung, Sammlung, Verarbeitung, Verteilung, Entdeckung und Archivierung.

Archivierung BASIS Archivierung PLUS / PREMIUM
SowiDataNet / datorium bietet für die Archivierung BASIS ein Online-Eingabeformular (DDI-konform). Für die Archivierung PLUS und PREMIUM können die Daten über das Tool DBKForm (DDI-konform) zusammengestellt werden.

Jeder Datenbestand, der über GESIS publiziert wird, erhält für die Publikation automatisch einen persistenten Indentifikator in Form eines Digital Object Identifier (DOI). Der DOI-Name bestimmt die Daten eindeutig und macht sie leichter zitierbar. Als Teil einer URL bildet er einen Link auf die entsprechende Studienbeschreibung bei GESIS. Der DOI wird über die Registrierungsagentur da|ra vergeben.

Da|ra wird von GESIS in Kooperation mit DataCite und der ZBW – Leibniz-Informationszentrum Wirtschaft Registrierungsservice da|ra betrieben. Da|ra ist der Registrierungsservice für die Sozial- und Wirtschaftsdaten in Deutschland. Der DOI ist Bestandteil der Datenbeschreibung.

Teil der Registrierung von Forschungsdaten ist die Versionierung, also das Nachhalten von Veränderungen an den Daten.

Die bei GESIS archivierten Forschungsdaten unterliegen einer gewissen Dynamik. Fehlerbereinigungen, Ergänzungen oder andere Vorgänge verändern die Daten. Mit jeder Änderung entsteht eine neue Version der Daten.

Für jede neue Version wird ein neuer persistenter Identifikator (DOI-Name) vergeben. DOI und Versionskennung zusammen ermöglichen eine eindeutige und wenig fehlerträchtige Referenzierung bzw. Zitierung der Daten. Dies führt u. a. zu einer deutlich verbesserten Auffindbarkeit dieser Daten.

Änderungen werden auf drei Ebenen dokumentiert: Major.Minor.Revision (z. B. 2.1.0):

 1. Position – Major:

  • Hinzufügen eines oder mehrerer neuer Samples (in der Regel Länder) in einen integrierten oder kumulierten Datensatz
  • Hinzufügen einer oder mehrerer neuer Wellen in einen kumulierten Datensatz
  • Hinzufügen (Löschen) einer oder mehrerer Variablen in (aus) einem Datensatz
  • Hinzufügen (Löschen) eines oder mehrerer Fälle in (aus) einem Datensatz
  • Qualitätsänderung durch Aufbereitung für eine höhere Datenzustandsklasse (in der Regel Klasse 1)

 2. Position – Minor

  • Änderung einer Variablen, d.h. bedeutungsrelevante Korrekturen oder Ergänzungen im Datensatz (Label, Rekodierungen, Datenformate …)  

3. Position – Revision

  • Nicht bedeutungsrelevante Korrekturen (z.B. die Verbesserung von Rechtschreibfehlern)
  • Einfache Überarbeitung von Labeln ohne Bedeutungsrelevanz

Beispiel:
An einem bestehenden Datensatz mit der Version 1.2.3 wird ein Rechtschreibfehler korrigiert (→1.2.4), eine Variable rekodiert (→1.3.0) und eine Variable hinzugefügt (→ 2.0.0). Fließen alle Änderungen in die neue Version ein, wird die Versionsnummer 2.0.0 vergeben. Werden nur die beiden erstgenannten Änderungen vorgenommen, wird die Version 1.3.0 erzeugt.