Kurzskalen psychologischer Merkmale

Entwicklung und Validierung

1. Itementwicklung

Die theoretischen Vorarbeiten Cattells und Horns sowie die in Carroll (1993, 2003) berichteten Befunde legen nahe, dass eine Operationalisierung kristalliner Intelligenz im Erwachsenenalter Wissen aus möglichst vielen unterschiedlichen Bereichen berücksichtigen sollte. Die Entwicklung der Wissensitems erfolgte im Rahmen des BEFKI-Projekts (Berliner Test zur Erfassung Fluider und Kristalliner Intelligenz; Wilhelm, Schroeders & Schipolowski, in Vorbereitung; Wilhelm & Schipolowski, 2010), in dessen Verlauf ein umfangreicher Itempool aufgebaut wurde, der die Messung deklarativen Wissens in 16 verschiedenen Domänen ermöglicht. Im Einzelnen wird naturwissenschaftliches (Physik, Chemie, Biologie, Medizin, Geografie, Technologie), geisteswissenschaftliches (Literatur, Kunst, Musik, Religion, Philosophie) und sozialwissenschaftliches Wissen erfragt (Geschichte, Recht, Politik, Wirtschaft, Finanzen). Dabei orientierte sich die Auswahl der Wissensbereiche an der empirisch begründeten Klassifikation von Ackerman (2000; Rolfhus & Ackerman, 1999). Zur Entwicklung der Kurzskala wurden zuerst aus diesem Itempool insgesamt 32 Wissensitems anhand inhaltlicher und psychometrischer Kriterien ausgewählt. Konkret wurden zwei Items aus jedem der 16 Wissensbereiche gewählt, wobei eines der beiden Items von geringer bis mittlerer Schwierigkeit war (entwickelt für Personen ohne Schulabschluss, mit Hauptschul- oder Mittlerem Schulabschluss), das andere von hoher Schwierigkeit (entwickelt für Personen, die über die Hochschulreife verfügen bzw. diese anstreben). Die psychometrische Eignung der Items wurde anhand von Vorinformationen aus verschiedenen Erhebungen sichergestellt (Schipolowski, Schroeders & Wilhelm, 2008; Schroeders, Schipolowski & Wilhelm, 2010; Schroeders, Schipolowski, Nelles & Wilhelm, 2011).

2. Datenerhebung

Die 32 ausgewählten Wissensitems wurden im nächsten Schritt einer für die erwachsene Wohnbevölkerung der Bundesrepublik Deutschland repräsentativen Stichprobe zur Bearbeitung vorgelegt. Diese umfasst auch Personen mit Zuwanderungshintergrund, sofern sie die deutschsprachigen Fragen und Aufgaben verstehen und auf Deutsch beantworten konnten. Die Ziehung erfolgte mithilfe des ADM-Stichprobensystems F2F und resultierte in einer Stichprobe von 1206 Personen, die an der Erhebung teilnahmen. Im Anschluss wurden auf Basis des Zensus von GESIS Fallgewichte erstellt, um Repräsentativität für die o. g. Grundgesamtheit mit Blick auf Region (Ost- bzw. Westdeutschland), Geschlecht, Bildung und Alter zu gewährleisten. Grundlage der Gewichtung war ein reduzierter Datensatz von 1134 Fällen nach Ausschluss unbrauchbarer Datenpunkte sowie von Personen ohne deutsche Staatsbürgerschaft, um für die Gewichtung die Grundgesamtheit eindeutig zu definieren. Die gewichtete Stichprobe umfasst somit 1134 Erwachsene (52,2% weiblich) im Alter von 18 bis 93 Jahren (M = 52 Jahre, SD = 18 Jahre) aus dem gesamten Bundesgebiet.

Neben den Wissensitems wurden Indikatoren weiterer psychologischer Konstrukte vorgegeben, darunter der BFI-10 (Rammstedt & John, 2007) zur Erfassung der Big Five. Mit dem VOC-T (Ziegler, Kemper & Rammstedt, 2013) wurde zudem ein Maß für die Selbsteinschätzung des eigenen Wissens eingesetzt: Zu insgesamt 12 verschiedenen Begriffen aus den Natur-, Geistes- und Sozialwissenschaften sowie dem handwerklichen Bereich gaben die teilnehmenden Personen anhand einer Ratingskala an, wie vertraut sie mit dem jeweiligen Begriff oder Konzept sind. Des Weiteren wurden verschiedene soziodemographische Merkmale der Teilnehmerinnen und Teilnehmer erfasst, darunter Alter, Geschlecht, Schulabschluss, beruflicher Ausbildungsabschluss, berufliche Stellung und Haushaltsnettoeinkommen. Ergänzend wurde die Anzahl der Bücher im Elternhaus erfragt sowie die berufliche Stellung der Eltern, als der/die Teilnehmende 15 Jahre alt war.

Die Erhebung der Daten erfolgte durch geschulte Interviewerinnen und Inetrviewer, welche die Studienteilnehmerinnen und -teilnehmer zu vorab vereinbarten Terminen in ihren Wohnungen aufsuchten. Nach Abfrage der soziodemographischen Angaben und der Persönlichkeitsitems durch den Interviewer bearbeiteten die Testpersonen den gc-Test selbstständig am Notebook (CASI, Computer Assisted Self-Interview). Dabei wurden immer vier Fragen gleichzeitig auf dem Bildschirm dargestellt; um zur nächsten Bildschirmseite zu gelangen, musste die teilnehmende Person zunächst alle vier Fragen der aktuellen Seite beantworten (ggf. durch Raten). Für die Bearbeitung der 32 gc-Items war ein Zeitlimit von 10 Minuten vorgegeben. Bei Erreichen des Zeitlimits brach der Wissenstest automatisch ab.

Im Zuge der Aufbereitung der gewichteten Stichprobendaten wurden im ersten Schritt anhand der vorliegenden demographischen Angaben verschiedene Indizes gebildet, darunter die ISCED-97 (International Standard Classification of Education; UNESCO, 1997) als Index zur formalen Bildung und der ISEI (International Socio-Economic Index of Occupational Status; Ganzeboom, De Graaf & Treiman, 1992) als Index des sozioökonomischen Status. Die Bildung des ISEI wurde für die Teilnehmenden selbst sowie für deren Eltern durchgeführt; in letzterem Fall wurde für die weiteren Analysen der höchste der beiden elterlichen ISEI-Werte (HISEI) verwendet. Das Haushaltsnettoeinkommen wurde auch direkt erfragt und liegt im aufbereiteten Datensatz als Variable mit 24 Einkommenskategorien vor. Für die Skalen zu den psychologischen Konstrukten wurden Summen- oder Mittelwerte so gebildet, wie von den Autoren der jeweiligen Instrumente vorgeschlagen. Somit lag für die folgenden Analysen jeweils ein Wert für jede der fünf Big-Five-Dimensionen vor. Als Indikator des selbstberichteten Wissens wurde ein Gesamtwert über alle 12 Items des VOC-T genutzt, die sich auf real existierende Begriffe beziehen. Die Items zur Messung der kristallinen Intelligenz wurden zunächst in richtig beantwortet versus nicht richtig beantwortet rekodiert, anschließend wurde ein Summenwert über alle 32 Items berechnet.

Um Einschränkungen bei der Teststärke sowie Verzerrungen durch nicht zufällig fehlende Informationen zu minimieren, wurden fehlende Datenpunkte im Wissenstest sowie in allen Kovariaten imputiert (Lüdtke, Robitzsch, Trautwein & Köller, 2007). Der Anteil fehlender Werte bei den 32 Wissensitems betrug im Mittel pro Item 5.8% (SD = 7.0%, Spannweite 0.4% bis 20.8%); die vorliegenden Fallzahlen für die Kovariaten gehen aus der Ergebnistabelle hervor (vgl. Tabelle 2, Spalte Nvi). Speziell bei den Wissensitems, für die Datenpunkte fast ausschließlich aufgrund der Zeitbegrenzung – also nicht zufällig – fehlten, ermöglichte die Imputation eine Minimierung konstruktirrelevanter Varianz (etwa interindividuelle Unterschiede in mentaler Geschwindigkeit; Danthiir, Roberts, Schulze & Wilhelm, 2004). Konkret wurden fehlende Daten mittels multipler Imputation mit 100 Replikationen geschätzt. Das bedeutet, dass die berichteten Statistiken und Koeffizienten Mittelwerte über alle Replikationen sind. Bei der Ermittlung von Standardfehlern wurde die Streuung zwischen den Replikationen berücksichtigt.

3. Itemselektion

Auf Basis der oben beschriebenen Datenerhebung mit 32 Items wurde im nächsten Schritt eine Itemselektion für die gc-Kurzskala nach folgenden Kriterien vorgenommen:

  • Um einen flexiblen Einsatz der Kurzskala in der Umfrageforschung zu ermöglichen, sollte deren Bearbeitungszeit bei 5 Minuten liegen. Dies entspricht der geschätzten Bearbeitungszeit von 12 Items.
  • Zur bestmöglichen Erhaltung der inhaltlichen Breite der Wissensmessung sollte einerseits die Dreiteilung in natur-, geistes- und sozialwissenschaftliches Wissen beibehalten werden, andererseits sollten möglichst viele der 16 Wissensbereiche der Gesamtskala auch in der Kurzskala enthalten sein.
  • Um Boden- und Deckeneffekte zu minimieren, sollten die ausgewählten Items einen großen Schwierigkeitsbereich abdecken. Die relative Lösungshäufigkeit sollte jedoch stets oberhalb der Ratewahrscheinlichkeit von .25 liegen.
  • Ein einfaktorielles Messmodell sollte gute Modellpassung und Itemladungen (Trennschärfen) von .50 oder höher ausweisen. In keinem Fall sollten Ladungen < .30 auftreten.
  • Die Kurzskala sollte ähnliche Beziehungen zu Personen- und Umweltmerkmalen sowie anderen psychologischen Konstrukten aufweisen wie die Gesamtskala.
  • Nach erfolgter Itemselektion wurde für die Kurzskala mit 12 Items ebenfalls ein Summenwert berechnet. Werden die entsprechenden Summenwerte herangezogen, korreliert die Kurzskala mit 12 Items mit der 32 Items umfassenden Gesamtskala zu r = .91.