Themenbereich 17: Testgütekriterien

Zur Themenübersicht

Zum Einstieg


1. Video-Tutorials

In einer Videoaufzeichnung der Sitzung 7 befasst sich Dr. Tobias C. Haupt (LMU München) im Rahmen seiner Lehrveranstaltung "Psychologische Testtheorien" (SS 2007) als Einstieg in die Thematik der Gütekriterien in Kapitel 8 mit der Objektivität und deren verschiedene Arten bzw. Formen.
 

 

Im folgenden zweiteiligen Video (8:15 & 10:46 Min.) von Dipl. Psych. Eskil Burck, u.a. Produzent von Videos und Audio-Podcasts im Bereich Psychologie, wird ein Einstieg und Überblick zum Testgütekriterium der Reliabilität gegeben. Dabei werden vier gängige Verfahren zur Bestimmung der Reliabilität (Retest-, Paralleltest-, Split-Half-Reliabilität & interne Konsistenz) anhand von Beispielen erläutert und jeweils deren Vor- und Nachteile aufgezeigt.
 

 

Im folgenden Video (16:35 Min.) von Dipl. Psych. Eskil Burck, u.a. Produzent von Videos und Audio-Podcasts im Bereich Psychologie, wird ein Einstieg und Überblick zum Testgütekriterium der Validität gegeben. Dabei wird erläutert, was genau Validität als Testgütekriterium bezeichnet, wie man die Validität eines Messinstrumentes (z.B. Test, Fragebogen, etc.) überprüfen kann, und wann welche dieser Validierungsmethoden eingesetzt werden kann bzw. sollte.
 


Nach oben

2. Online-Lernangebote und -ressourcen

Auf folgenden Internetseiten finden Sie einführende Online-Lernangebote zum Thema "Testgütekriterien":

  • Auf der Webseite "Methoden der Entwicklungspsychologie - Datenerhebung und Datenauswertung" von Prof. Dr. Günter Daniel Rey (TU Chemnitz) wird im Kapitel "Gütekriterien" ein Überblick über die Haupt- und Nebengütekriterien als Mittel zur Beurteilung der Qualität verschiedener Datenerhebungsformen gegeben. Dabei wird zunächst auf die Korrelation eingegangen, auf deren Berechnung viele statistische Kennwerte basieren, die zur Bestimmung von Testgütekriterien herangezogen werden. Anschließend werden die Hauptgütekriterien und deren Teilaspekte jeweils erläutert sowie weitere Nebengütekriterien aufgeführt. Eine Zusammenfassung inkl. Mind Map und einem Selbsttest zur Überprüfung des Gelernten runden dieses Lernangebot ab.
  • In ihrem Text "Zur Bestimmung der Güte von Multi-Item-Skalen: Eine Einführung" (2004) aus der How-To-Reihe des Zentrums für Umfragen, Methoden und Analysen (jetzt GESIS "Survey Design and Methodology") stellt Prof. Dr. Beatrice Rammstedt (Universität Mannheim) die drei Hauptgütekriterien Objektivität, Reliabilität und Validität anschaulich dar und zeigt Möglichkeiten zur empirischen Bestimmung des jeweiligen Gütekriteriums - z.B. mittels SPSS - auf. In Form einer Checkliste wird zudem das minimale(!) erforderliche Vorgehen zur Bestimmung der Qualität von Skalen aufgelistet.
  • Das Skript (15 Folien) zur Lehrveranstaltung "Testtheorie und Testkonstruktion" von Johannes Hartig und Nina Jude (siehe auch www.testkonstruktion.de) geht auf einige Grundlagen zur Objektivität und Validität ein und erläutert v.a. verschiedene Validitätsaspekte und Methoden zu deren Bestimmung.
     

Nach oben

3. Fachliteratur (Lehrbücher & Artikel)

Mit Hilfe der folgenden Fachliteratur kann man sich in die Grundlagen zum Thema "Testgütekriterien" einarbeiten:

  • Bühner, M. (2021). Einführung in die Test- und Fragebogenkonstruktion (4. Aufl.). München: Pearson. (Kap. 8)
  • Moosbrugger, H. & Kelava, A. (2020). Testtheorie und Fragebogenkonstruktion (3. Aufl.). Berlin: Springer. (Kap. 2, verfügbar per Campuslizenz)

Nach oben

4. Anwendung in Datenanalysesoftware

Das folgende Video (11:13 Min.) von Prof. Dr. Todd L. Grande (Wilmington University, USA) zeigt, wie sich die  Split-Half-Reliabilität und der Spearman-Brown-Koeffizient als Maße der Inter-Item-Reliabilität in SPSS berechnen lassen und wie die erhaltenen Ergebnisse zur Überprüfung der Messgenauigkeit eines Tests bzw. einer Skala genutzt werden können.
 

 

Einen ersten Einstieg in gängige Verfahren, die sich zur Überprüfung der Testgütekriterien mit Hilfe von SPSS durchführen lassen, liefert z.B. folgende Literatur:

  • Bühner, M. (2021). Einführung in die Test- und Fragebogenkonstruktion (4. Aufl.). München: Pearson. (Kap. 4.6 & 8.1)
  • Tachtsoglou & König (2017). Statistik für Erziehungswissenschaftlerinnen und Erziehungswissenschaftler: Konzepte, Beispiele und Anwendungen in SPSS und R. Wiesbaden: Springer VS. (Kap. 8.6, verfügbar per Campuslizenz)

Für weitere Hinweise zur Anwendung in Datenanalysesoftware - v.a. zur Bestimmung der Reliabilität (z.B. mittels Cronbach`s alpha) - siehe auch: Themenbereich 15 "Item- und Skalenanalyse"


Mit Hilfe des SPSS-Makros "ALPHAMAX" von Prof. Dr. Andrew F. Hayes (Department of Psychology, The Ohio State University, Columbus, USA) lassen sich aus einer Menge von k Items (einer Skala) alle theoretisch möglichen Kurzformen (mit mind. zwei Items) generieren und anhand verschiedener Kennwerte (Cronbach`s alpha, Kurz-Langform-Korrelation, Itemanalyse-Statistiken, etc.) beurteilen, um somit die psychometrisch am besten geeignetste Kurzform konstruieren zu können.
 

Die in der folgenden Wiedergabeliste zusammengefassten 3 Videos (ca. 7 - 10 Min.) von Prof. Dr. Todd L. Grande (Wilmington University, USA) geben einen guten Überblick über die gängigen Verfahren zur Berechnung der Beurteilerübereinstimmung bzw. Interraterreliabilität (in SPSS) als einem wichtigen Objektivitätsmaß (≠ Reliabilität!). Dabei wird die Bestimmung der Interraterreliabilität mittels Cohen`s Kappa sowie über den Intraklassen-Korrelationskoeffizienten (ICC) demonstriert und deren spezifische Anwendung - hinsichtlich des zu wählenden Modells und Typs - praktisch erläutert.
 

 

Der Artikel "Computing Inter-Rater Reliability for Observational Data: An Overview and Tutorial" (2012, Vol. 8, 1) von Kevin A. Hallgren (Department of Psychiatry and Behavioral Sciences, University of Washington, Seattle, USA) gibt einen guten Überblick über verschiedene statistische Maßezur Bestimmung der Interraterreliabilität (Cohen`s Kappa; ICC) sowie deren Berechnung, Interpretation und Präsentation. Die Anwendung mittels SPSS (oder R) wird zudem durch begleitende Beispiele inklusive der jeweiligen Programmsyntax ermöglicht. Hinweis: siehe auch Erratum in Vol. 9, 2, p.95!


Mit Hilfe des SPSS-Makros "KALPHA" von Prof. Dr. Andrew F. Hayes (Department of Psychology, The Ohio State University, Columbus, USA) und Prof. Dr. Klaus Krippendorff (Annenberg School for Communication at the University of Pennsylvania, USA) lässt sich für subjektive Beurteilungen einer beliebigen Anzahl von Beurteilern/Ratern und für jedes Messniveau - mit oder ohne fehlende Werte - Krippendorf`s alpha als Maß für die Interraterreliabilität berechnen.


In einem FAQ-Beitrag des "Institute for Digital Research and Education (idre)" der UCLA Statistical Consulting Group wird die Frage beantwortet, wie sich Kappa zur Bestimmung der Beurteilerübereinstimmung in SPSS berechnen lässt, wenn die Beurteiler einen ungleichen Wertebereich/-range aufweisen, d.h. wenn z.B. ein Beurteiler eine der Beurteilungskategorien überhaupt nicht vergeben hat. Eine mögliche Lösung für dieses Problem (Gewichtung der Beobachtungen/Fälle) wird anhand eines einfachen Beispiels und der entsprechenden SPSS-Syntax veranschaulicht.


Nach oben

Zur Vertiefung


1. Video-Tutorials

In einer Videoaufzeichnung seiner Lehrveranstaltung "Psychologische Testtheorien" (SS 2007) befasst sich Dr. Tobias C. Haupt (LMU München) in den Sitzungen 7 bis 11 sehr ausführlich mit den drei Hauptgütekriterien (Objektivität, Reliabilität, Validität) und behandelt dabei spezifische Teilaspekte jeweils im Detail.
 

 

In den drei Videos (ca. 10 - 15 Min.) der folgenden Wiedergabeliste befasst sich Prof. Dr. Joseph Johnson (Department of Psychology, Miami University, Oxford, USA) im Rahmen seiner Lehrveranstaltung "Research Design and Analysis in Psychology I" vertieft mit den Konzepten der Reliabilität und Validität. Dabei geht er zum einen auf die unterschiedlichen Aspekte der beiden Gütekriterien ein und setzt diese zum anderen in Verbindung miteinander, um ihre Zusammenhänge aufzuzeigen.
 

 

Im folgenden Video (20:36 Min.) von Dipl. Psych. Eskil Burck, u.a. Produzent von Videos und Audio-Podcasts im Bereich Psychologie, wird die Multitrait-Multimethod-Analyse (MTMM) nach Campbell & Fiske (1959) vorgestellt und anhand eines fiktiven Beispiels aufgezeigt, inwiefern sich diese zur Überprüfung der Konstruktvalidität eines Instrumentes einsetzen lässt.
 
 


Nach oben

2. Online-Lernangebote und -ressourcen

Auf folgenden Internetseiten finden Sie weiterführende Online-Lernangebote bzw. -ressourcen zum Thema "Testgütekriterien":

  • Im online frei verfügbaren "Data Science Textbook" - ehemals "Electronic Statistics Textbook" von StatSoft, einem US-amerikanischen Software-Hersteller (z.B. Datenanalyse-Software STATISTICA) - findet sich unter der Rubrik "Reliability and Item Analysis" eine umfassende Beschreibung des Konzeptes der Reliabilität von (sozialwissenschaftlichen) Messungen. Dabei werden nach einer kurzen Einführung u.a. grundlegende Aspekte, das klassische Testmodell, die Definition von Reliabilität, Cronbach`s Alpha, Split-Half-Reliabilität, und schließlich die einzelnen Schritte zur Konstruktion bzw. Überprüfung einer reliablen Skala dargestellt.
  • Im Arbeitspapier "Reliabilität – die Genauigkeit einer Messung" (2015, GESIS Survey Guidelines) von Dr. Daniel Danner (GESIS – Leibnitz Institut für Sozialwissenschaften) wird das Konzept der Reliabilität definiert und erläutert, warum die Reliabilität einer Messung von Bedeutung ist. Nach einer Diskussion von Modellannahmen zur Reliabilitätsschätzung stellt der Beitrag fünf verschiedene Schätzmethoden vor und geht schließlich noch kurz auf Gemeinsamkeiten bzw. Unterschiede der CTT & IRT und deren Bedeutung für die Schätzung der Reliabilität ein.
  • Auf seiner (persönlichen) Homepage bietet Prof. Dr. Deen Freelon (School of Communication, American University, Washington DC, USA) mit ReCal ("Reliability Calculator") ein modularisiertes Online-Tool zur Berechnung der Beurteilerübereinstimmung bzw. Interraterreliabilität als einem wichtigen Objektivitätsmaß (≠ Reliabilität!) an. Die 3 ReCal-Module ermöglichen dabei jeweils die Ausgabe verschiedenster Koeffizienten (z.B. Scott’s pi, Cohen’s kappa, Krippendorff’s alpha, Fleiss’ kappa, pairwise Cohen’s kappa, sowie ordinal, interval, & ratio Krippendorff’s alpha) und sind kompatibel mit Excel, SPSS, STATA, OpenOffice, Google Docs, u.ä. Dateiformaten.

Nach oben

3. Fachliteratur (Lehrbücher & Artikel)

Die folgende Fachliteratur kann empfohlen werden, um sich mit weiterführenden Fragen zum Thema "Testgütekriterien" zu befassen:

  • Lienert, G. A. & Raatz, U. (1998). Testaufbau und Testanalyse (6. Aufl.). Weinheim: Beltz. (Kap. 10 - 12, verfügbar per Campuslizenz)
  • Moosbrugger, H. & Kelava, A. (2020). Testtheorie und Fragebogenkonstruktion (3. Aufl.). Berlin: Springer. (Kap. 14, 15 & 21, verfügbar per Campuslizenz)

Nach oben

Zur Startseite