Gütekriterien empirischer Forschung

Quellen:
https://www.stangl-taller.at/
TESTEXPERIMENT/testguetekriterien.html (03-12-17)
http://www.hilbrands.de/studium/
forschungsmethodik/006.htm (00-12-13)

Lienert, Gustav A. (1989). Testaufbau und Testanalyse. München: PsychologieVerlagsUnion.

Mit der Quantifizierung von relevanten Untersuchungsmerkmalen bei Fragebögen, Tests oder Beobachtungen wird in der Forschung das Ziel verfolgt, die Vergleichbarkeit von Daten sicher zu stellen und sie statistischen Auswertungsverfahren im Hinblick auf mögliche Vergleiche und Abhängigkeiten zugänglich zu machen. Mit der Transformation in quantitative Größen wird auch ein Rationalisierungseffekt angestrebt, da auf diese Weise auch umfangreiches Datenmaterial auf seinen Kern reduziert werden kann. Um die hierfür erforderliche Vergleichbarkeit überprüfen zu können, wurden Gütekriterien entwickelt, wobei diese nach gängiger Auslegung um so höher sind, je besser eine Standardisierung von Untersuchungsinhalt, -ablauf und -situation realisiert werden kann.

Nach Lienert (1989) unterscheidet man bei empirischen Untersuchungen Haupt- und Nebengütekriterien. Hauptkriterien sind die Objektivität, die Reliabilität und die Validität, Nebengütekriterien sind die Ökonomie (Wirtschaftlichkeit), Nützlichkeit, Normierung und Vergleichbarkeit von empirischen Untersuchungen. Weist eine Untersuchung diese Gütekriterien nicht auf, fehlen die wissenschaftlich überprüften Grundlagen und notwendigen Kontrolluntersuchungen.

Objektivität
ist das Ausmaß, in dem ein Untersuchungsergebnis in Durchführung, Auswertung und Interpretation vom Untersuchungsleiter nicht beeinflusst werden kann, bzw. wenn mehrere zu übereinstimmenden Ergebnissen kommen. Weder bei der Durchführung noch bei der Auswertung und Interpretation dürfen also verschiedene Experten verschiedene Ergebnisse erzielen. Die Durchführungsobjektivität fordert, dass das Untersuchungsergebnis vom Anwender unbeeinflusst bleibt. Die Interpretationsobjektivität fordert, dass individuelle Deutungen nicht in die Interpretation eines Ergebnisses miteinfließen dürfen. Ein nicht untypisches Beispiel für einen Verstoß gegen dieses Testgütekriterium ist z.B. ein Test auf Schulreife: Ein mit der Durchführung betrauter Lehrer lässt es aus missverstandener Humanität zu, dass die Mütter im Raum bei den Kindern bleiben.
Reliabilität (Zuverlässigkeit)
gibt die Zuverlässigkeit einer Messmethode an. Eine Untersuchung wird dann als reliabel bezeichnet, wenn es bei einer Wiederholung der Messung unter denselben Bedingungen und an denselben Gegenständen zu demselben Ergebnis kommt. Sie lässt sich u.a. durch eine Untersuchungswiederholung (Retest-Methode) oder einen andere, gleichwertige Untersuchung ermitteln (Paralleltest-Methode). Das Maß ist der Reliabilitätskoeffizient und definiert sich aus der Korrelation der beiden Untersuchungen.
Bildlich gesagt: Wenn man mit einer Kanone ein Ziel anvisiert und die Kanonenkugel zwar nicht das Ziel treffen, aber immer an der gleichen Stelle einschlagen, dann besitzt das Instrumentarium eine hohe Reliabilität.
Validität (Gültigkeit)
ist das wichtigste Testgütekriterium, denn es gibt den Grad der Genauigkeit an, mit dem eine Untersuchung das erfasst, was sie erfassen soll (z.B. Persönlichkeitsmerkmale oder Verhaltensweisen). Die Überprüfung der Gültigkeit wird mithilfe der Korrelation mit einem Außenkriterium vorgenommen.
Man unterscheidet verschiedene Arten von Validität:
- Konstruktvalidität: Konstruktvalidität liegt vor, wenn Messungen das erfassen, was sie erfassen sollen (wird ein Konstrukt nur aus hoher Korrelation erschlossen, dann Konstruktvalidität=Reliabilität). Werden aus einem Konstrukt Hypothesen abgeleitet, dann bedeutet eine hohe Konstruktvalidität die gute empirische Bestätigung dieser Hypothesen. Eine geringe Konstruktvalidität spricht nicht unbedingt gegen die Messung, sie kann auch gegen das Konstrukt an sich sprechen. Diese Form der Validität setzt also gesichertes Wissen um das Konstrukt voraus, also Kenntnis der zugehörigen Theorien und der einschlägigen Befunde. Für die Validität eines Aggressivitätstests kann es z. B. sprechen, wenn Männer höhere Werte erzielen als Frauen und wenn junge Männer (etwa 20jährige) höhere Werte aufweisen als ältere (etwa 40jährige); denn im allgemeinen sind Aggressivitäten in unserem Kulturbereich bei jungen Männern deutlich ausgeprägter als bei Frauen und älteren Männern (nachweisbar in den Kriminalstatistiken). Die Ergebnisse einer Testkonstruktion müssen letztlich also mit dem Gesamtwissen zum Konstrukt übereinstimmen.
  Als ein besonderes Verfahren zur Bestimmung der Konstruktvalidität gilt die Faktorenanalyse: Mit Hilfe aufwändiger Rechenverfahren wird ermittelt, welche Testaufgaben "zusammengehören", also in etwa das gleiche erfassen. Es bilden sich gleichsam Klumpen von Testaufgaben. Gewöhnlich ist es nicht einmal sonderlich schwer, solche Klumpen (Faktoren) zu interpretieren; man sieht z. B., dass unter vielen (Intelligenz-)Aufgaben jene, die den Umgang mit Zahlen verlangen, einen besonderen Faktor bilden; sie werden künftighin als "zahlengebundenes Denken" in einem Teiltest zusammengefasst. Faktorenanalysen werden einerseits vom theoretischen Vorwissen der Forscher gesteuert; andererseits wird dieses durch die empirisch ermittelten Faktoren ergänzt oder gar korrigiert. Gerade auch beim Einsatz von Computern müssen viele subjektive Entscheidungen getroffen werden, denn es stehen z. B. viele Varianten von Faktorenanalysen zur Verfügung.
  Ein Beispiel für hohe Konstruktvalidität ist etwa das Milgram-Experiment. Bei diesem Experiment wurden Personen zum Lehrer ernannt und sollten einen Schüler bestrafen, wenn dieser auf eine gestellte Frage eine falsche Antwort gab. Dabei wurden die Versuchspersonen nicht über den eigentlichen Grund des Experimentes aufgeklärt. Die Bestrafung erfolgte mittels Elektroschocks von 5 Volt bis 400 Volt. Der Lehrer (die Versuchsperson) konnte den Schüler zwar nicht sehen, aber hören. Dabei wurde dem Schüler nicht wirklich Schaden zugefügt. Dieses Experiment sollte die Gehorsamkeit von Menschen unter einer gewissen Autorität messen. Die unabhängige Variable war die Autorität, die eindeutig durch die Voltzahl gemessen werden konnte. Die Frage war: Wann (bei welcher Voltzahl) bricht eine Versuchsperson das Experiment ab. So kann man sagen: Je höher die vltzahl, desto gehorsamer ist die Vp. Nebenbei bemerkt wurde das Experiment in Deutschland, USA und Israel mit erschreckendem Ergebnis durchgeführt: In allen Ländern wurde das Experiment von 85% der Vp bis zum Schluss durchgeführt. Dabei gab der Schüler bei den höheren Voltzahlen (ca. ab 350 Volt) keine Schreie mehr von sich. Nahezu alle Vp waren davon überzeugt, dass sie tatsächlich einen Menschen gefoltert hatten.
  
  Ein hervorragender Überblick über das Konzept der Konstruktvalidität mit zahlreichen Beispielen findet sich bei Bernhard Jacobs!
- Kriteriumsvalidität: Kriteriumsvalidität ist ein spezieller Aspekt der Konstruktvalidität. Kriteriumsvalidität liegt vor, wenn die Messungen mit einer anderen konstruktvaliden Messung (dem Kriterium) hoch korrelieren. Wird die Konstruktvalidität nur über die Kriteriumsvalidität definiert, besteht die Gefahr eines Zirkelschlusses (Test A ist valide, weil er mit Test B korreliert, der mit Test C korreliert, der mit Test A korreliert); betrachtet man es aber so, dass alle Tests konstruktkonform miteinander korrelieren (nomologisches Netzwerk), dann ist dies ein stärkerer Validitätsnachweis als eine paarweise Validierung von Messungen. Ein Test soll Depression messen. Diesen Test wendet man bei Personen an, die nachweislich eine Depression haben. Dann wird geprüft, wie genau diese Testergebnisse mit anderweitig ermittelten Bewertungen übereinstimmen (z.B. mit der Einschätzung durch Psychotherapeuten).
  Üblicherweise werden vier Formen der Kriteriumsvalidität unterschieden:
  - Konvergente Validität meint, dass bei mehreren alternativen Kriterien, von denen aber nur einige eine hohe Konstruktvalidität haben, die Messung hoch mit den Kriterien hoher Validität korreliert.
  - Diskriminante Validität meint, dass bei mehreren alternativen Kriterien, von denen nur bestimmte eine hohe Konstruktvalidität haben, die Messung niedrig mit den Kriterien niedriger Validität korreliert und hoch mit denen hoher Validität.
  - Konkurrente Validität meint, dass Messung und Kriterium gleichzeitig erhoben werden.
  - Vorhersage-, Prognostische, Prädiktive Validität meint, dass das Kriterium nach der Messung erhoben wird, d.h. die Messung soll das Kriterium vorhersagen. Wenn ein Flugschüler im Flugsimulator sicher ein Flugzeug beherrscht, wird er dies in vielen Fällen dann auch in der Realität können.
- Inhaltsvalidität: Inhaltsvalidität ist eigentlich ein spezieller Aspekt der Konstruktvalidität. Sie liegt vor, wenn die durch Messungen erfassten Inhalte denjenigen Inhalt darstellen, der gemessen werden soll. Die Inhaltsvalidität lässt sich formal nur prüfen, wenn die Gesamtheit der zu messenden Inhalte bekannt ist, was aber eher selten der Fall ist. Wird meist bei einfachen Tests verwendet - zum Beispiel bei einem Wissenstest oder Rechtschreibtest. Inhaltsvalidität wird dann angenommen, wenn die einzelnen Testaufgaben nach Ansicht von Experten eine gute Stichprobe aller möglichen Aufgaben bilden. Ein Rechentest für das 3. Schuljahr ist valide, wenn die Aufgaben etwa den Unterrichtsstoff dieses Jahrgangs gut repräsentieren.
- Ökologische Validität: Eine psychologische Ergebungs- oder Beobachtungsmethode ist in dem Maße für eine Person (Personengruppe) ökologisch valide, in dem die mit dieser Methode eingeführten S-Bedingungen (S steht für Stimulus bzw. Reiz) eine unverzerrte Stichprobe der in der Grundgesamtheit aller Lebensbedingungen dieser Person (Personengruppe) repräsentierten S-Bedingungen sind. Die Methode ist für eine Person (Personengruppe) ökologisch invalide, wenn die eingeführten S-Bedingungen im betreffenden Biotop nicht oder nur selten in dieser Kombination repräsentiert sind. (Pawlik, 1976, S.60)

Es wird gerne betont, die Validität gebe es nicht, es gebe vielmehr recht verschiedene Arten von Validitätsbestimmungen. Das ist sicher richtig, aber gemeinsam ist ihnen: Validitäts- oder Gültigkeitsmaße geben den Grad der Genauigkeit an, mit der ein Verfahren misst, was es zu messen vorgibt. Ein Intelligenztest trägt seinen Namen nur dann zu Recht oder ist nur dann valide, wenn er Intelligenzleistungen und nicht in erster Linie etwa das "Sitzfleisch" misst; ein Intelligenztest für Schulanfänger kann kaum valide sein, wenn er Kindern ohne ausreichende Pause 3 oder 4 Stunden lang konzentrierte Arbeit abverlangt. Ein Test muss also inhaltlich "zutreffen"; wie aber will man das bestimmen? Denn es ist lar, dass der Name "Intelligenz" (ebenso wie "Aggressivität", "Angstlichkeit", "Überichstärke" etc.) ein sog. Konstrukt bezeichnet; Konstrukte sind Begriffe, die mehr oder weniger als theoretisch sinnvoll erscheinen; das Bezeichnete kann aber nicht direkt beobachtet, vielmehr nur aus Indikatoren erschlossen werden. Konstrukte gelten im Rahmen der Theoriebildung als nützliche Annahmen.

Im Grunde ist es das alte Problem der "Wahrheit" von Aussagen, das sich im Validitätskonzept versteckt: Sind Behauptungen zutreffend? Hier: Verdient z. B. ein Test, der als "Intelligenztest" verkauft wird, diesen Namen?

Psychologisch wichtiger sind zunächst die "empirischen Validitäten", d. h. die Übereinstimmungs- und Vorhersagevalidität. Die erste prüft man, indem man die Ergebnisse mit Kriteriumswerten korreliert; so könnte man die Validität eines Rechentests für das 3. Schuljahr durch die Korrelation der Testergebnisse mit den Lehrerurteilen (als sog. Außenkriterium) ausdrücken. Eine Vorhersagevalidität zu bestimmen liegt z. B. bei der Konstruktion eines Schulreifetests nahe: Nach der Testerhebung sollte man mindestens bis zum Ende des ersten Schuljahres warten, um dann die Korrelation zwischen Testresultaten und Schulleistungen zu beurteilen. Valide ist der Test, wenn die Korrelation hoch ausfällt.

Die Beispiele machen deutlich, dass die Validitätsbestimmung mit Hilfe eines sog. Außenkriteriums meist fragwürdig ist, denn die Außenkriterien (wie z. B. das Lehrerurteil) sind oft selbst problematisch, d.h., nicht valide zu erfassen. Vor allem bei Intelligenztests wird zur Validierung eines neuen Tests gern ein bereits bewährter Test als Kriterium herangezogen. Grundsätzliche Zweifel sind somit an allen Verfahren zur Validitätsbestimmung angebracht. Eine befriedigende Reduzierung der Expertenwillkür ist nur durch wechselseitige konstruktive Kritik möglich, wie sie im wissenschaftlichen Diskurs üblich ist.

Neben der praktischen Relevanz wissenschaftlicher Forschung - also der prinzipiellen Möglichkeit des gesellschaftlichen Nützlichmachens wissenschaftlicher Erkenntnisse, unter Absehung von den Wertcharakteristika der Zwecke, für die diese eingesetzt werden - wird der Gesichtspunkt der interessenbezogenen Bedeutsamkeit ins Feld geführt. Von bestimmten ethischen und gesellschaftstheoretischen Werten und Zielvorstellungen ausgehend kann die Anwendung/Verwertung wissenschaftlicher Erkenntnisse hinsichtlich ihrer Nützlichkeit für bestimmte Interessen bzw. Interessenten beurteilt werden. Für den human- und sozialwissenschaftlichen Bereich lässt sich dies etwa an der Gegenüberstellung deutlich machen: Dienen Forschungsergebnisse der "Fremdbestimmung" bzw. Manipulation sozialer (Abhängigkeits-) Verhältnisse im Sinne beliebiger (etwa "herrschender") Interessen/Interessenten? Oder erlauben sie eine Selbstaufklärung der Objekte/Subjekte in Bezug auf deren Lebensbedingungen und fördern eine verstärkte Selbstverfügung darüber (Ermöglichung von Selbstreflexion, Selbstentwicklung, Erweiterung von Eigenverfügung über Handlungsmöglichkeiten)? Auch diesem Kriterium ist offensichtlich durch "intentionales Forscherhandeln" - trotz vielerlei ("parteilicher") Bemühungen in den Sozialwissenschaften v.a. der siebziger und achtziger Jahre - nicht oder nur bedingt bzw. nur unter bestimmten Umständen beizukommen.

Inhaltsübersicht Forschungsmethoden der Psychologie und Pädagogik

inhalt :::: nachricht :::: news :::: impressum :::: datenschutz :::: autor :::: copyright :::: zitieren ::::

navigation: