Gütekriterien empirischer Forschung
http://www.stangl-taller.at/
TESTEXPERIMENT/testguetekriterien.html (03-12-17)
http://www.hilbrands.de/studium/
forschungsmethodik/006.htm (00-12-13)
Lienert, Gustav A. (1989). Testaufbau und Testanalyse. München: PsychologieVerlagsUnion.
Nach Lienert (1989) unterscheidet man bei empirischen Untersuchungen Haupt- und Nebengütekriterien. Hauptkriterien sind die Objektivität, die Reliabilität und die Validität, Nebengütekriterien sind die Ökonomie (Wirtschaftlichkeit), Nützlichkeit, Normierung und Vergleichbarkeit von empirischen Untersuchungen. Weist eine Untersuchung diese Gütekriterien nicht auf, fehlen die wissenschaftlich überprüften Grundlagen und notwendigen Kontrolluntersuchungen.
- Objektivität
ist das Ausmaß, in dem ein Untersuchungsergebnis in Durchführung, Auswertung und Interpretation vom Untersuchungsleiter nicht beeinflusst werden kann, bzw. wenn mehrere zu übereinstimmenden Ergebnissen kommen. Weder bei der Durchführung noch bei der Auswertung und Interpretation dürfen also verschiedene Experten verschiedene Ergebnisse erzielen. Die Durchführungsobjektivität fordert, dass das Untersuchungsergebnis vom Anwender unbeeinflusst bleibt. Die Interpretationsobjektivität fordert, dass individuelle Deutungen nicht in die Interpretation eines Ergebnisses miteinfließen dürfen. Ein nicht untypisches Beispiel für einen Verstoß gegen dieses Testgütekriterium ist z.B. ein Test auf Schulreife: Ein mit der Durchführung betrauter Lehrer lässt es aus missverstandener Humanität zu, dass die Mütter im Raum bei den Kindern bleiben. - Reliabilität (Zuverlässigkeit)
gibt die Zuverlässigkeit einer Messmethode an. Eine Untersuchung wird dann als reliabel bezeichnet, wenn es bei einer Wiederholung der Messung unter denselben Bedingungen und an denselben Gegenständen zu demselben Ergebnis kommt. Sie lässt sich u.a. durch eine Untersuchungswiederholung (Retest-Methode) oder einen andere, gleichwertige Untersuchung ermitteln (Paralleltest-Methode). Das Maß ist der Reliabilitätskoeffizient und definiert sich aus der Korrelation der beiden Untersuchungen.
Bildlich gesagt: Wenn man mit einer Kanone ein Ziel anvisiert und die Kanonenkugel zwar nicht das Ziel treffen, aber immer an der gleichen Stelle einschlagen, dann besitzt das Instrumentarium eine hohe Reliabilität. - Validität (Gültigkeit)
ist das wichtigste Testgütekriterium, denn es gibt den Grad der Genauigkeit an, mit dem eine Untersuchung das erfasst, was sie erfassen soll (z.B. Persönlichkeitsmerkmale oder Verhaltensweisen). Die Überprüfung der Gültigkeit wird mithilfe der Korrelation mit einem Außenkriterium vorgenommen.
Man unterscheidet verschiedene Arten von Validität:- Konstruktvalidität: Konstruktvalidität liegt vor, wenn Messungen das erfassen, was sie erfassen sollen (wird ein Konstrukt nur aus hoher Korrelation erschlossen, dann Konstruktvalidität=Reliabilität). Werden aus einem Konstrukt Hypothesen abgeleitet, dann bedeutet eine hohe Konstruktvalidität die gute empirische Bestätigung dieser Hypothesen. Eine geringe Konstruktvalidität spricht nicht unbedingt gegen die Messung, sie kann auch gegen das Konstrukt an sich sprechen. Diese Form der Validität setzt also gesichertes Wissen um das Konstrukt voraus, also Kenntnis der zugehörigen Theorien und der einschlägigen Befunde. Für die Validität eines Aggressivitätstests kann es z. B. sprechen, wenn Männer höhere Werte erzielen als Frauen und wenn junge Männer (etwa 20jährige) höhere Werte aufweisen als ältere (etwa 40jährige); denn im allgemeinen sind Aggressivitäten in unserem Kulturbereich bei jungen Männern deutlich ausgeprägter als bei Frauen und älteren Männern (nachweisbar in den Kriminalstatistiken). Die Ergebnisse einer Testkonstruktion müssen letztlich also mit dem Gesamtwissen zum Konstrukt übereinstimmen.
Als ein besonderes Verfahren zur Bestimmung der Konstruktvalidität gilt die Faktorenanalyse: Mit Hilfe aufwändiger Rechenverfahren wird ermittelt, welche Testaufgaben "zusammengehören", also in etwa das gleiche erfassen. Es bilden sich gleichsam Klumpen von Testaufgaben. Gewöhnlich ist es nicht einmal sonderlich schwer, solche Klumpen (Faktoren) zu interpretieren; man sieht z. B., dass unter vielen (Intelligenz-)Aufgaben jene, die den Umgang mit Zahlen verlangen, einen besonderen Faktor bilden; sie werden künftighin als "zahlengebundenes Denken" in einem Teiltest zusammengefasst. Faktorenanalysen werden einerseits vom theoretischen Vorwissen der Forscher gesteuert; andererseits wird dieses durch die empirisch ermittelten Faktoren ergänzt oder gar korrigiert. Gerade auch beim Einsatz von Computern müssen viele subjektive Entscheidungen getroffen werden, denn es stehen z. B. viele Varianten von Faktorenanalysen zur Verfügung.
Ein Beispiel für hohe Konstruktvalidität ist etwa das
Milgram-Experiment. Bei diesem Experiment wurden Personen zum Lehrer ernannt und sollten einen Schüler bestrafen, wenn dieser auf eine gestellte Frage eine falsche Antwort gab. Dabei wurden die Versuchspersonen nicht über den eigentlichen Grund des Experimentes aufgeklärt. Die Bestrafung erfolgte mittels Elektroschocks von 5 Volt bis 400 Volt. Der Lehrer (die Versuchsperson) konnte den Schüler zwar nicht sehen, aber hören. Dabei wurde dem Schüler nicht wirklich Schaden zugefügt. Dieses Experiment sollte die Gehorsamkeit von Menschen unter einer gewissen Autorität messen. Die unabhängige Variable war die Autorität, die eindeutig durch die Voltzahl gemessen werden konnte. Die Frage war: Wann (bei welcher Voltzahl) bricht eine Versuchsperson das Experiment ab. So kann man sagen: Je höher die vltzahl, desto gehorsamer ist die Vp. Nebenbei bemerkt wurde das Experiment in Deutschland, USA und Israel mit erschreckendem Ergebnis durchgeführt: In allen Ländern wurde das Experiment von 85% der Vp bis zum Schluss durchgeführt. Dabei gab der Schüler bei den höheren Voltzahlen (ca. ab 350 Volt) keine Schreie mehr von sich. Nahezu alle Vp waren davon überzeugt, dass sie tatsächlich einen Menschen gefoltert hatten.
Ein hervorragender Überblick über das Konzept der Konstruktvalidität mit zahlreichen Beispielen findet sich bei Bernhard Jacobs! - Kriteriumsvalidität: Kriteriumsvalidität ist ein spezieller Aspekt der Konstruktvalidität. Kriteriumsvalidität liegt vor, wenn die Messungen mit einer anderen konstruktvaliden Messung (dem Kriterium) hoch korrelieren. Wird die Konstruktvalidität nur über die Kriteriumsvalidität definiert, besteht die Gefahr eines Zirkelschlusses (Test A ist valide, weil er mit Test B korreliert, der mit Test C korreliert, der mit Test A korreliert); betrachtet man es aber so, dass alle Tests konstruktkonform miteinander korrelieren (nomologisches Netzwerk), dann ist dies ein stärkerer Validitätsnachweis als eine paarweise Validierung von Messungen. Ein Test soll Depression messen. Diesen Test wendet man bei Personen an, die nachweislich eine Depression haben. Dann wird geprüft, wie genau diese Testergebnisse mit anderweitig ermittelten Bewertungen übereinstimmen (z.B. mit der Einschätzung durch Psychotherapeuten).
Üblicherweise werden vier Formen der Kriteriumsvalidität unterschieden:- Konvergente Validität meint, dass bei mehreren alternativen Kriterien, von denen aber nur einige eine hohe Konstruktvalidität haben, die Messung hoch mit den Kriterien hoher Validität korreliert.
- Diskriminante Validität meint, dass bei mehreren alternativen Kriterien, von denen nur bestimmte eine hohe Konstruktvalidität haben, die Messung niedrig mit den Kriterien niedriger Validität korreliert und hoch mit denen hoher Validität.
- Konkurrente Validität meint, dass Messung und Kriterium gleichzeitig erhoben werden.
- Vorhersage-, Prognostische, Prädiktive Validität meint, dass das Kriterium nach der Messung erhoben wird, d.h. die Messung soll das Kriterium vorhersagen. Wenn ein Flugschüler im Flugsimulator sicher ein Flugzeug beherrscht, wird er dies in vielen Fällen dann auch in der Realität können.
- Inhaltsvalidität: Inhaltsvalidität ist eigentlich ein spezieller Aspekt der Konstruktvalidität. Sie liegt vor, wenn die durch Messungen erfassten Inhalte denjenigen Inhalt darstellen, der gemessen werden soll. Die Inhaltsvalidität lässt sich formal nur prüfen, wenn die Gesamtheit der zu messenden Inhalte bekannt ist, was aber eher selten der Fall ist. Wird meist bei einfachen Tests verwendet - zum Beispiel bei einem Wissenstest oder Rechtschreibtest. Inhaltsvalidität wird dann angenommen, wenn die einzelnen Testaufgaben nach Ansicht von Experten eine gute Stichprobe aller möglichen Aufgaben bilden. Ein Rechentest für das 3. Schuljahr ist valide, wenn die Aufgaben etwa den Unterrichtsstoff dieses Jahrgangs gut repräsentieren.
- Ökologische Validität: Eine psychologische Ergebungs- oder Beobachtungsmethode ist in dem Maße für eine Person (Personengruppe) ökologisch valide, in dem die mit dieser Methode eingeführten S-Bedingungen (S steht für Stimulus bzw. Reiz) eine unverzerrte Stichprobe der in der Grundgesamtheit aller Lebensbedingungen dieser Person (Personengruppe) repräsentierten S-Bedingungen sind. Die Methode ist für eine Person (Personengruppe) ökologisch invalide, wenn die eingeführten S-Bedingungen im betreffenden Biotop nicht oder nur selten in dieser Kombination repräsentiert sind. (Pawlik, 1976, S.60)
- Konstruktvalidität: Konstruktvalidität liegt vor, wenn Messungen das erfassen, was sie erfassen sollen (wird ein Konstrukt nur aus hoher Korrelation erschlossen, dann Konstruktvalidität=Reliabilität). Werden aus einem Konstrukt Hypothesen abgeleitet, dann bedeutet eine hohe Konstruktvalidität die gute empirische Bestätigung dieser Hypothesen. Eine geringe Konstruktvalidität spricht nicht unbedingt gegen die Messung, sie kann auch gegen das Konstrukt an sich sprechen. Diese Form der Validität setzt also gesichertes Wissen um das Konstrukt voraus, also Kenntnis der zugehörigen Theorien und der einschlägigen Befunde. Für die Validität eines Aggressivitätstests kann es z. B. sprechen, wenn Männer höhere Werte erzielen als Frauen und wenn junge Männer (etwa 20jährige) höhere Werte aufweisen als ältere (etwa 40jährige); denn im allgemeinen sind Aggressivitäten in unserem Kulturbereich bei jungen Männern deutlich ausgeprägter als bei Frauen und älteren Männern (nachweisbar in den Kriminalstatistiken). Die Ergebnisse einer Testkonstruktion müssen letztlich also mit dem Gesamtwissen zum Konstrukt übereinstimmen.
Es wird gerne betont, die Validität gebe es nicht, es gebe vielmehr recht verschiedene Arten von Validitätsbestimmungen. Das ist sicher richtig, aber gemeinsam ist ihnen: Validitäts- oder Gültigkeitsmaße geben den Grad der Genauigkeit an, mit der ein Verfahren misst, was es zu messen vorgibt. Ein Intelligenztest trägt seinen Namen nur dann zu Recht oder ist nur dann valide, wenn er Intelligenzleistungen und nicht in erster Linie etwa das "Sitzfleisch" misst; ein Intelligenztest für Schulanfänger kann kaum valide sein, wenn er Kindern ohne ausreichende Pause 3 oder 4 Stunden lang konzentrierte Arbeit abverlangt. Ein Test muss also inhaltlich "zutreffen"; wie aber will man das bestimmen? Denn es ist lar, dass der Name "Intelligenz" (ebenso wie "Aggressivität", "Angstlichkeit", "Überichstärke" etc.) ein sog. Konstrukt bezeichnet; Konstrukte sind Begriffe, die mehr oder weniger als theoretisch sinnvoll erscheinen; das Bezeichnete kann aber nicht direkt beobachtet, vielmehr nur aus Indikatoren erschlossen werden. Konstrukte gelten im Rahmen der Theoriebildung als nützliche Annahmen.
Im Grunde ist es das alte Problem der "Wahrheit" von Aussagen, das sich im Validitätskonzept versteckt: Sind Behauptungen zutreffend? Hier: Verdient z. B. ein Test, der als "Intelligenztest" verkauft wird, diesen Namen?
Psychologisch wichtiger sind zunächst die "empirischen Validitäten", d. h. die Übereinstimmungs- und Vorhersagevalidität. Die erste prüft man, indem man die Ergebnisse mit Kriteriumswerten korreliert; so könnte man die Validität eines Rechentests für das 3. Schuljahr durch die Korrelation der Testergebnisse mit den Lehrerurteilen (als sog. Außenkriterium) ausdrücken. Eine Vorhersagevalidität zu bestimmen liegt z. B. bei der Konstruktion eines Schulreifetests nahe: Nach der Testerhebung sollte man mindestens bis zum Ende des ersten Schuljahres warten, um dann die Korrelation zwischen Testresultaten und Schulleistungen zu beurteilen. Valide ist der Test, wenn die Korrelation hoch ausfällt.
Die Beispiele machen deutlich, dass die Validitätsbestimmung mit Hilfe eines sog. Außenkriteriums meist fragwürdig ist, denn die Außenkriterien (wie z. B. das Lehrerurteil) sind oft selbst problematisch, d.h., nicht valide zu erfassen. Vor allem bei Intelligenztests wird zur Validierung eines neuen Tests gern ein bereits bewährter Test als Kriterium herangezogen. Grundsätzliche Zweifel sind somit an allen Verfahren zur Validitätsbestimmung angebracht. Eine befriedigende Reduzierung der Expertenwillkür ist nur durch wechselseitige konstruktive Kritik möglich, wie sie im wissenschaftlichen Diskurs üblich ist.
Gütekriterien qualitativer Forschung
http://www.dieterherbst.de (02-12-13)
Die Operationalisierung von Merkmalen betrifft grundsätzlich die Notwendigkeit, operative Anweisungen zur Gestaltung einer Untersuchung zu formulieren. Dazu gehören die Auswahl der Indikatoren sowie die Angabe der Datenerhebungsinstrumente. Insbesondere können viele psychologische Konstrukte letztlich nur über Indikatoren einer Messung zugänglich gemacht werden, also durch die Entwicklung von Merkmalskatalogen und Skalen, die in der Lage sind, das Konstrukt zu erfassen bzw. abzubilden. Von der Operationalisierung dieser Merkmale hängt schließlich die Validität dieser Forschung ab. Qualitative Methoden bedürfen zwar ebenfalls hinsichtlich der Methodenauswahl und -durchführung (z.B. bei der Erstellung von Leitfäden) gewisser Forschungsoperationen, sie bedienen sich jedoch bei der Erhebung nicht solcher- meist vorab festgelegter - Merkmalskataloge.
Die Objektivität wird im quantitativen Ansatz vor allem auf die Unabhängigkeit der Untersuchung von subjektiven Einflüssen seitens der Forscher bezogen. Als Konsequenz hieraus ergibt sich die Forderung nach einer möglichst weitreichenden Kontrolle solcher Störeinflüsse, die die "Neutralität" der Untersuchung gefährden könnten. Objektivität in der quantitativen Forschungslogik ist somit untrennbar verbunden mit einer weitgehenden Kontrolle und Standardisierung des Untersuchungsablaufs. Aus qualitativer Sicht besteht durch die Standardisierung einer Untersuchung und die bewusst herbeigeführte Neutralität des Forschers unter Ausschluss aller situativen Kontextfaktoren allerdings die Gefahr, eine Künstlichkeit zu erzeugen, die sich verzerrend auf den Untersuchungsinhalt auswirken kann. Der qualitative Forschungsansatz versucht aus diesem Grund, der Forderung nach Objektivität gerade durch eine gezielte Berücksichtigung der spezifischen Untersuchungssituation gerecht zu werden. Er möchte bewusst all jene untersuchungsrelevanten Kontextfaktoren aktiv erfassen, die im quantitativen Ansatz durch Standardisierung konstant gehalten werden sollen. Der qualitative Forschungsansatz versucht, jede Vorselektion von untersuchten Merkmalen möglichst zu vermeiden. Ziel qualitativer Forschung sollte es deshalb sein, die verschiedenen Problemdimensionen möglichst umfassend zu erforschen und zu analysieren. Die Objektivität lässt sich daher auch ausdrücken als Grad der Umfassendheit, mit der die relevanten Inhalte unter Berücksichtigung der einfließenden situativen Kontextfaktoren erhoben werden. Verbunden ist hiermit die Forderung nach einer entsprechenden Angemessenheit der Methoden, die relevanten Untersuchungsinhalte auch wirklich umfassend erheben zu können. Der Weg dahin ist allerdings nicht zwingend festgelegt, sondern kann je nach Erhebungsinstrument und Untersuchungssituation variieren.
Die Offenheit qualitativer Methoden soll den individuellen Ausdrucksmöglichkeiten viel Spielraum geben und erzeugt so ein Datenmaterial, das sich nur schwerlich exakt wiederholen lässt. Eine mangelnde Reliabilität muss somit weniger als "Unvollkommenheit" qualitativer Methoden verstanden werden, sondern liegt in den Charakteristika der Methoden und der Vielschichtigkeit sozialer Realitäten, d.h. im Untersuchungsgegenstand selbst, begründet.
Daher ist die Forderung nach Reliabilität, die die Reproduzierbarkeit der erhobenen Informationen nicht nur gedanklich miteinschließt, sondern durch verschiedene Überprüfungsverfahren konkret nachweisen will, nach den üblichen Verfahren obsolet, denn die Zuverlässigkeitsüberprüfungen beziehen sich meist auf konkrete statistische Messwerte, die unter bestimmten Bedingungen miteinander korreliert werden. Da die Daten aber keiner messtechnischen Transformation unterzogen werden und eindeutig quantifizierbare Ergebnisse nicht vorliegen, ist eine Reproduzierbarkeit des Datenmaterials, wie sie durch die üblichen Reliabilitätskoeffizienten geprüft werden soll, also nicht möglich. Der weitere Spielraum der qualitativen Forschung macht eine Reproduktion des Erhebungsablaufes wenig wahrscheinlich. Reliabilitätskontrollen wie im quantitativen Ansatz spielen daher nur eine untergeordnete Rolle. An ihre Stelle tritt die Forderung nach einer ausreichenden Transparenz des Erhebungsablaufes, so dass die Bedingungen von Aufbau und Ablauf der Untersuchung offengelegt werden. So ist es für die Überprüfung, inwieweit eine wirklich umfassende Erfassung des Problembereichs gelungen ist, vor allem von Bedeutung, dass der gesamte Ablauf entsprechend aufgezeichnet und seine Entstehungsbedingungen festgehalten werden. Die Forderung nach Zuverlässigkeit im Sinne einer Reproduzierbarkeit des Datenmaterials wird demnach durch die Forderung nach Transparenz der Erhebung ersetzt.
Aufgabe der Datenauswertung im qualitativen Ansatz ist es, anhand einer typisierenden Analyse alle problemrelevanten Inhalte zu kategorisieren und sie einer anschließenden Interpretation zugänglich zu machen. Da sich qualitative Untersuchungen stets darum bemühen, nahe am Datenursprung zu bleiben und dabei nicht auf statistische Auswertungs- und Analyseverfahren zurückgreifen, ist die Errechnung von irgendwelchen Koeffizienten meist nicht möglich. Im Gegensatz zur quantitativen Forschung bestehen bei qualitativen Untersuchungen keine vorab festgelegten Zuordnungsregeln. Zuverlässigkeit und Objektivität der Auswertung hängen in hohem Maße von der Sorgfalt und fachlichen Kompetenz des Forschers ab. Die Zuverlässigkeit der Ergebnisse kann aber auch hier durch eine entsprechende Offenlegung und Begründung aller Auswertungsschritte derart unterstützt werden, dass sie für einen anderen Forscher zumindest nachvollziehbar sind.
Die Interpretation von Untersuchungsergebnissen besitzt immer einen gewissen subjektiven Spielraum, allerdings basieren Interpretationen quantitativ erhobener Daten zu einem Großteil auf den vorab gemachten Annahmen, was den Interpretationsspielraum deutlich einengt. Im Rahmen qualitativer Forschung werden die Interpretationsansätze erst auf Basis der erhobenen Informationen gebildet. Je nach Eindeutigkeit oder Heterogenität der Daten kann sich hier ein weiteres Spektrum an möglichen Interpretationen eröffnen. Die Objektivität und Zuverlässigkeit einer Auswertung qualitativer Untersuchungen steigt mit der Möglichkeit, mit der die vorgenommene Interpretation nachvollzogen werden kann. Auch hier gilt es demnach, alle Überlegungen und Interpretationsschritte transparent zu machen. Eine weitere Möglichkeit, die Objektivität und Zuverlässigkeit einer Interpretation zu steigern, besteht darin, mehrere Forscher anhand des gleichen Informationsmaterials eine Interpretation vornehmen zu lassen und somit einen multipersonalen Diskurs anzustreben. Dabei kann z.B. eine Interpretation in der Gruppe vorgenommen werden, was den Vorteil besitzt, dass die individuelle Meinung des einzelnen Interpreten in der Gruppe jeweils argumentativ begründet werden muss. Zumindest aber sollten die voneinander unabhängig angefertigten Ergebnisse wenigstens zweier Interpreten miteinander verglichen werden.
Gütekriterien für Wissenschaft und wissenschaftliche Forschungsarbeiten
Eine zusammenfassende Systematisierung der wichtigsten aktuell in Diskussion stehenden "Gütekriterien für wissenschaftliche Forschungsarbeiten" versuchen Breuer & Reichertz (2001). Sie unterscheiden
Güte aufgrund der Logik der Rechtfertigung
In der Wissenschaftstheorie der empirischen (Real-)Wissenschaften hat sich in den dominierenden Traditionen des letzten Jahrhunderts (dem Logischen Empirismus und Kritischen Rationalismus und ihren Nachfolge-Unternehmen) unter der Orientierung auf die Idee einer "Einheitswissenschaft" ein Standard-Kanon von Güte-Maßstäben herauskristallisiert, der - unter Absehung von differentiellen Gegenstandscharakteristika bzw. Disziplin-Spezifika - bestimmte logische und methodologische Maximen enthält. Diese allgemein in der scientific community verwendeten (begründungs-)methodologische Kriterien empirischer Wissenschaften, prägen auch heute noch weitgehend das Bild in konventionellen Methodologie-Lehrbüchern der Sozialwissenschaft. Prototypisch sind in diesem Zusammenhang hauptsächlich sprachlich-begriffliche Charakteristika und das Verhältnis von wissenschaftlichen Symbolisierungen bzw. Symbolsystemen und Realität: begriffliche Exaktheit/Präzision, intersubjektive Eindeutigkeit von Begriffen und Aussagen, Subjektunabhängigkeit bzw. Objektivität von Begriffs- und Aussagenverwendung, Reliabilität/Zuverlässigkeit von Beobachtungen, Messungen u.ä., logische Konsistenz von Aussagen und Aussagensystemen, empirische Prüfbarkeit von realitätsbezogenen Behauptungen, Bestätigungsgrad von Aussagen, Repräsentanz von Aussagen für Validität/Gültigkeit sowie Wahrheit empirischer Aussagen, Ästhetik/Einfachheit und Ökonomie von Theorien, Systemhaftigkeit von Aussagen bzw. Theorieintegration.
Güte aufgrund der Logik der Entdeckung
Wenig durchgearbeitet sind die Entdeckung und Entwicklung wissenschaftlichen Wissens bzw. wissenschaftlicher Theorien, was häufig der "Psychologie der wissenschaftlichen Arbeit" zugerechnet wird und so von der epistemologischen und methodologischen Sphäre ausgeschlossen bleibt. Hier spielen Schluss- und Argumentationsweisen eine große Rolle, wie etwa induktive, abduktive Prozeduren und heuristische Verfahren des Erfindens und Entdeckens von Neuem. Als in Diskursen praktizierte, aber wenig systematisierte (systematisierbare?) Kriterien werden in diesem Zusammenhang beispielsweise Charakteristika wie "Kreativität", "Innovation", "Anregungsgehalt", "Überraschungswert" ins Feld geführt.
Güte aufgrund der Ehrlichkeit und Redlichkeit der Wissenschaftler
Basale Gesichtspunkte wie "Ehrlichkeit", "Redlichkeit" und "Ehrenhaftigkeit", die im konventionellen Selbstbild der Wissenschaftler-Gemeinschaft meist gar nicht problematisierungsbedüftig waren werden als Fiktion gern aufrechterhalten. Wissenschaftler/innen dürfen hinsichtlich ihrer Forschungsergebnisse nicht lügen, täuschen, betrügen, sie dürfen ihre Resultate nicht fälschen, sich nicht die Verdienste anderer (verdeckt) aneignen etc. Belehrt durch aufsehenerregende Verstöße gegen solche Maximen werden Gesichtspunkte der "Sicherung guter wissenschaftlicher Praxis" entworfen. Mit einem Kanon institutioneller Maßnahmen und personaler Verpflichtungen soll die Gefahr "wissenschaftlichen Fehlverhaltens" eingedämmt werden. Maximen und Kriterien beziehen sich u.a. auf die Dokumentation und Sicherung von Daten, die seriöse Identifizierung der Autorenschaft von Texten, Regeln der Kooperation in Forschergruppen, institutionelle Prozeduren der Seriositäts-Kontrolle und des Konflikt-Managements, Postulate der Höhergewichtung "qualitativer" gegenüber "quantitativen" Charakteristika wissenschaftlicher Produktion. Siehe dazu den Versuch über die Psychologie des Wissenschaftlers (Stangl 1989).
Güte als Gegenstandsangemessenheit: Selbstreflexion und Perspektivität
Unter dem Gesichtspunkt der Abhängigkeit der Qualitäts-Kriterien von der Charakteristik des spezifischen Objekts der wissenschaftlichen Erkenntnis sind eine Reihe weiterer Aspekte ins Feld geführt worden - prototypisch verbunden mit einer (Unangemessenheits-) Kritik an den (naturwissenschaftlich inspirierten) einheitswissenschaftlichen Postulaten für Sozial- bzw. Humanwissenschaften. Es geht hier um erkenntnistheoretische Überlegungen zum Verhältnis von Gegenstandsstruktur und wissenschaftlicher Forschungsmethodik. Das Grundargument ergibt sich aus dem Sachverhalt, dass die Sozial- und Humanwissenschaften es bei ihrer Erkenntnisbemühung mit einem prinzipiell "strukturidentischen Objekt" zu tun haben: Die Rollen von Erkenntnissubjekt und -objekt sind nur "verabredungsbedingt" verschieden und grundsätzlich vertauschbar. Dies wird als fundamentaler Unterschied zur naturwissenschaftlichen Forschungsstruktur angesehen und ist beispielsweise konstitutiv für eine auf Selbstauskünfte und Selbsteinsichten der "Objekte" gegründete Methodik. Nicht die gegenstands-desinteressierten Methodologie-Gesichtspunkte sind danach ausschlaggebend für wissenschaftliche Angemessenheit, sondern die adäquate "Passung" von Gegenstandsstruktur und Forschungsmethodik - wobei der Gegenstandsstruktur der Primat zukommt. Auf diesem Hintergrund resultieren Adäquatheits-Überlegungen für wissenschaftliche Konzepte, die die "Modellierung", das "Menschenbild", die "Repräsentation" von Objekten/Subjekten betreffen. Es wird u.a. darauf abgehoben, dass das Objekt als Erkenntnisgegenstand durch seine Darstellung grundsätzlich erst konstituiert wird (Konstruktion des/der Anderen - "Othering"). Die Wahl der wissenschaftlichen Methoden und (Beobachter-, Teilnehmer-) Perspektiven entscheidet, als was das und was am Objekt feststellbar ist. Strukturcharakteristika der Interaktion von Forschungssubjekt (dem Wissenschaftler bzw. der Wissenschaftlerin) und Forschungsobjekt (der Versuchsperson, dem Untersuchungspartner bzw. der Untersuchungspartnerin) sind mitentscheidend für die Art der Konzeptualisierung des Gegenstands und die möglichen Untersuchungsresultate.
Güte als Ergebnis einer humanen Ethik
Unter dem Gesichtspunkt der Ethik des Umgangs mit den (strukturgleichen) Forschungsobjekten in human- bzw. sozialwissenschaftlichen Kontexten sowie der Verantwortung des Wissenschaftlers bzw. der Wissenschaftlerin für die Wahrung ihrer Belange im Zusammenhang mit der Untersuchung sind eine Reihe von Kriterien aufgestellt worden. Diese werden häufig von wissenschaftlichen und professionalen Gesellschaften in Form von ihre Mitglieder verpflichtenden Ethik-Kodizes formuliert - wobei es sich in der Regel um Maximen mit relativ großen Interpretations-Spielräumen handelt. Dazu gehören vor allem Regeln der Nicht-Schädigung von Untersuchungsteilnehmern und -teilnehmerinnen in physischer, sozialer und psychischer Hinsicht, der "Aufklärung" und (bedingten) Wahrhaftigkeit ihnen gegenüber, des vertraulichen, die Persönlichkeitsrechte wahrenden Umgangs mit ihren Daten u.ä. Als "gut" gelten demnach Untersuchungen, die sich einer humanen Ethik im Umgang mit den jeweils Untersuchten befleißigen. Von Wissenschaftlern und Wissenschaftlerinnen selbst werden diese Gesichtspunkte häufig als "lästig" empfunden, da sie überwiegend Einschränkungen hinsichtlich ihrer Handlungs- und Verfügungsmöglichkeiten in einem Untersuchungsfeld darstellen. Ihre wissenschaftspraktische Bedeutsamkeit und Wirksamkeit ergibt sich nicht selten erst aufgrund von Anfragen bzw. Anmahnungen einer "kritischen Öffentlichkeit".
Güte als Technologiefähigkeit von Forschung
Ein Qualitätsmerkmal wissenschaftlicher Forschungsergebnisse ist das Kriterium ihrer praktischen Anwendbarkeit, Nützlichkeit und Verwertbarkeit in technischen, ökonomischen und sozialen Kontexten ("Technologiefähigkeit"). Das Kriterium erweist sich als komplex: Einerseits stehen wissenschaftliche Erkenntnisproduzenten diesem Gesichtspunkt mitunter insofern distanziert gegenüber, als "Erkenntnis" - vergleichbar der "Kunst" - in unserer Gesellschaft jenseits praktischer Nützlichkeiten als ein "Wert an sich" gilt, und insofern "Freiheit von Wissenschaft" postuliert (und in Gesellschaftsverträgen versprochen) wird. Andererseits stellt sich v.a. in der jüngeren Wissenschaftsgeschichte heraus, dass für zunächst und vermeintlich "anwendungsferne" wissenschaftliche Erkenntnisse (etwa der Grundlagenforschung) Bereiche gesucht bzw. gefunden werden, die diese Erkenntnisse zu solchen mit allerhöchster praktischer Bedeutsamkeit werden lassen. Demgegenüber kann die kurzfristige bzw. kurzschlüssige intentionale Orientierung der am Wissenschaftsprozess beteiligten Akteure auf Verwertungsrelevanz geradezu kontraproduktive Effekte haben: Anwendungszentrierte Projekte und deren Ergebnisse können etwa im Rahmen sich wandelnder praktisch-kontextueller Umstände zu einer "rasch verderblichen Ware" werden.
Güte als "emanzipatorische Relevanz"
Neben der praktischen Relevanz wissenschaftlicher Forschung - also der prinzipiellen Möglichkeit des gesellschaftlichen Nützlichmachens wissenschaftlicher Erkenntnisse, unter Absehung von den Wertcharakteristika der Zwecke, für die diese eingesetzt werden - wird der Gesichtspunkt der interessenbezogenen Bedeutsamkeit ins Feld geführt. Von bestimmten ethischen und gesellschaftstheoretischen Werten und Zielvorstellungen ausgehend kann die Anwendung/Verwertung wissenschaftlicher Erkenntnisse hinsichtlich ihrer Nützlichkeit für bestimmte Interessen bzw. Interessenten beurteilt werden. Für den human- und sozialwissenschaftlichen Bereich lässt sich dies etwa an der Gegenüberstellung deutlich machen: Dienen Forschungsergebnisse der "Fremdbestimmung" bzw. Manipulation sozialer (Abhängigkeits-) Verhältnisse im Sinne beliebiger (etwa "herrschender") Interessen/Interessenten? Oder erlauben sie eine Selbstaufklärung der Objekte/Subjekte in Bezug auf deren Lebensbedingungen und fördern eine verstärkte Selbstverfügung darüber (Ermöglichung von Selbstreflexion, Selbstentwicklung, Erweiterung von Eigenverfügung über Handlungsmöglichkeiten)? Auch diesem Kriterium ist offensichtlich durch "intentionales Forscherhandeln" - trotz vielerlei ("parteilicher") Bemühungen in den Sozialwissenschaften v.a. der siebziger und achtziger Jahre - nicht oder nur bedingt bzw. nur unter bestimmten Umständen beizukommen.
Güte aufgrund der (Darstellungs-) Politik der Forscher/innen
Für Sozialforscher und -forscherinnen besonders interessant (und riskant) sind die Aspekte der Güte wissenschaftlicher Arbeiten, die sich direkt oder indirekt aus der "Darstellungs-Arbeit" (Impression-Management) und der "Sozial-Politik" der Wissenschaftler/innen ergeben. In mikrosoziologischen Untersuchungen realer Forschungsprozesse (Ethnographien wissenschaftlicher "Laboratorien", der Produktion wissenschaftlicher Texte etc.) sind eine Reihe von Praktiken und praktizierten Kriterien beschrieben worden, die nur bedingt etwas mit dem üblichen Begriff von "Qualitätskriterien" zu tun haben. Es handelt sich vielmehr überwiegend um soziale Anpassungs-, Anschlussleistungen und Selbstpräsentationen der Wissenschafts-Akteure gegenüber unterschiedlichen (inner- wie außerwissenschaftlichen) Mitspielern und Rezipienten, die - wie in jedem anderen sozialen Feld auch - mehr oder weniger konform realisiert, regelgerecht und publikumswirksam "bedient" werden. Hat ein Wissenschaftler bzw. eine Wissenschaftlerin die "richtige Nase" für "angesagte", zeitgemäße Strömungen, Praktiken, Personen etc.? Kann er/sie sein/ihr "In-Sein", sein/ihr "Dazugehören" überzeugend darstellen? Solche Handlungscharakteristika lassen sich mit Oberbegriffen wie "soziale Selbstinszenierung" oder "Staging" kennzeichnen. Sie beziehen sich etwa auf Aspekte wie: Anschluss an aktuelle Foki öffentlicher (medialer, politischer u.ä.) Diskussion, Anschluss an aktuelle Konjunkturen wissenschaftlicher Theorien bzw. "Paradigmen", Verwendung prestigeträchtiger Instrumente und Verfahren (der schnellste/größte Rechner, die innovativste Analyseprozedur etc.), Techniken textueller Präsentation - etwa Konformität hinsichtlich textsortenbezogener Standardschemata, aber auch Laien-Verständlichkeit, Unterhaltungswert u.ä., soziale Verankerung in wissenschaftlichen Netzwerken, Gesellschaften, Seilschaften o.ä., Zugang zu bestimmten Präsentations-Medien, Kooperation mit privaten und kommerziellen Instanzen (Kontakte mit "der Wirtschaft" und "den Medien" u.ä.), taktisches Geschick im Umgang mit Gutachter-Diskursen, Wissenschafts-Bürokratie, Forschungs-Sponsoren u.ä. Die Qualität wissenschaftlicher Arbeiten rangiert in diesem Diskurs umso höher, je mehr es dem jeweiligen Wissenschaftler bzw. der jeweiligen Wissenschaftlerin gelingt, in möglichst vielen der genannten Bereiche erfolgreich zu sein.
Güte als Ergebnis externer Forschungsevaluation
Bei Prozeduren der "Evaluation" wissenschaftlicher Leistungen, die eine Differenzierung zwischen "besserer" und "schlechterer" Wissenschaft, zwischen "Spitzen"- und "Durchschnitts"-Forschung ermöglichen sollen, werden in eklektischer Manier allerlei "Indikatoren" und "Maße" erfunden und übernommen, mit denen eine solche Qualitäts-Differenzierung möglich sein soll. Diese sind relativ wenig an den traditionellen wissenschaftstheoretischen Kriterien orientiert, heben vielmehr stärker "untheoretisch" auf leicht operationalisierbare und quantifizierbare Merkmale, "betriebswirtschaftliche" Maßstäbe und "soziale Resonanzen" wissenschaftlicher Forschungsarbeit ab. Solche Gesichtspunkte stellen diskutierte Kandidaten für das "Ranking" von Personen und Institutionen im Kontext von Wissenschaftspolitik dar, werden zu Propagandainstrumenten im Rahmen von Vermarktwirtschaftlichung und Konkurrenzaktionen von Universitäten, Forschungseinrichtungen, Ausbildungsgängen etc. Beispiele aus diesem Bereich: Menge publizierter Texte eines Wissenschaftlers, einer Wissenschaftlerin, der Mitglieder einer Institution, Aufnahme von Publikationen in (nach Wertung in der "Fachkultur") bestimmte "hochrangige" Organe (Zeitschriften, Verlage), englischsprachige Publikation, Zitations-Häufigkeit von Autoren/Publikationen in selektiven Statistiken ("Impact-Faktor" u.ä.), Einwerbung von "Drittmitteln" bei staatlichen und privaten Förderinstitutionen bzw. Sponsoren, Herausgeberschaften von (renommierten) Periodika, Charakteristika von Ausbildung bzw. Lehre einer Institution, Alter eines Wissenschaftlers, einer Wissenschaftlerin, Geschlechtszugehörigkeit eines Wissenschaftlers, einer Wissenschaftlerin. Als "wichtig" gelten hier die Arbeiten der Verfasser/innen, die bei diesem externen Ranking die vorderen Plätze einnehmen.
Quellen:
Breuer, Franz & Reichertz, Jo (2001, September). Wissenschafts-Kriterien: Eine Moderation [40 Absätze]. Forum Qualitative Sozialforschung / Forum: Qualitative Social Research [On-line Journal], 2(3). Verfügbar über: http://www.qualitative-research.net/fqs-texte/3-01/3-01breuerreichertz-d.htm [Datum des Zugriffs: 04-10-25].
Stangl, Werner (1989). Die Psychologie des Wissenschaftlers.
WWW: http://werner.stangl-taller.at/BERUF/PUBLIKATIONEN/PARADIGMA/128WISSENSCHAFTLER/ (04-10-25)
Waren diese Informationen für Sie nützlich? Dann klicken Sie bitte auf das
In den Arbeitsblättern |

This work is licensed under a Creative Commons License.