Dies ist ein Kapitel aus der Dissertation Mark Schweizer, Kognitive Täuschungen vor Gericht, Zürich 2005. Zur Hauptseite.

 
 

Bestätigungsfehler (confirmation bias)

  1. Unter dem Oberbegriff Bestätigungsfehler (confirmation bias) wird eine Vielzahl verschiedener Phänomene zusammengefasst. Dementsprechend unterschiedlich sind die Definitionen des Begriffs in der Literatur.1 Hier soll unter Bestätigungstendenz das Phäno­men verstanden werden, dass Informationen, die eine von der Versuchsperson zu­mindest in Betracht gezogene Hypothese bestätigen, von ihr eher gesucht, wahrgenommen, stärker gewichtet oder besser in Erinnerung behalten werden als Informationen, die gegen die Hypothese sprechen.2 Noch allgemeiner formuliert liegt eine Bestätigungstendenz vor, wenn die Neigung besteht, eine zumindest in Betracht gezogene Hypothese beizube­halten und eine korrespondierende Abneigung, sie zugunsten einer neuen Hypothese auf­zugeben.3

  2. Während man sich weitgehend einig ist, dass Bestätigungstendenzen real sind,4 besteht über die Ursachen der beobachteten Phänomene bei weitem keine Einigkeit. Können Men­schen Hypothesen nicht neutral und unvoreingenommen testen oder wollen sie nicht? Wenn kognitive Faktoren zumindest mitverantwortlich sind für die beobachteten Tenden­zen: Sind Bestätigungstendenzen darauf zurückzuführen, dass Menschen nicht in der Lage sind, mehr als eine Alternative gleichzeitig zu beachten?5 Oder darauf, dass Menschen das Vorhandensein einer Eigenschaft leichter erkennen und erinnern können als ihr Feh­len?6 Oder kann erst eine Interaktion verschiedener Phänomene, wie einer positiven Teststrategie und der leichteren Verarbeitung positiver Informationen, Bestätigungsfehler erklären?7

  3. Nicht nur keine Einigkeit, sondern Streit herrscht bezüglich der Frage, ob Bestätigungsten­denzen als „Fehler“ bezeichnet werden dürfen; d.h. ob sie „irrational“ sind und zu Resul­taten führen, die suboptimal sind. Während bis Mitte der 80-er Jahre des letzten Jahrhun­derts die Ansicht vorherrschte, dass Bestätigungstendenzen ein schweres Defizit menschlichen Denkens mit negativen Konsequenzen sind, hat sich seither das Bild gewan­delt. Zahlreiche Autoren weisen darauf hin, dass das, was vorschnell als Bestätigungsfehler bezeichnet wurde, ausserhalb des Labors oft eine der Umwelt angepasste Strategie ist, die mit minimalem Aufwand wenn nicht zu optimalen, so doch zu vernünftigen Resultaten gelangt.8

  4. Eine Bestätigungstendenz kann erstens daraus resultieren, dass man von vorneherein nur sol­che Informationsquellen auswählt, von denen bestätigende Informationen zu erwarten sind. Zweitens kann eine Bestätigung zu Unrecht erfolgen, wenn ambivalente Informatio­nen, die sowohl für wie gegen die Hypothese sprechen können, konsequent als bestätigend codiert werden. Drittens kann eine unangebrachte Bestätigung erfolgen, wenn man zwar sowohl bestätigende wie nichtbestätigende Informationen registriert, letztere aber nicht (oder nur ungenügend) zur Beurteilung der Hypothese heranzieht.9 Nach dieser Systema­tik lassen sich Bestätigungstendenzen bei der Informationssuche und bei der Informati­onsinterpretation unterscheiden. Sie dient als Gerüst der folgenden Übersicht, die sich massgeblich auf die Übersichtsartikel von Nickerson und Klayman stützt.10 In Anbet­racht der beinahe unüberschaubaren Literatur zum Hypothesentesten muss diese Übersicht notwendigerweise verkürzt und unvollständig ausfallen. Nach der Darstellung der empiri­schen Belege für Bestätigungstendenzen werden ihre Folgen beleuchtet, ehe die Resultate der eigenen Studie rapportiert und diskutiert werden; schliesslich wird dargestellt, was gegen den Einfluss des confirmation bias unternommen werden kann.

I.Informationssuche

A.Pseudodiagnostizität

  1. Der Begriff „Pseudodiagnostizität“ wurde von Doherty et al. geprägt.11 Wie vorne, S. ff., dargelegt wurde, beurteilt sich die abstrakte Beweiskraft eines Indizes I danach, wie viel häufiger (seltener) es bei Zutreffen der Hypothese H vorliegt als bei Nichtzutref­fen von H (abstrakte Beweiskraft = P(I | H)/P(I | ¬H) = Likelihood-Quotient). Die meisten Menschen scheinen dieses Konzept wie bereits erwähnt nicht intuitiv zu verstehen. In einer typischen Studie zur Pseudodiagnostizität werden die Versuchspersonen gebeten, an­zugeben, welcher Kategorie eine Instanz wahrscheinlich angehört; beispielsweise von welchem Fundort ein Gefäss stammt.12 Ein Gefäss aus glattem Ton mit gebogenen Hen­keln kann beispielsweise entweder von der Muschel-Insel oder von der Korallen-Insel kommen. Welche Informationen werden benötigt, um zu entscheiden, ob das Gefäss eher von der der Muschel- oder von der Korallen-Insel stammt? Nachdem die Versuchsperso­nen sich aufgrund der bekannten Merkmale eine erste Meinung zur Herkunft des Gefässes gebildet hatten, konnten sie weitere Informationen über die Verteilung der Eigenschaften der Gefässe beider Inseln erwerben. Die meisten Versuchspersonen, die sich aufgrund des ersten Eindrucks für die Korallen-Insel entschieden hatten, fragten nur oder vorwiegend nach Informationen zu den Gefässen von der Korallen-Insel.13 Entscheidend ist aber immer das Verhältnis der Merkmale; d.h. die Information, dass 80 % der Gefässe von der Korallen-Insel gebogene Henkel haben, ist nur diagnostisch, wenn ich weiss, dass nicht auch 80 % der Gefässe von der Muschel-Insel gebogene Henkel haben. Wenn ich nicht danach frage, werde ich es nie erfahren. Wie vorne erwähnt, scheinen Menschen zu mei­nen, die Kenntnis der Typizität oder Repräsentativität einer Eigenschaft für die Kategorie genüge, um auf die Zugehörigkeit der Instanz zur Kategorie zu schliessen.14 Doherty et al. haben die Tendenz ihrer Versuchspersonen, sich mehr Informationen zu der Insel zu beschaffen, die sie ursprünglich favorisierten, confirmation bias genannt.15 Diese Bezeich­nung ist nicht unumstritten.16 Richtigerweise spricht man wohl besser einfach von einer ineffizienten Suchstrategie, die weder bestätigende noch widerlegende Informationen liefern kann.

  2. Der Anteil der nachgefragten pseudodiagnostischen Informationen sinkt, je mehr die Versuchspersonen Zweifel an der ursprünglichen Hypothese haben.17 Mynatt et al. erklären dies damit, dass die Versuchspersonen eher bereit sind, eine alternative Hypothese in Betracht zu ziehen, wenn die ursprünglich Hypothese von den vorhandenen Daten nur schwach gestützt wird. Pseudodiagnostizität resultiert ihrer Meinung nach daraus, dass Menschen nicht in der Lage sind, mehr als eine Hypothese gleichzeitig zu verfolgen. Ver­schiedene Hypothesen werden seriell, nacheinander geprüft. Erst der Wechsel von der einen Hypothese zur anderen bewirkt, dass Informationen zu den Eigenschaften der Instan­zen der anderen Kategorie abgefragt werden.18

  3. Feeney und Evans weisen darauf hin, dass „pseudodiagnostische“ Information wertvoll sein kann, wenn das Indiz, das die ursprüngliche Hypothese stützt, sehr häufig ist.19 Ange­nommen, ich weiss nicht mehr, ob meine Schwester ein Auto der Marke X oder Y hat. Ich weiss aber, dass das Auto ein Radio hat und eine Höchstgeschwindigkeit von 280 km/h erreicht. 80 % der Autos der Marke X haben ein Radio. Streng logisch müsste ich mich danach erkundigen, wie viele Autos der Marke Y ebenfalls ein Radio haben. Da aber die meisten Autos heute ein Radio haben, wird die Antwort auf diese Frage nicht viel weiter­helfen. Die Frage danach, wie viele der Autos der Marke X eine Höchstgeschwindigkeit von mehr 280 km/h erreichen, ist zwar streng genommen pseudodiagnostisch; wenn ich aber erfahre, dass sehr viele Autos der Marke X so schnell sind, potentiell wertvoller als die Häufigkeit von Autoradios bei Y.20 Feeney et al. können nachweisen, dass Menschen bei der Suche nach Informationen berücksichtigen, wie wertvoll die gesuchte Information potenziell sein kann. Ist das bekannte Indiz selten, werden weniger häufig pseudodiagnos­tische Informationen gesucht als wenn das bekannte Indiz häufig ist; wie erwähnt ist die Suche nach pseudodiagnostischer Information im zweiten Fall nicht von vorneherein irrational.

B.Bevorzugte Suche nach bestätigenden Informationen

  1. Eines der klassischen Experimente, das zur Begründung der These, dass Menschen nicht nach falsifizierenden Informationen suchen, herangezogen wird, stammt von Peter Wason.21 Den Versuchspersonen wird ein Zahlentripel 2, 4, 6 vorgelegt. Sie erhalten die Aufgabe, die Regel herauszufinden, nach der die Folge gebildet wurde. Hierzu sollen sie weitere Zahlentripel bilden, die ihrer Meinung nach der Regel entsprechen. Nach jedem Versuch erhalten sie vom Versuchsleiter eine Rückmeldung darüber, ob ihre produzierte Folge zu der wirklichen Regel passt oder nicht. Die Versuchspersonen dürfen ihre produ­zierten Folgen, ihre Hypothesen und die Antworten des Versuchsleiters schriftlich festhal­ten. Den Versuchspersonen wird weiter erklärt, dass sie die gesuchte Regel erst dann als Ergebnis bekannt geben sollen, wenn sie aufgrund ihrer Versuche ziemlich sicher seien, sie gefunden zu haben. Die zu findende Regel lautet, dass jede folgende Zahl grösser als die vorangehende Zahl ist.

  2. 72 % der Versuchspersonen fanden die Lösung, aber nur 21 %, ohne mindestens eine fal­sche Hypothese zu nennen. Die meisten Versuchspersonen bilden eine bestimmte Hypo­these (z.B. „Folgende Zahl = Vorhergehende Zahl + 2“) und produzieren dann aus­schliesslich positive Instanzen für diese Hypothese (d.h. Zahlentripel, die der Hypothese entsprechen, wie 10, 12, 14).22 Kaum eine Versuchsperson formuliert negative Instanzen für ihre Hypothese. Wason und Johnson-Laird ziehen daraus den Schluss, dass sich die Versuchspersonen nicht gemäss der Methode des kritischen Rationalismus (Popper) ver­halten, weil sie nur versuchen, ihre Hypothese zu verifizieren.23

  3. Das besprochene Experiment ist aber nicht geeignet, dies zu beweisen. Wie Gadenne zu Recht anführt, ist die Strategie, positive Instanzen einer Theorie zu testen, nicht notwendi­gerweise eine Bestätigungstendenz. Die Versuchspersonen wissen nicht, ob sie eine posi­tive oder negative Rückmeldung durch den Versuchsleiter erhalten werden. Jede positive Instanz einer Hypothese ist geeignet, die Hypothese zu falsifizieren.24 Dass die Versuchsper­sonen vorwiegend bestätigendes Feedback erhalten haben, liegt daran, dass die von den meisten formulierte Theorie „Folgende Zahl = Vorhergehende Zahl + 2“ enger ist als die gesuchte Theorie „ansteigende Zahlen“. Die Vorgabe des Zahlentripels 2, 4, 6 hat sicher dazu beigetragen, dass die Versuchspersonen eine enge Hypothese entwickelten. Die Wahrscheinlichkeit, dass ein nach der Regel „Folgende Zahl = Vorhergehende Zahl + 2“ gebildetes Zahlentripel aus der Menge der Zahlen zwischen 0 und 1'000 gezogen wird, wenn die Regel der Ziehung „ansteigende Zahlen“ lautet, ist sehr gering im Vergleich zur Wahrscheinlichkeit, dass ein beliebiges ansteigendes Zahlentripel gezogen wird (z.B. 18, 179, 657). Die Hypothese „ansteigende Zahlen“ wird durch das Zahlentripel 2, 4, 6 natür­lich nicht widerlegt, erscheint aber doch unwahrscheinlich.

  4. Klayman und Ha kritisieren Wason, weil die von ihm konstruierte Situation, in der die (nahe gelegte) Anfangshypothese enger ist als die gesuchte Hypothese, in Wirklichkeit kaum vorkomme. Meistens ist die getestete Hypothese zu weit, und die gesuchte Hypo­these ist enger. In diesem Fall, wenn zudem positive Instanzen der Theorie seltener sind als negative Instanzen, ist die Suche nach positiven Instanzen der Theorie durchaus rational, weil sie häufiger zur Falsifizierung der Hypothese führt.25 Dass die positiven Instanzen einer Theorie seltener sind als die negativen, ist ebenfalls eine realistische Annahme: man sucht nach den Persönlichkeitsmerkmalen, die zur Straffälligkeit führen, oder nach Grün­den, die zu ausserordentlichem geschäftlichem Erfolg führen, nicht nach Merkmalen oder Gründen, die zur Einhaltung der Gesetze oder durchschnittlichem Erfolg führen. Unter den Fällen, die von der Hypothese nicht vorausgesagt werden, nach falsifizierenden Instanzen zu suchen, gleicht hier der sprichwörtlichen Suche nach der Nadel im Heuhaufen.26 Klayman und Ha schlagen daher vor, die Strategie der Versuchspersonen in Wasons Zahlentripel-Aufgabe besser „positive Teststrategie“ statt „Bestätigungsstrategie“ zu nen­nen.27

  5. Das Zahlentripel-Experiment ist nicht geeignet, eine Bestätigungstendenz nachzuweisen, weil die Versuchspersonen nicht wissen können, ob die nachgefragte Information (die Antwort des Versuchsleiters) bestätigend oder widerlegend sein wird. Experimente, bei denen die Versuchspersonen von vorneherein wissen, ob die nachgefragte Information ihre Hypothese stützt oder nicht, leiden nicht an diesem methodischen Defizit und sind daher geeignet, eine Bestätigungstendenz bei der Informationssuche nachzuweisen. Zahlreiche Studien weisen eine solche verzerrte Informationssuche sowohl bei Individuen wie bei Gruppen nach.28 Die bestätigende Tendenz ist umso stärker, je mehr die Versuchsperson an der zu überprüfenden Hypothese „hängt“. Dies wird – z.B. durch Jonas et al. – disso­nanztheoretisch erklärt. Vereinfacht gesagt entstehen kognitive Dissonanzen dann, wenn zwei Wahrnehmungen eines Menschen mit einer subjektiven Hypothese über deren Bezie­hung im Widerspruch stehen. Wer an eine Theorie glaubt, hofft, dass die Fakten die Theo­rie stützen. Tun sie dies nicht, entsteht eine Dissonanz zwischen Theorie und Fakten, die aufgelöst werden muss. Um diese Dissonanz zu vermeiden, sucht man unbewusst gar nicht erst nach Informationen, die im Widerspruch zur Hypothese stehen könnten.

  6. Bei sequentieller Informationsvorgabe – d.h. die Versuchspersonen erhalten eine Information und sagen dann, welche weitere Information sie erhalten möchten – ist der confirmation bias stärker als bei gleichzeitiger Vorgabe der Informationen (d.h. die Ver­suchspersonen wählen aus den zur Verfügung stehenden Informationen diejenigen aus, die sie erfahren möchten).29 Gruppen, deren Mitglieder nicht alle die gleiche Präferenz teilen, suchen weniger ausgeprägt nach bestätigender Information. Die Heterogenität der Gruppe als solche, z.B. ob die Gruppe aus unterschiedlichen Persönlichkeiten oder Personen bei­den Geschlechts zusammengesetzt ist, hat hingegen keinen Einfluss auf den confirmation bias.30

  7. Cloyd und Spilker haben die bestätigende Informationssuche im juristischen Kontext unter­sucht.31 Ihre Versuchspersonen waren 71 Steuerberater der (damals noch) Big Five Buchprüfungsfirmen, die im Schnitt rund 2,5 Jahre Berufserfahrung hatten. Allen wurde der gleiche Sachverhalt vorgelegt, gemäss dem ein fiktiver Klient ein Grundstück verkauft hatte. Der Hälfte der Versuchspersonen wurde gesagt, dass der Klient beim Verkauf einen Gewinn von einer halben Million Dollar gemacht, der anderen Hälfte, dass er einen Verlust in gleicher Höhe erlitten habe. Der Klient, der einen Gewinn gemacht hat, möchte als „Investor“ im Sinne des anwendbaren Steuerrechts behandelt werden, weil dann der Ge­winn als Kapitalgewinn steuerfrei ist. Umgekehrt möchte der Klient, der einen Verlust erlitten hat, als „Händler“ qualifiziert werden, weil er dann den geschäftsmässigen Verlust vom Einkommen absetzen kann. Der Sachverhalt liess beide Qualifikationen zu.32

  8. Die Versuchspersonen hatten eine halbe Stunde Zeit, eine Datenbank nach einschlägigen Ur­teilen zu durchsuchen und die Urteile abzuspeichern, die sie in einem Memorandum zur Frage zitieren würden. Die speziell erstellte Datenbank enthielt gleich viele Urteile, in denen ein Gericht erkannt hatte, dass ein Steuerpflichtiger als Investor zu behandeln ist, wie Urteile, in denen erkannt wurde, dass er als Händler zu behandeln ist.33

  9. Die Versuchspersonen in der „Investor“ Gruppe studierten während 16,6 Minuten Urteile, in denen ein Steuerpflichtiger als Investor qualifiziert wurde, aber nur während 6,2 Minu­ten Urteile, in denen entschieden wurde, dass der Steuerpflichtige ein Händler ist. Sie speicherten im Schnitt 4,5 „Investor“ Fälle gegenüber nur 1,6 „Händler“ Fälle ab. Die Gruppe „Händler“ andererseits betrachtete während 12,3 Minuten „Händler“ Fälle und nur während 7,6 Minuten „Investor“ Fälle. Die Versuchspersonen in dieser Gruppe speicherten im Schnitt 3,9 „Händler“ und 1,6 „Investor“ Fälle ab.34 Die Versuchspersonen wurden anschliessend gefragt, wie gross die Chance sei, dass ein Gericht die vom Klienten bevor­zugte Sicht einnehmen würde. Die Gruppe „Händler“ sah eine Chance von 49 %, dass der Klient als Händler qualifiziert würde, während die Gruppe „Investor“ eine Chance von 66 % sah, dass der Klient als Investor eingestuft würde. Die tatsächliche Wahrscheinlichkeit sollte selbstverständlich nicht von der Präferenz des Klienten abhängen. Weniger als 11 % der Versuchspersonen gaben eine Wahrscheinlichkeit zwischen 33 % und 66 % an, die bei einem ausgewogenen Sachverhalt und neutraler Beurteilung zu erwarten wäre.35 Eine Pfadanalyse zeigt, dass die unterschiedliche Beurteilung in erster Linie auf die verzerrte Informationssuche zurückzuführen ist.36

  10. In einer weiteren Studie verwendeten Cloyd und Spilker einen Sachverhalt, der eigentlich nur den Schluss zuliess, dass der Klient als Händler einzustufen ist (vier neutrale Experten beurteilten unabhängig die Wahrscheinlichkeit, dass der Klient in diesem Fall von einem Gericht als „Investor“ behandelt würde, als zwischen 10 und 20 %). Die Ex­perten waren der Meinung, dass eine Steuerabrechnung als „Investor“ in diesem Fall sogar zu Sanktionen führen würde. Allen Versuchspersonen der zweiten Studie wurde gesagt, dass der Klient eine Behandlung als Investor vorziehen würde, weil er einen Gewinn ge­macht hatte. 46 % der Versuchspersonen empfahlen, dass der Klient als Investor abrechnen sollte. Diese Versuchspersonen verbrachten signifikant mehr Zeit als die Versuchsperso­nen, die die Abrechnung als Händler empfahlen, mit der Suche nach Urteilen, in denen Gerichte erkannt hatten, dass der Steuerpflichtige als Investor zu betrachten ist und spei­cherten signifikant mehr „Investor“ Urteile ab als die 54 % der Versuchspersonen, die zur richtigen Entscheidung gelangten.37 Aufgrund der Korrelation zwischen Suchverhalten und Empfehlung darf geschlossen werden, dass das verzerrte Suchverhalten die (allzu aggressive) Empfehlung verursachte.38

  11. Für Juristen möglicherweise tröstlich ist, dass eine weitere Untersuchung von Cloyd/Spilker zeigt, dass Rechtsstudierende bei der Beurteilung eines ambivalenten Sachverhalts weniger als Studierende eines Buchhaltungslehrganges (Master of Accoun­ting) zur konfirmatorischen Informationssuche neigen. Offenbar scheint die Ausbildung – zumindest an amerikanischen Law Schools, die nicht in jeder Hinsicht vergleichbar ist mit der Ausbildung an einer schweizerischen Rechtsfakultät – geeignet zu sein, gewissen „Wahrnehmungsstörungen“ entgegenzuwirken.39

  12. Kassin und Kollegen können zeigen, dass Verhörende, die von der Schuld des Verhörten überzeugt sind, aggressivere Einvernahmetechniken verwenden und mehr Druck auf den Verhörten ausüben; speziell wenn dieser (entgegen ihrer Vorstellung) unschuldig ist.40 Dies führt dazu, dass neutrale Beobachter das Verhalten der Verhörten als defensiver einstufen und die Verhörten als geringfügig schuldiger betrachten.41

II.Informationsbewertung

A.Ambivalente Informationen werden als Bestätigung interpretiert

  1. Nicht jedes Beweismittel spricht eindeutig für oder gegen eine Hypothese. Gerade im Recht sind Informationen häufig, die so oder anders interpretiert werden können. Siehe nur das folgende Gedankenexperiment von Curt Goetz:42

Sie gehen nachts spazieren und finden einen Mann in einer Blutlache liegen. Sie knien nieder … zie­hen ein Messer aus der Brust … In diesem Augenblick hören sie Schritte, und plötzlich kommt ihnen ihre Situation zu Bewusstsein: … der Tote kann nicht mehr für sie zeugen – und sie rennen davon, wie von Furien gejagt. Aber man fängt sie.

  1. Curt Goetz wünscht dem Betroffenen, dass er auf psychologisch geschulte Richter trifft. Man könnte auch sagen, auf Richter, die sich bewusst sind, dass Menschen die Neigung haben, ambivalente Informationen im Sinne der von ihnen als wahrscheinlich erachteten Hypothese zu interpretieren.43 Es ist offensichtlich, dass die Informationen in Goetz’ Gedankenexperiment ganz unterschiedlich bewertet werden können, je nachdem, ob man an die Schuld oder Unschuld des Gefassten glaubt.

  2. Eines der bekanntesten Experimente zur Interpretation von Fakten im Lichte der eigenen Theorie stammt von Lord, Lepper und Ross.44 Lord und Kollegen wählten Versuchsperso­nen aus, die entweder Befürworter oder Gegner der Todesstrafe waren. Die Versuchspersonen erhielten zwei Studien zur Lektüre, die scheinbar empirische Belege für oder gegen die Todesstrafe lieferten. Sowohl Befürworter wie Gegner der Todesstrafe bewerteten die Studie, die ihre Position scheinbar stützte, als überzeugender und besser durchgeführt als die Studie, die gegen ihre Position sprach. Zweitens führte die Lektüre beider Studien dazu, dass die Überzeugungen der beiden Gruppen noch mehr polarisiert wurden; d.h. sowohl Befürworter als auch Gegner waren nach Kenntnisnahme aller Be­weismittel – auch derjenigen, die ihrer Position widersprachen – von ihrer Position über­zeugter als zuvor. Diese Polarisation entstand dadurch, dass die Überzeugung der Ver­suchspersonen jedes Mal erheblich zunahm, wenn sie ein Argument für ihre Position lasen, aber nur unwesentlich abnahm, wenn sie ein Argument gegen die Position lasen. Koehler hat in einer ähnlichen Studie Anhänger und Gegner parapsychologischer Phänomene gebeten, die Qualität von wissenschaftlichen Untersuchungen solcher Phänomene zu be­werten. Beide Gruppen bewerteten Studien, die ihre Position stützten, als qualitativ bes­ser.45

  3. Zwei Drittel der Versuchspersonen von Koehler gaben an, dass ihre Bewertung von ihrer Einstellung zu den untersuchten Phänomenen nicht beeinflusst werde; 85 % meinten, dass ihre Bewertung nicht von der Einstellung beeinflusst werden sollte.46 Koehler weist (wie bereits Lord et al.) darauf hin, dass beide Aussagen falsch sind.47 Es ist normativ richtig, die Resultate einer Studie mit einer gesunden Portion Skepsis zu betrachten, wenn sie einem theoretisch gut fundierten, durch zahlreiche unabhängige Experimente bestätigten (richtiger: nicht falsifizierten) Modell widersprechen. Wenn ein unbekannter Wissen­schafter berichtet, dass Schweine fliegen können, ist die Wahrscheinlichkeit, dass seine Beobachtung falsch ist, grösser, als dass alle Zoologen der Menschheitsgeschichte falsch lagen. Problematisch wird die Skepsis dann, wenn der Urteilende zwischen zwei Theorien entscheiden muss, die beide durch die vorliegenden (ambivalenten) Daten gestützt werden können, wenn man die Daten nur „richtig“ liest und keine der beiden Theorien a priori eine grössere Überzeugungskraft besitzt. Dies ist aber genau die Situation, in der sich der Richter oft befindet, wenn er über die Stichhaltigkeit der Theorien von Anklage und Ver­teidigung, von Kläger und Beklagtem, entscheiden muss. In diesem Fall fällt der Entscheid – in Grenzfällen – regelmässig auf die Seite, die der Richter, und sei es auch nur als „Ar­beitshypothese“, ursprünglich als zutreffend erachtet.48 Dies kann, siehe hinten, S. ff., beispielsweise die These sein, die durch die zuerst vorgebrachten Beweismittel gestützt wird.

B.Bestätigende Informationen werden stärker gewichtet als widersprechende Informationen

  1. Beweismittel, die für eine von der Versuchsperson gehaltene These sprechen, werden bes­ser wahrgenommen, erinnert und stärker gewichtet als Beweismittel, die gegen die These sprechen.49 Nach Gadenne und Oswald werden hypothesenbestätigende Informatio­nen zu stark gewichtet, während hypothesekonträre Informationen erst als wichtig wahrge­nommen werden, wenn sie der Hypothese deutlich widersprechen. Auch bei stärkster konträrer Information bleibt die anfängliche Hypothese immer noch die stärkste Hypo­these; erst der deutliche Hinweis auf eine alternative Erklärung vermag den Effekt (weit­gehend) zum Verschwinden zu bringen.50 Gemäss der bereits vorne, S. , erwähnten Studie von Schum und Martin neigen Menschen dazu, bei der globalen Bewertung der Beweismittel konträre Beweismittel schlicht zu ignorieren oder als hypothesenbestätigend zu interpretieren.51 Man hat die Tendenz, sich darauf zu konzentrieren, wie gut die Beweis­mittel eine Hypothese stützen, und vergisst dabei zu überlegen, wie gut die gleichen Beweismittel auch mit einer alternativen Hypothese in Einklang stehen.52

  2. Linda Johnson legte 109 Steuerberatern vier Gerichtsurteile zu einer umstrittenen steuerlichen Abgrenzungsfrage vor. Der Sachverhalt blieb bei jedem Urteil immer der­selbe, aber der Ausgang des Verfahrens wurde so manipuliert, dass in jeder Versuchs­gruppe zwei andere Fälle zu einem für den Klienten günstigen Schluss kamen. Die Ver­suchspersonen wurden gebeten, die Relevanz der Urteile – die in erster Linie davon abhängt, ob die Fälle wegen des übereinstimmenden Sachverhalts gute Präjudizien sind – für den von ihnen zu beurteilenden Fall zu bewerten. Urteile, die zu einem für den Klienten positiven Schluss kamen, werden als relevanter beurteilt; diese Tendenz beeinflusste wie­derum die Beurteilung der Prozesschancen durch die Steuerberater.53

  3. Eine Studie von Babcock et al. belegt ebenfalls den Einfluss, den die Perspektive auf die Beurteilung der Prozesschancen haben kann. Wie vorne, S. , dargelegt, hängt es nach dem ökonomischen Modell von Vergleichsverhandlungen in erster Linie von der Einschät­zung des Prozessausgangs durch die Parteien ab, ob die Parteien sich aussergerichtlich einigen. Die korrekte Voraussage des richterlichen Urteils hängt wiederum von den Fähig­keiten der Parteien ab, die Stärken und Schwächen ihres Falles unvoreingenommen zu beurteilen. Wenn bereits die Wahrnehmung des Falles verzerrt ist, werden auch die Ur­teilserwartungen systematisch verzerrt sein, und es kommt seltener zum Vergleich. Babcock et al. haben genau diese verzerrte Einschätzung der eigenen Prozesschancen nachgewiesen.54 Wenn alle ihre Versuchspersonen zuerst die Unterlagen zum Streitfall studierten und dann zufällig in die Gruppen „Beklagte“ oder „Kläger“ eingeteilt wurden, einigten sich 94 % der Paare auf einen Vergleich. Wurden die Versuchspersonen vor der Lektüre der Unterlagen in die Gruppen „Beklagte“ und Kläger eingeteilt, so einigten sich nur 72 % der Verhandelnden; ein signifikanter Unterschied.55 Die Differenz zwischen dem vom Kläger und vom Beklagten erwartetem Urteil war im ersten Fall im Schnitt nur $ 6'936, im zweiten Fall aber $ 18'555. Die Lektüre des Sachverhalts aus der Sicht einer Partei hatte die Wahrnehmung der Versuchspersonen so verändert, dass ihre Einschätzung des Prozessausgangs systematisch zu ihren Gunsten verzerrt war.56

III.Folgen der Bestätigungstendenzen

A.Festhalten selbst an einer diskreditierten Hypothese (belief perseverance)

  1. Als belief perseverance wird das Phänomen bezeichnet, dass Leute selbst an einer völlig dis­kreditierten Theorie festhalten.57 In der ursprünglichen Studie von Ross et al. wurden Versuchspersonen gebeten, echte von unechten Abschiedsbriefen von Selbstmördern zu unterscheiden. Der „Erfolg“ der Versuchspersonen war dabei rein zufällig und hing von der Gruppe ab, der sie zugeteilt worden waren. Auch nachdem sie darüber aufgeklärt worden waren, beurteilten die Versuchspersonen in der „Erfolgs“ Gruppe ihre Fähigkeit, ähnliche Aufgaben zu lösen, höher als die Versuchspersonen in der „Misserfolgs“ Gruppe. Zahlreiche weitere Studien bestätigen den ursprünglichen Befund von Ross et al.58

B.Einfluss der Reihenfolge der Beweismittel (primacy effect)

  1. Die ursprüngliche Hypothese, die die Wahrnehmung und/oder Gewichtung von Beweis­mitteln beeinflusst, muss erst einmal generiert werden. Nicht in allen Fällen hat der Urteilende von vorneherein eine Meinung zum Thema; gerade im juristischen Bereich dürfte er häufig vorerst unvoreingenommen sein. Die Forschung zum primacy effect legt nahe, dass die Hypothese, die von dem oder den ersten Beweismitteln favorisiert wird, zur Arbeitshypothese wird und die Bewertung der weiteren Beweismittel beeinflusst.

  2. Der primacy effect wurde erstmals von Solomon Asch beschrieben. Asch beschrieb der ei­nen Hälfte seiner Versuchspersonen eine Person als intelligent-fleissig-impulsiv-kritisch-eigensinnig-neidisch, der anderen Hälfte als neidisch-eigensinnig-kritisch-impulsiv-fleis­sig-intelligent. Die Versuchspersonen in der ersten Gruppe beurteilten die beschriebene Person durchwegs positiver als diejenigen in der zweiten Gruppe.59 Asch selber interpre­tierte die Ergebnisse dahingehend, dass die Bedeutung der späteren Adjektive durch die zuerst wahrgenommenen Adjektive geformt wird; d.h. „eigensinnig“ wird positiv als „ei­genständig“ kodiert, weil der betreffende Mensch intelligent ist und daher seinen Mitmen­schen zu Recht häufig widerspricht. Diese Interpretation der Ergebnisse hat ihre Anhänger und Gegner; eine Gegenmeinung ist, dass die späteren Adjektive nicht anders codiert werden, sondern schlicht weniger Gewicht erhalten.60 Die Annahme, dass der primacy effect durch die frühe Bildung einer Hypothese entsteht, ist mit beiden Auffassungen kom­patibel.61 Die ebenfalls nahe liegende Auffassung, dass die stärkere Beachtung zuerst dargebotener Beweismittel einfach darauf zurückzuführen ist, dass die Aufmerksamkeit der Versuchspersonen nachlässt, gilt als durch Experimente von Jones und Goethals widerlegt.62

  3. Studien, die einen primacy effect nachweisen, sind ausserordentlich zahlreich.63 Manche Stu­dien berichten aber auch von einem recency effect, d.h., die zuletzt dargebotenen In­formationen beeinflussen das Urteil stärker. Dies erscheint paradox. Der recency effect scheint aber in erster Linie ein Gedächtnisphänomen zu sein; er tritt dann auf, wenn den Versuchspersonen relativ zahlreiche Informationen in schneller Folge dargeboten werden. In diesen Fällen erinnern sie sich nicht mehr an die ersten Informationen; diese können folglich auch das Urteil nicht mehr beeinflussen.64 Recency effects treten zudem häufiger auf, wenn die Versuchspersonen nach jedem einzelnen Beweismittels ein Zwischenurteil abgeben, während primacy effects vorwiegend dann beobachtet werden, wenn die Beur­teilung erst am Schluss, alle Informationen gesamthaft vorliegen, abgegeben wird.65

  4. Studien mit spezifisch juristischen Fragestellungen haben, wie andere Studien, sowohl re­cency wie primacy effects gefunden.66 Pennington stellt im Gegensatz zu Thibaut und Walker einen klaren primacy effect fest und schreibt dies der grösseren Realitätsnähe seiner Studie zu.67 Die neuste verfügbare Studie von Costabile/Klein findet wiederum recency effects, schreibt diese aber selber in erster Linie dem Gedächtnis der Geschwore­nen zu, die sich an Beweismittel, die erst spät eingeführt wird, im Zeitpunkt des Urteils besser erinnern.68 Bei der Interpretation amerikanischer Studien zum Einfluss der Reihen­folge der Beweismittel auf Urteile von Geschworenen ist Vorsicht geboten, weil das ame­rikanische Prozessrecht sich grundlegend vom schweizerischen unterscheidet. In amerika­nischen Geschworenenprozessen gilt das Unmittelbarkeitsprinzip und den Geschworenen ist es verboten, Notizen zu machen. Diese beiden Faktoren fördern natürlich recency ef­fects stark; man kann sich vorstellen, wie schwierig es ist, sich nach einer Reihe von Zeu­geneinvernahmen noch an die Aussagen des ersten Zeugen zu erinnern, wenn man keine Notizen machen darf.

C.Zu grosse Sicherheit im Urteil (overconfidence)

  1. Die ungenügende Berücksichtigung und Gewichtung widersprüchlicher Informationen kann dazu führen, dass sich der Entscheidende seiner Sache zu sicher ist (mehr zur Selbst­überschätzung generell hinten, S. ff.).69 Frauen, die weniger zur Selbstüberschätzung neigen als Männer, bewerten hypothesenkonträre Informationen als wichtiger und empfin­den (daher) die zu beurteilende Frage als schwieriger, was zu entsprechend geringerer empfundener Sicherheit bezüglich der Richtigkeit ihrer Antwort führt.70 Die Annahme, dass die einseitige Gewichtung der Argumente zu allzu grosser Gewissheit führt, dass das eigene Urteil richtig ist, wird durch Experimente gestützt, in denen die Versuchspersonen gezwungen werden, Gründe aufzulisten, die gegen die von ihnen getroffene Entscheidung sprechen.71 Wenn sie dies tun, stimmt ihre Einschätzung der Wahrscheinlichkeit, dass ihr Urteil richtig ist, eher mit der tatsächlichen Häufigkeit richtiger Urteile überein.72

IV.Eigene Studie zum Bestätigungsfehler

A.Frage zur Pseudodiagnostizität

  1. Den Richterinnen und Richtern der Zivil- und Strafgerichte der Kanton beider Basel, Bern und Graubünden wurde folgender Sachverhalt vorgelegt:

Eine Fussgängerin wird von einem Auto angefahren und leicht verletzt. Der Fahrer des Autos begeht Fah­rerflucht.

Die Fussgängerin sagt aus, sie sei entweder von einem Ford oder einem Opel angefahren worden. Sie kann nicht sagen, welche der beiden Marken es war, aber sie erinnert sich, dass es sich um einen schwar­zen Kombi mit Schweizer Nummernschildern handelte.

  1. Die Hälfte der Fragebogen („plausible Arbeitshypothese“) setzen sich wie folgt fort:

Sie wissen folgendes:

A. Es gibt gleich viele Personenwagen der Marken Opel und Ford in der Schweiz.

B. 60 % aller in der Schweiz zugelassener Personenwagen der Marke Opel sind Kombis.

Folgende Informationen sind ebenfalls erhältlich:

C. Der prozentuale Anteil Kombis an der Gesamtheit in der Schweiz zugelassener Personenwagen der Marke Ford.

D. Der prozentuale Anteil schwarzer Fahrzeuge an der Gesamtheit in der Schweiz zugelassener Perso­nenwagen der Marke Opel.

E. Der prozentuale Anteil schwarzer Fahrzeuge an der Gesamtheit in der Schweiz zugelassener Perso­nenwagen der Marke Ford.

  1. Die andere Hälfte („unplausible Arbeitshypothese“) lautete folgendermassen:

Sie wissen folgendes:

A. Es gibt gleich viele Personenwagen der Marken Opel und Ford in der Schweiz.

B. 10 % aller in der Schweiz zugelassener Personenwagen der Marke Ford sind schwarz.

Folgende Informationen sind ebenfalls erhältlich:

C. Der prozentuale Anteil schwarzer Fahrzeuge an der Gesamtheit in der Schweiz zugelassener Perso­nenwagen der Marke Opel.

D. Der prozentuale Anteil Kombis an der Gesamtheit in der Schweiz zugelassener Personenwagen der Marke Ford.

E. Der prozentuale Anteil Kombis an der Gesamtheit in der Schweiz zugelassener Personenwagen der Marke Opel.

  1. In beiden Fällen wurden die Richterinnen und Richter gefragt, welche der zusätzlichen Infor­mationen C, D oder E ihnen hilft entscheiden, ob die Fussgängerin einen Ford oder einen Opel gesehen hat, wenn keine anderen als die zur Auswahl stehenden Informationen erhältlich sind. In beiden Gruppen ist die Antwort C diagnostisch, die Antwort D pseudo­diagnostisch für die Arbeitshypothese und die Antwort E pseudodiagnostisch für die alter­native Hypothese. Die Gruppen werden als „plausibel“ und „unplausibel“ bezeichnet, weil das bekannte Indiz „Art des Fahrzeuges“ in der ersten Gruppe bei mehr als 50 % der In­stanzen der Kategorie „Opel“ vorliegt, während das bekannte Indiz „Farbe“ in der zweiten Gruppe nur bei 10 % der Instanzen der Kategorie „Ford“ vorliegt. Folglich erhält die focal hypothesis (hier als „Arbeitshypothese“ bezeichnet) durch das bekannte Indiz der ersten Gruppe mehr Unterstützung als durch das bekannte Indiz der zweiten Gruppe (in der ersten Gruppe P(Kombi | Opel) = 0,6; in der zweiten Gruppe P(Schwarz | Ford) = 0,1). Nach Mynatt, Doherty und Dragan müsste dies dazu führen, dass die alternative Hypothese eher in Betracht gezogen wird und daher der Anteil pseudodiagnostischer Antworten sinkt (womit auch gleich die Hypothese formuliert wäre).73

  2. Systematisch lassen sich die bekannten und erhältlichen Informationen in einer Matrix ge­mäss darstellen. Die Gruppe „plausible Arbeitshypothese“ kennt die Informa­tion in der Zelle A (P(Kombi Opel) = 0,6). Diagnostisch ist die Information in Zelle B, während die Information in Zelle C weitere Informationen über die Arbeitshypothese („angenommen, es ist ein Opel“) liefert und gemäss üblichem Sprachgebrauch als pseudo­diagnostisch bezeichnet wird. Die Zelle D wird in traditionellen Pseudodiagnose-Studien selten gewählt; sie ist pseudodiagnostisch für die Alternativhypothese.


Opel (H1)

Ford (H2)

% Kombis (I1)

Zelle A: P(I1 | H1)

Anteil Kombis an Opel“

Zelle B: P(I1 | H2)

Anteil Kombis an Ford“

% schwarz (I2)

Zelle C: P(I2 | H1)

Anteil schwarz an Opel“

Zelle D: P(I2 | H2)

Anteil schwarz an Ford“

Tabelle 14: Systematische Darstellung des Diagnose-Problems

B.Resultate

  1. 190 der 234 Richterinnen und Richter, die den Fragebogen zumindest teilweise ausgefüllt zu­rückgeschickt hatten, beantworteten die Frage nach der Diagnostizität der Beweismittel. Die vergleichsweise hohe Ausfallquote von 18,8 % ist darauf zurückzuführen, dass relativ viele Richter meinten, keine der angebotenen Informationen würde es ihnen erlauben, die Frage, ob es sich um einen Opel oder einen Ford gehandelt habe, mit hinreichender Sicher­heit zu entscheiden. Das ist zweifelsfrei richtig. Allerdings war die Frage, welche der Informationen helfen würde, zu entscheiden; und diese Frage kann meines Erachtens sinn­voll beantwortet werden. Sie mag zugegebenermassen wenig realistisch sein, weil man in einem tatsächlichen Gerichts- oder Untersuchungsverfahren den Aufwand, diese – auf jeden Fall nicht sehr diagnostischen – Informationen zu beschaffen, kaum treiben würde.

Antworten

Diagnostisch (C)

PD für Arbeitsh. (D)

PD für Alternativh. (E)

Total

plausible

Arbeits­hypothese

34 (35 %)

44 (46 %)

18 (19 %)

96

unplausible

Arbeits­hypothese

38 (40 %)

26 (27 %)

30 (32 %)

94

72

70

48

190

Tabelle 15: Resultate zur Frage nach dem diagnostischen Beweismittel (PD = pseudo­diagnostisch)

  1. Die Resultate der Frage zur Diagnostizität der Beweismittel sind in Tabelle 15 dargestellt. Der Einfluss der Plausibilität der Arbeitshypothese auf die Antworten ist statistisch signifi­kant.74 Der Anteil der diagnostischen Antworten ist in beiden Gruppen ungefähr gleich gross (35 resp. 40 %). Der Trend – mehr diagnostische Antworten bei unplausibler Ar­beitshypothese – zeigt in die erwartete Richtung. Ein erheblicher Unterschied zeigt sich bei den pseudodiagnostischen Antworten für die Arbeitshypothese; sie nehmen von 46 % bei plausibler Arbeitshypothese auf 27 % bei unplausibler Arbeitshypothese ab. Das Verhält­nis von diagnostischen zu pseudodiagnostischen Antworten kehrt sich beim Wechsel von der plausiblen zur unplausiblen Arbeitshypothese um. Die Resultate von Mynatt, Doherty und Dragan wurden somit repliziert.75

  2. Der Abnahme der Anzahl pseudodiagnostischer Antworten bei unplausibler Arbeitshypo­these entspricht aber nicht, wie bei Mynatt et al., eine in etwa gleich starke Zunahme bei den diagnostischen Antworten. Stattdessen haben mehr Richterinnen und Richter in der Gruppe „unplausible Arbeitshypothese“ die pseudodiagnostische Information für die Al­ternativhypothese gewählt; nämlich 32 % gegenüber 19 %. Ein ähnliches Phänomen wurde von Evans, Venn und Feeney beobachtet, die ebenfalls einen stabilen Anteil an diagnos­tischen Antworten, aber eine Verschiebung zu Gunsten der sonst eher selten gewählten Antwort „E“ (bei ihnen „D“) feststellten, als sie die Plausibilität der focal hypothesis von stark zu schwach manipulierten.76

C.Diskussion

  1. Die Resultate replizieren die Studie von Mynatt et al. und sprechen dafür, dass der Hauptgrund für die Wahl pseudodiagnostischer Informationen die Schwierigkeit ist, meh­rere Alternativen gleichzeitig zu verfolgen. Stattdessen konzentriert sich der Mensch auf die Arbeitshypothese – wobei es bereits genügt, dass sich die verfügbaren Informationen auf diese Hypothese beziehen, damit eine Hypothese zur Arbeitshypothese wird – und sucht nach weiteren Informationen zu dieser Hypothese. Dabei vergisst man leicht, dass sich der abstrakte Beweiswert eines Indizes nur beurteilen lässt, wenn man weiss, wie oft es vorkommt, wenn die Arbeitshypothese nicht zutrifft.

  2. Die beobachtete Verschiebung von Antworten „D“ zu Antworten „E“ bei der unplausiblen Hypothese wurde von Mynatt et al. nicht beobachtet, entspricht aber den Resultaten von Evans et al. Diese erklären sie damit, dass die Versuchspersonen, die mit einer unplausib­len Arbeitshypothese konfrontiert sind, zu den Antworten „E“ wechseln, weil sie die Al­ternativhypothese zu ihrer neuen Arbeitshypothese machen. Die Antworten „E“ sind die pseudodiagnostischen Antworten für Leute, die die Alternativhypothese zu ihrer Arbeits­hypothese gemacht haben.77 So betrachtet verstärken diese Resultate die Überzeugungs­kraft der Theorie, dass pseudodiagnostische Informationssuche darauf zurückzuführen ist, dass man nicht mehr als eine Hypothese gleichzeitig im Arbeitsgedächtnis behalten kann.

  3. Warum aber haben Mynatt et al. keine Verschiebung zugunsten von „E“ beobachtet? Eine spekulative, aber plausible, Erklärung ist, dass ihre Manipulation zur Diskreditierung der Plausibilität der Arbeitshypothese nicht ausreichend stark war, um einen Wechsel des Fokus zu bewirken. Bei Mynatt et al. betrug P(I1 | H1) bei der plausiblen Hypothese 0,65 und bei der unplausiblen Hypothese 0,35 (also rund die Hälfte), während bei der vorlie­genden Studie P(I1 | H1) bei der plausiblen Hypothese 0,6 und bei der unplausiblen 0,1 – also sechs Mal weniger – betrug. Die Manipulation der Plausibilität der Arbeitshypothese war bei Evans et al. m.E. ebenfalls stärker als bei Mynatt et al. Die Versuchspersonen bei Evans et al. sollten aufgrund ganz ähnlicher Informationen, wie sie in der vorliegen­den Studie verwendet wurden, herausfinden, welche Marke das Auto ihrer Schwester hat. Die Manipulation der Plausibilität der Arbeitshypothese geschah nicht über die Verände­rung von P(I1 | H1), sondern dadurch, dass den Versuchspersonen erklärt wurde, ihre Schwester lege grossen Wert auf ein sparsames Auto. Die Information (I1 | H1), die den Versuchspersonen bekannt war, war entweder, dass das Modell Y 14 Liter, 8 Liter oder 6 Liter Benzin pro 100 Kilometer verbrauche.78 Da es eher unwahrscheinlich ist, dass je­mand, der grossen Wert auf ein sparsames Auto legt, ein Auto besitzt, dass 14 Liter Benzin pro 100 Kilometer verbraucht, ist die Arbeitshypothese im ersten Fall am unplausibelsten; die Versuchspersonen schlossen aus dieser Angabe wahrscheinlich, dass es sich beim Auto ihrer Schwester nicht um ein Modell Y handelt und konzentrierten sich auf das Modell X.

V.Was kann gegen Bestätigungstendenzen unternommen werden?

A.Kontrafaktisches Denken (counterfactual reasoning)

  1. Als Strategie zur Vermeidung von Bestätigungstendenzen – und anderen kognitiven Täuschungen – hat sich das im Englischen als counterfactual reasoning bezeichnete Den­ken bewährt, das sich nur ungenügend mit „kontrafaktisches Denken“ ins Deutsche über­setzen lässt.79 Wenn man kontrafaktisch denkt, stellt man sich vor, welche Bedingungen hätten vorhanden sein müssen, damit ein Ereignis nicht eingetreten wäre.80 Kontrafakti­sche Gedanken rekonstruieren die Vergangenheit und werden meist durch Sätze, die mit „wenn (ich) doch nur (nicht)“ beginnen, ausgedrückt. Das Nachdenken darüber „was hätte sein können“ beeinflusst, wie wir über eine zukünftige Situation denken. Es schärft das Bewusstsein dafür, dass man mehr als eine Möglichkeit in Betracht ziehen sollte, ehe man eine Entscheidung fällt.81 Kontrafaktisches Denken erleichtert es, sich vorzustellen, wel­che Gründe gegen die derzeit favorisierte Hypothese sprechen.82 Menschen erzählen gerne und gut Geschichten; es fällt uns leicht, im Nachhinein eine Erklärung für eine Beobach­tung zu finden, die plausibel und überzeugend klingt.83 Von der Plausibilität der Erklärung zur Überzeugung, dass die Erklärung richtig ist, ist es nur ein kleiner Schritt. Aktiv und bewusst Gründe zu suchen, die gegen die Erklärung/Hypothese sprechen, schärft den Blick für Informationen, die der ersten Erklärung widersprechen und gerne unter den Tisch gewischt werden. Es trägt dazu bei, die vorhandenen Informationen ausgewogener zu gewichten und wirkt daher einer der Ursachen von Bestätigungstendenzen entgegen.

B.Alternative Erklärungen generieren und testen

  1. Alles deutet darauf hin, dass die Beachtung einer alternativen Hypothese den Bestätigungs­fehler stark verringert oder gar verschwinden lässt.84 Erfolgreiche Versuchspersonen zeichnen sich dadurch aus, dass sie mehrere Hypothesen generieren und testen.85 Die Bevorzugung hypothesenbestätigender Informationen verschwindet, wenn die Versuchs­personen auf eine alternative Hypothese hingewiesen werden.86 Man sollte daher immer ver­suchen, sich alternative Erklärungen für die beobachteten Fakten vorzustellen und zu testen. Auf keinen Fall sollte man sich frühzeitig gegenüber Dritten oder gar der Öffent­lichkeit auf eine Hypothese festlegen; je grösser das commitment gegenüber einer Hypo­these, desto unangenehmer ist es, die Hypothese wieder aufgeben zu müssen, und desto grösser die unbewusste Tendenz, alles zu tun, um dies zu vermeiden. Alternative Hypothe­sen können auch durch einen advocatus diaboli generiert werden, da es manchmal schwie­rig ist, sich alternative Hypothesen vorzustellen, wenn man sich bereits auf eine Erklärung eingeschossen hat.

1 Joshua Klayman, Varieties of Confirmation Bias, in: Jerome Busemeyer/Reid Hastie/Douglas L. Medin (Hrsg.), Decision Making From a Cognitive Perspective, New York 1995, 385-418, 385: “There are almost as many operational definitions of confirmation bias as there are studies”; Raymond S. Nickerson, Confirmation Bias: A Ubiquitious Phenomenon in Many Guises, Review of General Psychology 1998, 175-220, 220.

2 Nach Klaus Fiedler, Beruhen Bestätigungsfehler nur auf einem Bestätigungsfehler?, Psychologische Beiträge 1983, 280-286, 282.

3 Klayman, FN , 386.

4 Klayman, FN , 385; Nickerson, FN , 177; Fiedler, FN , 282.

5 Clifford R. Mynatt/Michael E. Doherty/William Dragan, Information Relevance, Working Memory, and the Consideration of Alternatives, The Quarterly Journal of Experimental Psychology 1993, 759-788.

6 Jonathan St. B. T. Evans, Bias in Human Reasoning: Causes and Consequences, Hove 1989.

7 Klayman, FN , 399.

8 Volker Gadenne, Der Bestätigungsfehler und die Rationalität kognitiver Prozesse, Psychologische Beiträge 1982, 11-25; Joshua Klayman/Young-Won Ha, Confirmation, Disconfirmation, and Information in Hypothesis Testing, Psychological Review 1987, 211-228; James Friedrich, Primary Error Detection and Minimization (PEDMIN) Strategies in Social Cognition: A Reinterpretation of Confirmation Bias Phenomena, Psychological Review 1993, 298-319.

9 Gadenne, FN , 13.

10 Nickerson, FN ; Klayman, FN .

11 Michael E. Doherty/Clifford R. Mynatt/Ryan D. Tweney/Michael D. Schiavo, Pseudodiagnos­ticitiy, Acta Psychologica 1979, 111-121.

12 Doherty/Mynatt/Tweney/Schiavo, FN , 114 f.

13 Doherty/Mynatt/Tweney/Schiavo, FN , 117.

14 Klayman, FN , 397.

15 Doherty/Mynatt/Tweney/Schiavo, FN , 116.

16 Dawes, FN , 12088.

17 Mynatt/Doherty/Dragan, FN , 774; Jonathan St.B.T. Evans/Simon Venn/Aidan Feeney, Implicit and Explicit Processes in a Hypothesis Testing Task, British Journal of Psychology 2002, 31-46.

18 Mynatt/Doherty/Dragan, FN , 774 f.

19 Aidan Feeney/Jonathan St.B.T. Evans/Simon Venn, A Rarity Heuristic for Hypothesis Testing, in: Lila R. Gleitman/Aravid K. Joshi (Hrsg.), Proceedings of the 22nd Annual Conference of the Cognitive Science Society, Mahwah 2000, 119-124; ob eine Eigenschaft selten ist, können die Versuchspersonen auch aufgrund ihres Hintergrundwissens ahnen, Aidan Feeney/Jonathan St.B.T. Evans/John Clibbens, Background Beliefs and Evidence Interpretation, Thinking and Reasoning 2000, 97-124.

20 Feeney/Evans/Venn, FN , 121.

21 Peter C. Wason, On the Failure to Eliminate Hypothesis in a Conceptual Task, Quarterly Journal of Experimental Psychology 1960, 129-140.

22 Wason, FN , 135.

23 Peter C. Wason/Philip N. Johnson-Laird, Psychology of Reasoning, London 1972, 210.

24 Gadenne, FN , 18 f.

25 Klayman/Ha, FN , 217.

26 Ist aber in einem zweiten Schritt, wenn die Hypothese aufgrund der positiven Teststrategie nicht falsifiziert wurde, dennoch notwendig, da ansonsten der Likelihood-Quotient nicht gebildet werden kann.

27 Klayman/Ha, FN , 212

28 Nachweise bei Eva Jonas/Stefan Schulz-Hardt/Dieter Frey, Konfirmatorische Informations­suche bei simultaner vs. sequentieller Informationsvorgabe, Zeitschrift für Experimentelle Psychologie 2001, 239-247.

29 Jonas/Schulz-Hardt/Frey, FN , 244.

30 Stefan Schulz-Hardt/Dieter Frey/Kristiane Fago/Güler Kici, Selektive Informationssuche und Gruppenheterogenität: Der Einfluss verschiedener Formen der Gruppenheterogenität auf Selbstbestätigungsprozesse bei Entscheidungen, Gruppendynamik 1999, 161-174.

31 C. Bryan Cloyd/Brian C. Spilker, The Influence of Client Preferences on Tax Professionals’ Search for Judicial Precedents, Subsequent Judgments and Recommendations, The Accounting Review 1999, 299-322.

32 Cloyd/Spilker, FN , 307.

33 Cloyd/Spilker, FN , 307.

34 Cloyd/Spilker, FN , 309.

35 Cloyd/Spilker, FN , 310.

36 Cloyd/Spilker, FN , 313.

37 Cloyd/Spilker, FN , 316.

38 Dieser Schluss von Korrelation auf Kausation ist hier zulässig, weil in dem Laborexperiment die übrigen Variablen kontrolliert werden konnten.

39 C. Bryan Cloyd/Brian C. Spilker, Confirmation Bias in Tax Information Search: A Comparison of Law Students and Accounting Students, Journal of the American Taxation Association 2000, 60-71.

40 Saul M. Kassin/Christine C. Goldstein/Kenneth Savitsky, Behavioral Confirmation in the Interrogation Room: On the Dangers of Presuming Guilt, Law and Human Behavior 2003, 187-203.

41 Kassin/Goldstein/Savitsky, FN , 198.

42 Zitiert nach Bender/Nack, FN , X.

43 Zu dieser Tendenz Lee Ross/Craig A. Anderson, Shortcomings in the Attribution Process, in: Tversky/Kahneman/Slovic (Hrsg.), 129-152, 144 ff.; Klayman, FN , 394.

44 Charles G. Lord/Lee Ross/Mark R. Lepper, Biased Assimilation and Attitude Polarization: The Effects of Prior Theories on Subsequently Considered Evidence, Journal of Personality and Social Psychology 1979, 2098-2109.

45 Jonathan J. Koehler, The Influence of Prior Beliefs on Scientific Judgements of Evidence Quality, Organizational Behavior and Human Decision Making Processes 1993, 28-55; siehe auch Tom Pyszczynski/Jeff Greenberg, Toward an Integration of Cognitive and Motivational Perspectives on Social Inference: A Biased Hypothesis Testing Model, in: Leonard Berkowitz (Hrsg.), Advances in Experimental Social Psychology, Vol. 30, San Diego etc. 1987, 297-340, 329.

46 Koehler, FN , 45 f.

47 Koehler, FN , 30 f.; Lord/Ross/Lepper, FN , 2106.

48 Derek J. Koehler, Explanation, Imagination, and Confidence in Judgment, Psychological Bulletin 1991, 499-519.

49 Nickerson, FN , 178; Klayman, FN , 395; Richard Nisbett/Lee Ross, Human Inference: Strategies and Shortcomings of Social Judgment, Englewood Cliffs 1980, 181 f.; Margrit E. Oswald, Hypothesentesten: Suche und Verarbeitung hypothesenkonformer und hypothesen­konträrer Informationen, in: Hell/Fiedler/Gigerenzer (Hrsg), FN , 189-212, 197; jeweils mit zahlreichen Hinweisen.

50 Volker Gadenne/Margrit Oswald, Entstehung und Veränderung von Bestätigungstendenzen beim Testen von Hypothesen, Zeitschrift für experimentelle und angewandte Psychologie 1986, 360-374.

51 Schum/Martin, FN , 164.

52 Dale Griffin/Amos Tversky, The Weighing of Evidence and the Determination of Confidence, Cognitive Psychology 1992, 411-435; Nachdruck in: Gilovich/Griffin/Kahneman (Hrsg.), 230-249, 238.

53 Linda M. Johnson, An Empirical Investigation of the Effects of Advocacy on Preparers' Evaluations of Judicial Evidence, Journal of the American Taxation Association 1993, 1-22.

54 Linda Babcock/George Loewenstein/Samuel Issacharoff/Colin Camerer, Biased Judgments of Fairness in Bargaining, American Economic Review 1995, 1337-1342.

55 Babcock/Loewenstein/Issacharoff/Camerer, FN , 1340.

56 Siehe auch George Loewenstein/Samuel Issacharoff/Colin Camerer/Linda Babcock, Self-Serving Assessments of Fairness and Pretrial Bargaining, Journal of Legal Studies 1993, 135-159.

57 Lee Ross/Mark R. Lepper/Michael Hubbard, Perseverance in Self Perception and Social Perception: Biased Attributional Processes in the Debriefing Paradigm, Journal of Personality and Social Psychology 1975, 880-892.

58 Nachweise bei Nickerson, FN , 187; Ross/Nisbett, FN , 175 ff.

59 Solomon Asch, Forming Impressions of Personality, Journal of Abnormal and Social Psychology 1946, 258-290, 270 f.

60 Nachweise bei Nisbett/Ross, FN , 173 f.

61 Nisbett/Ross, FN , 174.

62 Nisbett/Ross, FN , 174 f.

63 Nachweise bei Nisbett/Ross, FN , 172 ff.; Nickerson, FN , 187.

64 Nisbett/Ross, FN , 172.

65 Robin M. Hogarth/Hillel J. Einhorn, Order Effects in Belief Updating: The Belief-Adjustment Model, Cognitive Psychology 1992, 1-55, 5.

66 Donald C. Pennington, Witnesses and Their Testimony: Effects of Ordering on Juror Verdicts, Journal of Applied Social Psychology 1982, 318-333, mit Nachweisen.

67 Pennington, FN , 330; John Thibaut/Laurens Walker, Procedural Justice: A Psychological Analysis, Hillsdale 1975, 61.

68 Kristi A. Costabile/Stanley B. Klein, Finishing Strong: Recency Effects in Juror Judgments, Basic and Applied Social Psychology 2005, 47-58.

69 Nickerson, FN , 189.

70 Janne Chung/Gary S. Monroe, Gender Differences in Information Processing: An Empirical Test of the Hypothesis-Confirming Strategy in an Audit Context, Accounting and Finance 1998, 256-279.

71 Asher Koriat/Sarah Lichtenstein/Baruch Fischhoff, Reasons for Confidence, Journal of Experimental Psychology: Human Learning and Memory 1980, 107-118.

72 Koriat/Lichtenstein/Fischhoff, FN , 110.

73 Mynatt/Doherty/Dragan, FN , 766.

74 χ2 = 7,831, p = 0,02.

75 Mynatt/Doherty/Dragan, FN 859, 774.

76 Evans/Venn/Feeney, FN 871, 36.

77 Evans/Venn/Feeney, FN 871, 42.

78 Im Original 20/25/50 (UK) mpg; Evans/Venn/Feeney, FN 871, 35.

79 Laura J. Kray/Adam D. Galinsky, The Debiasing Effect of Counterfactual Mind-Sets: Increasing the Search for Disconfirmatory Information in Group Decisions, Organizational Behavior and Human Decision Processes 2003, 69-81.

80 Daniel Kahneman/Amos Tversky, The Simulation Heuristic, in: Kahneman/Slovic/Tversky (Hrsg.), 201-208, 203.

81 Kray/Galinsky, FN 933, 70.

82 Koriat/Lichtenstein/Fischhoff, FN 925, 109.

83 Koehler, FN 902, 500 ff.

84 Gadenne/Oswald, FN 904, 372; Klayman, FN 855, 405; Mynatt/Doherty/Dragan, FN 859, 775; Evans/Venn/Feeney, FN 871, 42

85 Klayman, FN 855, 405.

86 Gadenne/Oswald, FN 904, 372.