Dies ist ein Kapitel aus der Dissertation Mark Schweizer, Kognitive Täuschungen vor Gericht, Zürich 2005. Zur Hauptseite.

 
 

Methode, Auswertung, interne und externe Validität der Studie

I.Methode

  1. Es wurden zwei briefliche Umfragen durchgeführt; die erste im Oktober 2003, die zweite im September 2004. Die Fragebogen sind in den Anhängen B (2003) und C (2004) wie­dergegeben. Beide Fragebogen umfassten fünf Sachverhalte, jeder Sachverhalt begann auf einer neuen Seite. Auf der Titelseite wurden die Richterinnen und Richter gebeten, die Fragen ohne Absprache mit ihren Kolleginnen und Kollegen zu beantworten und darauf hingewiesen, dass die Beantwortung etwa eine Viertelstunde in Anspruch nehmen würde (was leicht untertrieben war). Der persönlich adressierte Begleitbrief mit dem Briefkopf des Europäischen Instituts für Rechtspsychologie erläuterte, dass es sich um ein psycholo­gisches Forschungsprojekt handle, ohne genauere Angaben zu machen. Die Umfrage erfolgte anonym; demografische Angaben wurden nicht erhoben. Jedem Fragebogen lag ein adressiertes und frankiertes Rückantwortcouvert bei, und die Richter wurden aufgefor­dert, den Fragebogen binnen Wochenfrist zu retournieren. Das empfanden einzelne als Zumutung; Erfahrungen aus dem Direkt-Marketing zeigen aber, dass eine kurze Antwort­frist zu einer höheren Rücklaufquote führt.

  2. Beide Fragebogen wurden einer Voruntersuchung („Pretest") unterzogen. Als Versuchsperso­nen des Pretests dienten meine damaligen Arbeitskollegen bei Meyer Lustenberger Rechtsanwälte, Zürich (N ≈ 30). Die Versuchspersonen der Pretests waren alle Juristinnen und Juristen mit zwischen einem und dreissig Jahren Berufserfahrung. Sie sind mit der Testpopulation nicht direkt vergleichbar, da in der Schweiz das Laienrichter­tum nach wie vor weit verbreitet ist und die Versuchspersonen des Pretests sich schwerge­wichtig mit Wirtschaftsrecht befassen, das an erstinstanzlichen Gerichten (wo der grösste Teil der befragten Richter beschäftigt ist) eine geringe Rolle spielt. Trotzdem zeigte der Pretest, welche Sachverhalte angepasst werden mussten und führte zu einigen Änderungen bei der Formulierung der Sachverhalte (wo diese wesentlich sind, werden sie bei den einzelnen Fragen näher erläutert).

  3. Für die Umfrage vom Herbst 2003 wurden 401 Fragebögen an die Richterinnen und Richter der Zivil- und Strafgerichte der Kantone Aarau, St. Gallen und Zürich verschickt (inklusive der jeweiligen Ober- resp. Kantonsgerichte). Die Fragebogen folgten dem Auf­bau der von Guthrie, Rachlinski und Wistrich verwendeten Fragebogen, deren Studie die Grundlage für die erste Umfrage bildete.1 Da die Fragebogen nicht nur vom Amerikani­schen ins Deutsche übersetzt, sondern auch dem schweizerischen Rechtssystem angepasst werden mussten, war eine exakte Replikation ausgeschlossen. Trotzdem ist es interessant, die Resultate der amerikanischen Studie mit denjenigen der vorliegenden Studie zu vergleichen. Jeder Sachverhalt testete eine kognitive Täuschung – Ankereffekt, Darstellungseffekt, Ver­nachlässigung der Anfangs­wahr­schein­lich­keit, Rückschaufehler und Selbstüberschätzung. Von den Sachverhaltsschilderungen für Ankereffekt, Darstel­lungseffekt und Rückschau­fehler gab es jeweils verschiedene Versionen, um den Ein­fluss der manipulierten Variable testen zu können. Die Richter wurden auf diesen Umstand nicht hingewiesen. Ich habe keinen Anlass anzunehmen, dass die Richter die Manipulation bemerkt haben. Keine der zahlreichen schriftlichen Reaktionen wies auf diesen Umstand hin, und auch meine Kontakte zu Bezirksrichtern zürcherischer Bezirksgerichte ergaben, dass niemand eine entsprechende Vermutung hegte.2 Die Sachverhaltsvarianten wurden gemischt (wobei die Reihen­folge der Fragen immer gleich blieb). Da es drei Sachverhalts­varianten für den Ankereffekt, drei Sachverhaltsvarianten für den Rückschaufehler und zwei Varianten für den Darstellungseffekt gab, wurden insgesamt 18 verschiedene Vari­anten des Fragebogens versandt.

  4. 181, oder 45 %, der angeschriebenen Richter schickten den Fragebogen zumindest teilweise ausgefüllt zurück. Diese – für eine briefliche Umfrage erfreulich hohe – Rück­laufquote entspricht derjenigen, die andere Forscher mit ähnlichen brieflichen Umfragen unter schweizerischen Richtern erzielen konnten.3 Selbstverständlich bietet das „Non­response-Problem“ Anlass zu methodischer Kritik.4 Die interne Validität (zum Begriff S. 67 f.) wird aber nur dann in Frage gestellt, wenn zwischen Antwortenden und Verweigern­den ein systematischer Unterschied besteht. Im vorliegenden Fall muss ein Kritiker postu­lieren, dass die antwortenden Richter den kognitiven Täuschungen mehr unterliegen als die Verweigerer. Wenn ich auch nicht beweisen kann, dass diese Annahme nicht zutrifft, glaube ich doch, dass sie nicht besonders plausibel ist. Aufgrund einiger Rückmeldungen glaube ich übrigens, dass die antwortenden Richter die Umfrage ernst genommen haben. Einzelne Fragebogen wurden unausgefüllt zurückgeschickt mit der Bemerkung, man ent­scheide nur über familienrechtliche Streitigkeiten und sehe sich daher nicht im Stande, die Fragen zu beantworten. Die ausgefüllten Fragebogen stammen daher vermutungsweise von Richtern, die sich tatsächlich mit ähnlichen Fällen in der Praxis befassen.

  5. Die zweite Umfrage im Herbst 2004 erfolgte nach derselben Methode, allerdings gab es hier kein Vorbild für den Fragebogen (es gibt natürlich Vorbilder für die Fragestellungen; es handelt sich dabei durchwegs um Fragen, die in der psychologischen Literatur schon wiederholt gestellt und die auf juristische Sachverhalte angepasst wurden). Es wurden bis auf eine Ausnahme (Rückschaufehler) andere kognitive Täuschungen als bei der ersten Umfrage geprüft (der Rückschaufehler wurde mit einem neuen Sachverhalt untersucht). Wiederum gab es von jedem Sachverhalt mindestens zwei bis maximal vier Varianten (zweifaktorieller Versuchsplan bei einzelnen Fragen). Es wurden diesmal 476 Fragebogen an die Richterinnen und Richter der Straf- und Zivilgerichte der Kantone Basel-Land­schaft, Basel-Stadt, Bern und Graubünden (mit Ausnahme des italienischsprachigen Be­zirkgerichts Moesa) verschickt. Titelblatt und Begleitbrief waren weitgehend identisch mit der ersten Umfrage. Anders als beim ersten Mal wurde diesmal nach einer Woche ein persönlich adressiertes Erinnerungsschreiben versandt. Da die Umfrage anonym erfolgte und ich daher nicht wissen konnte, welche Richter den Fragebogen retourniert hatten, haben alle Richter die Erinnerung erhalten; dies ist einzelnen sauer aufgestossen, die den Fragebogen bereits retourniert hatten, liess sich aber nicht vermeiden. 234 Fragbogen wurden zumindest teilweise ausgefüllt zurückgeschickt, was einer Rücklaufquote von 49 % entspricht; die Erinnerung scheint daher zumindest eine gewisse Wirkung gehabt zu haben.

II.Auswertung, oder: was bedeutet „statistisch signifikant“?

  1. Im Folgenden wird ein beobachteter Unterschied gemäss üblicher Konvention in den Sozial­wissenschaften dann als signifikant bezeichnet, wenn der p-Wert kleiner als 0,05 ist.5 Ein p-Wert von weniger als 0,05 wurde auch schon – in durchaus kritischer Absicht – als der „heilige Gral des Hypothesentestens“ bezeichnet.6 Was bedeutet der p-Wert?

  2. Als erstes muss man klar unterscheiden zwischen „statistisch signifikant“ und dem umgangssprachlichen „wesentlich“ oder „erheblich“. Das Ergebnis eines Versuchs kann statistisch signifikant, aber unwesentlich sein.7 Wenn die Anzahl der untersuchten Fälle sehr gross ist, sind bereits kleine Differenzen statistisch signifikant, aber möglicherweise praktisch bedeutungslos. In dieser Arbeit wird der Ausdruck „signifikant“ ausschliesslich für Ergebnisse verwendet, die im Sinne der herkömmlichen Definition statistisch signifi­kant sind; hingegen wird ein Effekt als „wesentlich“ oder „erheblich“ beschrieben, wenn er – nach der subjektiven Meinung des Autors – praktisch bedeutsam ist.

  3. Angenommen, es gibt a priori zwei Hypothesen, um die beobachteten Daten zu erklären. In der Untersuchung zum Darstellungseffekt (S. 92 ff.) beurteilten die Richter beispielsweise den gleichen Sachverhalt, aber eine Gruppe der Richter beurteilte ihn aus Sicht der Kläge­rin, eine zweite Gruppe aus Sicht der Beklagten. In der Gruppe der Richter, die den Fall aus der Sicht der Klägerin beurteilten, empfahlen 56,6 % (43 von 76), einen Vergleich abzuschliessen. Nur 43 % der Richter (43 von 100), die den Fall aus der Perspektive der Beklagten beurteilten, rieten jedoch der Beklagten zum Vergleich. Die Arbeitshypothese ist, dass die Perspektive einen Einfluss auf die Vergleichsbereitschaft (genauer gesagt die Risikoaversion) hat. Die Nullhypothese ist, dass es keinen Unterschied in der Vergleichs­bereitschaft der beiden Gruppen gibt und dass der beobachtete Unterschied auf Zufall zurückzuführen ist.

  4. Man kann, soviel ist sicher, zwei Fehler machen: die Nullhypothese verwerfen, obwohl sie wahr ist (Fehler 1. Art, auch α-Fehler), oder die Nullhypothese beibehalten, obwohl die Arbeitshypothese zutrifft (Fehler 2. Art, auch β-Fehler).8 Im Strafverfahren wäre ein Fehler 1. Art, einen Unschuldigen zu verurteilen, während ein Fehler 2. Art darin bestünde, einen Schuldigen freizusprechen.9 Mit diesem Beispiel wird auch klar, dass die Konsequen­zen der beiden Fehler durchaus nicht dieselben sein müssen – die meisten Menschen sind sich einig, dass es schwerer wiegt, einen Unschuldigen einzusperren, als einen Verbrecher laufen zu lassen.

  5. Wie wahrscheinlich ist es nun, dass die im Experiment zum Darstellungseffekt beobachte­ten Daten auf Zufall zurückzuführen sind? Zum Verständnis kann man folgendes Gedan­kenexperiment machen:10 angenommen, es gäbe keinen Unterschied der Perspektive, sondern es gäbe einfach Richter, die von ihrer Persönlichkeit her eher zum Vergleich raten und Richter, die eher den Prozess empfehlen. Mit anderen Worten hätten 86 der 176 Rich­ter, die die Frage beantwortet haben, ohnehin einen Vergleich empfohlen, ganz unabhängig davon, ob sie den Fall aus der Perspektive der Klägerin oder der Beklagten beurteilten. Die Wahrscheinlichkeit, dass alle 86 Richter, die zum Vergleich rieten, sich zufällig in dersel­ben Gruppe befinden, ist offensichtlich sehr klein: Es ist nicht relevant, welcher Gruppe der erste vergleichsfreudige Richter angehört. Der zweite vergleichsfreudige Richter muss aber in der gleichen Gruppe wie der erste Richter sein, die Wahrscheinlichkeit dafür ist 0,5. Der dritte Richter muss wiederum in der gleichen Gruppe sein wie die ersten beiden Richter, die Wahrscheinlichkeit dafür beträgt ebenfalls 0,5. Da die beiden Ereignisse unab­hängig sind, ergibt sich die Wahrscheinlichkeit, dass der zweite und dritte Richter in der gleichen Gruppe wie der erste Richter sind, aus der Produktregel: 0,5 ∙ 0,5 = 0,25. Bei 86 vergleichsfreudigen Richtern, die alle in der gleichen Gruppe sein müssen, beträgt die Wahrscheinlichkeit daher 0,585.11

  6. Die Wahrscheinlichkeit, dass man alle 86 vergleichsbereiten Richtern in einer Gruppe fin­det, wenn die Nullhypothese zutrifft und die Verteilung rein zufällig ist, beträgt daher 0,585 (eine Null, gefolgt von einem Komma und 25 Nullen, ehe eine 2 folgt). Diese Wahr­scheinlichkeit entspricht dem p-Wert, dieser ist nämlich definiert als die Wahrscheinlich­keit, dass sich die beobachteten Daten so wie beobachtet oder extremer realisieren, wenn die Nullhypothese zutrifft.12 Anders formuliert gibt der p-Wert die Wahrscheinlichkeit an, einen Fehler 1. Art zu begehen.

  7. Offensichtlich wird die Wahrscheinlichkeit, dass sich die Daten wie beobachtet oder extremer realisieren, grösser, je weniger extrem die beobachteten Daten sind. Im Experi­ment zum Darstellungseffekt haben 43 Richter in der Gruppe „Klägerin“ und 43 in der Gruppe „Beklagte“ zum Vergleich geraten, was auf den ersten Blick nicht gerade auf einen statistisch signifikanten Einfluss der Gruppenzugehörigkeit hindeutet. Allerdings war die Gruppe der Richter, die den Fall aus Sicht der Beklagten beurteilten, grösser (100 vergli­chen mit 76 in der Gruppe „Klägerin“). Intuitiv ergibt es Sinn, dass die Verteilung in die­sem Fall nicht mehr rein zufällig ist – der Anteil der vergleichsbereiten Richter macht in der einen Gruppe 56,6 %, in der anderen 43 % aus; zu erwarten wären 48 % in jeder Gruppe. Wie sehr die Verteilung von der unter der Nullhypothese erwarteten gleichmässi­gen Verteilung abweicht, kann (bei kategorialen Daten wie im Beispiel) der χ2-Test (Chi-Quadrat-Test) beantworten.13 In diesem Fall beträgt der χ2 Wert (bei einem Freiheitsgrad) 3,187. Dies entspricht einem p-Wert von 0,074.14 Mit anderen Worten würde man, wenn man den gleichen Versuch 100 Mal wiederholen würde, in etwas mehr als sieben Fällen Daten beobachten, die gleich oder extremer als die beobachteten Daten sind. Der „heilige Gral“ der statistischen Signifikanz wird daher in diesem Fall knapp verfehlt.

  8. Aus einem Signifikanztest, der zu einem Ergebnis gelangt, das „auf dem 5 % Niveau“15 sig­nifikant ist, darf man unter keinen Umständen schliessen, dass die Arbeitshypothese mit einer Wahrscheinlichkeit von 95 % zutrifft (oder die Nullhypothese mit 95 %-iger Wahr­scheinlichkeit falsch ist). Der p-Wert gibt die Wahrscheinlichkeit an, dass die Daten so extrem oder extremer als beobachtet sind unter der Annahme, dass die Nullhypothese wahr ist; formal P(extremere Daten | Nullhypothese).16 Die bedingte Wahrscheinlichkeit, dass die Nullhypothese falsch ist, ist P(Nullhypothese | extremere Daten), und diese Wahr­scheinlichkeit ist nicht 1 - P(extremere Daten | Nullhypothese). Dieser Fehler, im straf­rechtlichen Zusammenhang als „Trugschluss des Anklägers“ bezeichnet, ist nicht selten (mehr dazu hinten, S. 129 ff.).

  9. Ob die Nullhypothese falsch ist, hängt nicht nur von den beobachteten Daten ab, sondern auch davon, wie wahrscheinlich die Nullhypothese a priori war, d.h. bevor die beobachte­ten Daten bekannt wurden. Ob die Verwerfung der Nullhypothese bedeutet, dass die Ar­beitshypothese (mit hoher Wahrscheinlichkeit) zutrifft, hängt weiterhin davon ab, ob nur die Arbeitshypothese die beobachteten Daten erklären kann oder auch eine andere – mögli­cherweise nicht bedachte – Hypothese. Wie wahrscheinlich die Nullhypothese a priori ist und welche anderen Hypothesen die beobachteten Daten erklären können, lässt sich – anders als der p-Wert – nicht mathematisch berechnen. Das Testen von Hypothesen unter Berücksichtigung der Anfangswahrscheinlichkeit und alternativer Hypothesen (nach dem Bayes-Theorem, näheres hinten, S. 119 ff.) führt daher ein subjektives Element in die anscheinend so objektive Statistik ein. Dies mag mit ein Grund sein, warum in den meisten sozialwissenschaftlichen Veröffentlichungen nur der p-Wert angegeben wird.

  10. Neben dem χ2 Test für kategoriale Daten werden in dieser Arbeit der t-Test (für normalverteilte Daten) und der Wilcoxon-Rangsummen-Test (resp. der äquivalente Mann-Whitney-U-Test) für ordinale, nicht parametrische Daten verwendet.17 Alle Berechnungen wurden mit SPSS 11.0 für Windows durchgeführt.

  11. Wo dies möglich ist (für nicht nominale Daten ) werden das arithmetische Mittel, der Me­dian und die Standardabweichung angegeben. Das arithmetische Mittel – die Summe der Werte geteilt durch die Anzahl der Werte – wird dem üblichen Sprachgebrauch gemäss als Durchschnitt oder Schnitt bezeichnet. Der Median ist der Wert, der in der Mitte der Reihe liegt, wenn man eine Reihe von Messwerten der Größe nach sortiert.18 Die eine Hälfte der Werte ist größer, die andere Hälfte kleiner als der Median. Im Gegensatz zum Durchschnitt verändert sich der Median durch einzelne Extremwerte kaum; er ist daher geeigneter als der Durchschnitt, die Verteilung der Daten zu beschreiben, wenn einzelne Extremwerte den Durchschnitt verzerren (dies ist beispielsweise bei den Resultaten zum Ankereffekt der Fall, S. 80 ff.). Die Standardabweichung schliesslich ist ein Mass für die Streuung der Daten um das arithmetische Mittel. Je grösser die Standardabweichung, desto weiter weg sind die einzelnen Werte im Schnitt vom arithmetischen Mittel. Da für die Berechnung der Standardabweichung die Abweichungen vom Mittelwert quadriert werden, steigt die Stan­dardabweichung bei einzelnen Ausreissern schnell stark an.19

III.Interne Validität

  1. Eine Studie ist intern valide, wenn die manipulierte Variable (das Treatment oder die unab­hängige Variable) tatsächlich für die Varianz der abhängigen Variablen verantwortlich ist. Werden die Messwerte hingegen durch einen oder mehrere Störfaktoren verändert, dann ist die interne Validität, oder Gültigkeit, verletzt. Sind sowohl Störfaktoren als auch der Sti­mulus für die beobachteten Effekte verantwortlich, spricht man von einer „Konfundierung“ der Effekte.20

  2. Wenn der einzige (systematische) Unterschied zwischen Versuchs- und Kontrollgruppe im Treatment besteht, ist die Annahme zulässig, dass ein beobachteter Unterschied der abhän­gigen Variablen zwischen Versuchs- und Kontrollgruppe auf das Treatment zurückzufüh­ren ist. Durch Zufallszuweisung (Randomisierung) von Untersuchungseinheiten in Ver­suchs- und Kontrollgruppe kann garantiert werden, dass die Unterschiede zwischen Ver­suchs- und Kontrollgruppe rein zufällig sind.21 Bei der vorliegenden Studie wurden die Richterinnen und Richter zufällig der Versuchs- oder Kontrollgruppe zugewiesen. Zwar wurden keine „echten“ Zufallszahlen verwendet, um die Zuweisung vorzunehmen, aber die Fragebogen wurden gemischt und dann zusammen mit dem Begleitbrief in Cou­verts ver­packt. Es gibt keinen Grund anzunehmen, dass sich die Richter, die eine Version der Frage erhalten haben, systematisch von den Richtern, die eine andere Version erhalten haben, unterscheiden. Wenn ein Unterschied in der abhängigen Variablen besteht – wenn z.B. die Richter, bei denen der Kläger eine hohe Genugtuungssumme beantragt, systema­tisch mehr zusprechen als die Richter, denen kein bezifferter Antrag vorliegt – darf man daher an­nehmen, dass der Unterschied zwischen den beiden Gruppen auf das Treatment, in diesem Fall den Antrag des Klägers, zurückzuführen ist. M. a.W. gibt es keinen vernünfti­gen Grund, anzunehmen, dass die vorliegende Studie nicht intern valide ist.

IV.Externe Validität

  1. Problematischer als die interne ist die externe (oder ökologische) Validität der vorliegen­den Studie. Diese ist definiert als Möglichkeit der Generalisierung der experimentellen Resultate auf andere Personen(-gruppen) und Situationen.22 Dass Richter eine höhere Genugtuungssumme zusprechen, wenn sie nach der Lektüre eines Sachverhalts von einer halben Seite mit einem Antrag des Klägers von Fr. 3 Mio. konfrontiert werden, ist zwar interessant. Eigentlich interessiert aber natürlich, ob dieser Effekt auch in einem Gerichts­verfahren wirkt, in dem sehr viel mehr und andere Informationen zur Verfügung stehen als in einem kurzen schriftlichen Sachverhalt.

  2. Einige Richterinnen und Richter bezweifeln, dass es möglich ist, aufgrund der Studie Aussa­gen über reale juristische Entscheidungen zu machen. „Ich möchte Ihre Fachkompe­tenz nicht anzweifeln, habe aber Mühe mit der Vorstellung, dass Antworten auf diese fünf Fragen gültige Aussagen in Bezug auf juristische Entscheidungen in der Realität geben können!“ schrieb eine Richterin. Andere schickten den Fragebogen unausgefüllt zurück mit der Bemerkung, dass „die Fragen weit an den Entscheidungssituationen vorbeigehen, welche mir als Richter begegnen“ oder sie nicht in der Lage seien, aufgrund der spärlichen Unterlagen ein einigermassen seriöses Urteil zu fällen und daher auch nicht glaubten, mit dem Ausfüllen des Fragebogens einen Beitrag zur Erforschung der richterlichen Entscheid­findung leisten zu können. Diese kritische Haltung gegenüber sozialwissenschaftlicher Forschung ist nicht untypisch für Richter.23

  3. Kritik an rechtspsychologischer Forschung mit kurzen schriftlichen Fallskizzen (so genannten „Vignetten“) wurde wiederholt geäussert und ist ernst zu nehmen. Am pointier­testen haben wohl Konecni/Ebbesen die Kritik vorgebracht.24

  4. Die Gründe, die gegen die externe Validität solcher Studien sprechen, sind wohlbekannt. Die Entscheidungen, die von den Versuchspersonen in Simulationsstudien getroffen wer­den, haben keine Konsequenzen. Die Fallskizzen reduzieren die Art und den Umfang der zur Verfügung stehenden Informationen in einem Ausmass, die als Karikatur echter Ge­richtsfälle – die sich eher durch ein Übermass an Informationen auszeichnen – erscheint. Häufig werden die Stimuli zudem in „zerlegter“ Form dargeboten, um einzelne Faktoren manipulieren zu können. Die Analyse eines komplexen Sachverhalts ist aber in der Praxis häufig der schwierigste Teil der juristischen Entscheidungsfindung. Oft fehlen in Experi­menten prozedurale Schritte wie die Beratung in der Gruppe, die einen Einfluss auf das Urteil haben können. Schliesslich entsprechen auch die abhängigen Variablen – beispiels­weise die Beurteilung der Schuld auf einer numerischen Skala – nicht den Entscheidungen (schuldig ja/nein), die in Wirklichkeit zu treffen sind.25

  5. Konecni/Ebbesen gehen davon aus, dass der Urteilende eine aufgabenspezifische (task-spe­cific) Entscheidungsregel für jede konkrete Entscheidung konstruiert.26 Gemäss dieser Auffassung kann es keine Theorie geben, die a priori erklärt, wie ein Urteilender eine bestimmte Aufgabe anpacken wird. Konecni/Ebbesen stellen daher nicht nur die externe Validität von „paper and pencil“ Studien in Frage, sondern auch diejenige realistischerer Studien, die zum Beispiel Videoaufzeichnungen der Aussagen von Parteianwälten und Zeugen verwenden und Beratung vor der Entscheidung erlauben.27 Sie untermauern diese Aussage empirisch mit drei eigenen Simulationsstudien, die anschliessend mit den Resul­taten von Feldstudien verglichen wurden.28 In keinem Fall, so Ebbesen/Konecni, hätten die Resultate der Simulationsstudien erlaubt, die Resultate der Feldstudien richtig voraus­zusagen.29 Sie kommen daher zum Schluss, dass es „gefährlich und nahezu unverantwort­lich [ist], auf der Grundlage von Simulationsstudien mit von ihrem lebenswirklichen Kon­text losgelösten Effekten Schlussfolgerungen und Empfehlungen für das Rechtssystem zu formulieren“.30

  6. Für Konecni/Ebbesen können nur Feldstudien, d.h. Untersuchungen in der Lebenswirk­lichkeit, zu validen Resultaten kommen. Dabei ziehen sie Archivstudien der Beobachtung von Gerichtsverhandlungen aus verschiedenen methodischen Gründen vor,31 wobei sie empfehlen, dass das Rechtssystem differenzierte Verfahren zur Erhebung von Daten zum eigenen Handeln am besten gleich einbaut.32 Die Schlussfolgerungen und Empfehlungen von Konecni/Ebbesen werden von Vertretern theorielastiger Soziologie oder Psycholo­gie begrüsst; so z.B. von Löschper in ihrer diskursanalytischen Habilitationsschrift „Bau­steine für eine Theorie richterlichen Urteilens“, die Simulationsstudien als „Experimente im sozialen Vakuum“ kritisiert.33

  7. Trotz der Kritik von Konecni/Ebbesen und anderen, bleiben Simulationsstudien unvermindert populär in der rechtspsychologischen Forschung. Häufig werden die beson­ders unrealistischen „paper and pencil“ Studien mit Studierenden als Versuchspersonen durchgeführt. Kerr und Bray haben 1982 die Methoden von 72 Simulationsstudien mit Geschworenen (mock juries) untersucht und festgestellt, dass rund 50 % der Studien mit kurzen schriftlichen Fallskizzen und studentischen „Geschworenen“ durchgeführt wur­den.34 Der Anteil von Simulationsstudien an den in Law and Human Behavior zwischen 1977 und 1996 publizierten Studien zum Verhalten von Geschworenen ist effektiv gestie­gen, von rund 50 % auf 70-80 %. Der Anteil der Simulationsstudien mit Studierenden und kurzen Fallskizzen ist ebenfalls gestiegen, zu Lasten aufwändigerer Studien mit Videoauf­nahmen und Bürgern, die als Geschworene qualifiziert sind (jury eligible citizens).35 Der Trend geht also genau in die entgegengesetzte als die von den Kritikern geforderte Rich­tung.

  8. Es gibt zynische, methodologische und pragmatische Gründe für die ungebrochene Popularität von Simulationsstudien. Der zynische Grund ist, dass nur akademische Karriere macht, wer viel publiziert. Studien mit Sachverhaltsskizzen und studentischen Versuchs­personen sind viel schneller und billiger als aufwändige Simulations- oder gar Feldstudien, die in der gleichen Anzahl Publikationen resultieren.36 Solange die Anzahl der Publikatio­nen ein ausschlaggebendes Kriterium für akademische Berufungen ist, werden einfache Simulationsstudien beliebt bleiben.

  9. Der methodologische Grund für Simulationsstudien liegt darin, dass die experimentelle Kon­trolle, die der Versuchsleiter bei Simulationen ausüben kann, grosse Vorteile hat. Sie führt, wie oben dargelegt, in der Regel zu einer hohen internen Validität. Ein Einfluss konfundierender Variablen kann meist ausgeschlossen werden.37 Wollte man beispiels­weise den Einfluss des klägerischen Antrags auf die zugesprochene Genugtuungssumme im Feld studieren, so müsste man alle objektiven Faktoren, die die Höhe der Genugtuung beeinflussen (wie Schwere der Verletzung des Opfers und Schwere des Verschuldens des Täters) konstant halten. Tut man dies nicht – wie beispielsweise die beiden in Fn. 422 und 425 erwähnten spanischen Studien – so ist eine beobachtete Korrelation von Antrag des Klägers und zugesprochener Genugtuungssumme vermutlich nicht auf den Ankereffekt, sondern auf die Schwere der Verletzung zurückzuführen – wer schwerer verletzt ist, ver­langt mehr und erhält, zu Recht, mehr zugesprochen. Es gibt statistische Techniken, den Einfluss möglicherweise konfundierender Variablen konstant zu halten, z.B. die multiple Regressionsanalyse. Diese setzt aber eine relativ hohe Anzahl Fälle voraus, um zu valablen Resultaten zu gelangen. Da die Zusprechung von Genugtuung in der Schweiz nicht son­derlich häufig ist, müsste man die Rechtsprechung zahlreicher Kantone während mehrer Jahre auswerten, um überhaupt genügend Daten für eine valide statistische Auswertung zu erhalten.

  10. Ein weiterer Vorteil von Simulationsstudien ist, dass sie – anders als Feldstudien – repliziert werden können.38 Während eine einzelne Studie nie genügt, um externe Validi­tät zu generieren, kann die systematische und variierte Replikation einer Studie dazu bei­tragen, dass man darauf vertrauen darf, dass die Resultate auch in Situationen, die nicht konkret untersucht wurden, Gültigkeit haben.39 Viele der in der vorliegenden Studie gestellten Fragen wurden beispielsweise schon Studierenden gestellt. Zeigen zu können, dass auch Richterinnen und Richter teilweise die gleichen Fehler machen wie studentische Versuchspersonen, ist ein weiterer Puzzlestein, der die externe Validität der den Fragen zu Grunde liegenden psychologischen Theorie stützt. Dabei besteht ein offensichtlicher Trade-off zwischen Realitätsnähe des Stimulus-Materials (also Vignetten statt den gesam­ten Akten eines Prozesses oder der Videoaufzeichnung mündlicher Plädoyers und Zeugen­aussagen) und der Realitätsnähe der Versuchspersonen. Wer sich dafür entscheidet, mit Richtern als Versuchspersonen zu arbeiten, muss sich fast zwangsweise auf kurze Sach­verhalte beschränken. Richter sind nicht bereit, sich mehrere Stunden in einen Sachverhalt einzulesen, um an einer sozialwissenschaftlichen Studie teilzunehmen. Die Vermutung sei erlaubt, dass die gleichen Richter, die an der vorliegenden Studie nicht teilgenommen haben, weil sie zu unrealistisch sei, an einer realistischeren Studie nicht teilgenommen hätten, weil sie den dafür notwendige Zeitaufwand als unzumutbar erachten.

  11. Den Vorteilen der Simulationsstudien stehen Nachteile der Feldstudien gegenüber. Erstens sind gerade die von Konecni/Ebbesen favorisierten Archivstudien wegen datenschutz­rechtlicher Bestimmungen in Europa häufig schwierig oder gar nicht durchzuführen. Auch werden zahlreiche interessierende Faktoren durch die gerichtlichen Akten nicht erhoben – beispielsweise wird in der Schweiz das letzte Vergleichsangebot der Parteien vor dem Prozess nicht erfasst, so dass es ausgeschlossen ist, das letzte Vergleichsangebot mit der im Urteil zugesprochenen Summe zu vergleichen, wie dies Rachlinski getan hat (mehr dazu hinten, S. 89 ff.).40 Die Fallzahlen sind, wie bereits erwähnt, oft zu gering, um quantitative Aussagen machen zu können. Selbst in Deutschland beschränken sich Feldstudien auf häufige Delikte wie den einfachen Diebstahl, da andere Fälle nicht oft genug vorkom­men.41 In der Schweiz ist dieses Problem noch gravierender als in Deutschland. So ist es beispielsweise ausgeschlossen, mittels einer Feldstudie quantitative Aussagen über den Einfluss einer Gesetzesänderung auf die Anzahl der jährlich ausgesprochenen Verwahrun­gen zu machen (dazu S. 234 ff.), wenn jährlich im Schnitt nur rund 20 stationäre Massnah­men und Verwahrungen ausgesprochen werden.42 Schliesslich stellen die schriftlichen Zeugnisse, die das Justizsystem produziert, keinen repräsentativen Querschnitt der tatsäch­lichen Fälle dar.43 Die – faktisch überaus zahlreichen – Fälle, die verglichen werden, hinterlassen entweder gar keine (bei aussergerichtlichem Vergleich) oder nur geringe (bei gerichtlichem Vergleich) Spuren in den Gerichtsarchiven, aus denen sich kaum wertvolle Erkenntnisse gewinnen lassen. Wenn man sich daher für den Einfluss psychologischer Faktoren auf die Vergleichsempfehlung durch Richter interessiert (S. 90 ff.), kann man sich nicht auf Archivstudien verlassen.

  12. Der pragmatische Grund für Simulationsstudien sind die prohibitiv hohen Kosten von Feld­studien. Die konsequente Umsetzung der Forderung von Konecni/Ebbesen würde dazu führen, dass kaum mehr rechtspsychologische Forschung betrieben würde. For­schungsgelder für gross angelegte Feldstudien sind kaum vorhanden. Wie Bray/Kerr bemerken: „Wir werden nicht viele Erkenntnisse gewinnen, wenn wir jede Forschung verbieten ausser derjenigen, die prohibitiv teuer ist für die meisten Forschenden“.44 Eine Simulationsstudie mit möglicherweise eingeschränkter externer Validität ist dieser Auffas­sung nach, der ich mich anschliessen möchte, gar keiner Studie immer noch vorzuzie­hen.45 Selbst Konecni/Ebbesen können auf Simulationsstudien nicht verzichten: rund ein Drittel der empirischen Studien, die in der von ihnen herausgegebenen Aufsatzsammlung „The Criminal Justice System“ erschienen sind, sind Simulationsstudien.

  13. Bisher wurde dargelegt, warum Simulationsstudien trotz ihrer eingeschränkten Validität ei­ner Feldstudie unter Umständen vorzuziehen sind. Wie aber steht es denn nun um die externe Validitität von Simulationsstudien? Die Frage, die sich nur empirisch beantworten lässt, ist nur ungenügend erforscht. Konecni/Ebbesen kommen wie erwähnt zu einem eher pessimistischen Resultat. Andere Forscher haben nicht die Resultate von Feldstudien mit derjenigen von Simulationsstudien verglichen, sondern die Resultate unterschiedlich reali­tätsnaher Simulationen. Die Wahl der Versuchspersonen, also Studierende (college un­dergraduates) statt als Geschworene wählbare Bürger (jury eligible citizens), hat nach den übereinstimmenden Resultaten von mehreren Dutzend Studien keinen Einfluss auf die beobachteten Effekte.46 Erstaunlicherweise hat auch die Verwendung von Videotapes statt kurzer Sachverhaltsskizzen als Stimulus-Material keinen wesentlichen Einfluss auf die Resultate; allerdings ist die Anzahl der Studien, die dies untersuchen, geringer und die Ergebnisse nicht so eindeutig wie bei den Versuchspersonen.47 Wer wie Ko­necni/Ebbesen jede Form von Simulation ablehnt, da Entscheidungsregeln aufgabenspezi­fisch und situativ seien, wird sich dadurch natürlich nicht überzeugen lassen. Wer diesen Standpunkt allerdings ernsthaft vertritt, muss auf jede generelle Theorie zur Erklärung menschlichen Entscheidungsverhaltens unter Unsicherheit, und damit auf jegliche Genera­lisierbarkeit, verzichten. Für diejenigen, die nicht so weit gehen wollen, ist die Tatsache, dass sich die Ergebnisse von Studien mit kurzen Sachverhaltsskizzen auf aufwändigere Studien mit Videoaufnahmen generalisieren lassen, zumindest ein Indiz dafür, dass es um die externe Validität von „paper and pencil“ Studien nicht so schlecht stehen kann.

  14. Im vorliegenden Fall kommt hinzu, dass sich die Fragestellungen auf ein psychologisches Forschungsprogramm stützen, das seit dreissig Jahren mit einer enormen Flut von empiri­schen Studien erforscht wird. Obwohl die Randbedingungen der einzelnen Urteilsheuristi­ken weiterhin umstritten sind, handelt es sich bei den hier besprochenen Phänomenen doch um Effekte, die allgemein als robust gelten.48 Insofern die Resultate der Studie bestimmte Denkweisen aufzeigen, ist es wahrscheinlich, dass die Richter auch bei der Beurteilung tatsächlicher Fälle gleich denken, zumal sie sich der Effekte meist nicht bewusst sein dürften. Erhöhte Motivation allein ist kein Allheilmittel. Nur wenn die erhöhte Aufmerk­samkeit und die längere Überlegungszeit dazu führen, dass die kognitive Täuschung er­kannt und vermieden wird, verbessert sich die Entscheidungsqualität. Dies darf nicht leichthin angenommen werden.49 Der beste Beweis dafür sind Studien, in denen kognitive Illusionen selbst dann die Entscheidungen negativ beeinflussen, wenn es für die Probanden um sehr viel Geld geht. Der Darstellungseffekt beispielsweise wirkt sogar, wenn die (chi­nesischen) Testpersonen um Einsätze in der Höhe von zwei Monatslöhnen spielen.50

  15. Kognitive Täuschungen wurden auch in Feldstudien ausserhalb des Labors und/oder in kon­trollierten Experimenten mit sehr realistischem Stimulus-Material nachge­wiesen.51 Kognitive Täuschungen beeinflussen auch das Urteil von Experten ausserhalb des La­bors.52 Die Häufigkeit des Vorkommens einer Krankheit wird von Ärzten auch dann nicht genügend beachtet, wenn sie in der Klinik Patienten diagnostizieren.53 Mussweiler und Kollegen schickten einen Schauspieler mit einem echten Opel Kadett bei 60 (uneinge­weihten) Automechanikern und –händlern vorbei, um seinen Wert schätzen zu lassen. Die Schätzung wurde erheblich durch den vom Schauspieler manipulierten Ankereffekt beein­flusst.54 Sehr viel realitätsnäher kann eine Studie nicht mehr sein. Diese Generalisierbar­keit der Resultate der Forschung zu den heuristics and biases auf viele natürliche Ent­scheidungssituationen legt es nahe anzunehmen, dass sie sich auch auf Juristen und juristi­sche Entscheidungen generalisieren lassen. Natürlich kann man die Auffassung vertreten, dass Richter anders als alle anderen sind und den Täuschungen, denen fast alle Experten unterliegen, nicht unterliegen, oder dass spezifische Elemente des gerichtlichen Verfahrens verhindern, dass sich kognitive Täuschungen auf juristische Urteile auswirken. Wer diese Behauptung aber aufstellt, trägt in Anbetracht der empirischen Forschung der letzten dreis­sig Jahre die Beweislast dafür.55 Mit der Behauptung alleine ist es nicht getan, solange ihr jegliche empirische Basis fehlt.

  16. Zusammengefasst gesagt sind Feldstudien Simulationsstudien dort vorzuziehen, wo sie aus ökonomischen Gründen durchführbar und entsprechende Daten vorhanden sind. In den häufigen Fällen, in denen dies nicht der Fall ist, sind Simulationsstudien eine second best Lösung mit eigenen Vorteilen, namentlich der grösseren internen Validität von echten Experimenten. Die Resultate aufwändiger Simulationsstudien unterscheiden sich dabei kaum von simplen Studien, die kurze Sachverhaltsskizzen als Stimulus-Material verwen­den. Kognitive Täuschungen wurden in einer Reihe von Studien ausserhalb des Labors unter natürlichen Bedingungen und bei Experten beobachtet, so dass man davon ausgehen darf, dass es sich um robuste, nicht nur unter Laborbedingungen auftretende Phänomene handelt. Wer die Auffassung vertritt, dass sie ausgerechnet im Justizsystem keine Rolle spielen, muss in Anbetracht der Erkenntnisse aus dreissig Jahren Forschung den empiri­schen Nachweis dafür erbringen.

1 Guthrie/Rachlinski/Wistrich, FN 20, 777. Jeffrey Rachlinski stellte mir freundlicherweise die Original-Fragebogen seiner Umfrage zur Verfügung.

2 Der Begleitbrief war von Prof. Dr. Manfred Rehbinder unterschrieben, so dass niemand ahnen konnte, wer der eigentliche Urheber der Umfrage war.

3 André Kuhn/Patrice Villettaz/Aline Joyet/Florian Willi, Öffentliche Meinung und Strenge der Richter, Crimiscope Nr. 19, Lausanne 2000, 2, berichten von einer Rücklaufquote von 44 %. Sie legten 290 Richterinnen und Richtern vier Strafrechtsfälle zur Beurteilung vor.

4 Rainer Schnell/Paul B. Hill/Elke Esser, Methoden der empirischen Sozialforschung, 7. Aufl. München 2005, 306 ff.

5 Schnell/Hill/Esser, FN 344, 450.

6 Paula Braitstein, Give P’s a Chance: Understanding p-values in scientific research, Living+ Jan/Feb 2004, 34 (erhältlich unter www.bcpwa.org/articles/issue_28_34_give_ps_a_chance.pdf; besucht am 1. März 2005).

7 Schnell/Hill/Esser, FN 344, 452.

8 Ludwig Fahrmeier/Rita Künstler/Iris Pigeot/Gerhard Kunz, Statistik, 5. Aufl. Berlin etc. 2004, 416. Bekannt ist auch der Fehler 3. Art – die beiden Fehlerarten zu verwechseln.

9 Unter der Annahme, dass “unschuldig” die Nullhypothese ist, die im ersten Fall (zu Unrecht) verworfen wird.

10 Die Darstellung folgt Hans Zeisel/David Kaye, Prove it with Figures: Empirical Methods in Law and Litigation, New York 1997, 83 f.

11 Da eine Gruppe nur 76 Mitglieder hatte, beträgt die Wahrscheinlichkeit, dass alle Mitglieder dieser Gruppe vergleichsfreudige Richter sind, „nur“ 0,576. Die kleinere Gruppe schwächt den Signifikanztest.

12 Fahrmeier/Künstler/Pigeot/Kunz, FN 348, 420.

13 Fahrmeier/Künstler/Pigeot/Kunz, FN 348, 445 ff.

14 Wie ein Blick in die entsprechende Tabelle in einem Statistik-Lehrbuch (z.B. Fahrmeier/Küns­tler/Pi­geot/Kunz, FN 348, 583 ff.), oder, heutzutage einfacher, das Computerpogramm zeigt.

15 Der p-Wert, ab dem von „Signifikanz“ gesprochen wird, bezeichnet man als „Signifikanzniveau“, daher die Formulierung. Dass dieses Niveau bei 5 % liegt, ist eine mehr oder weniger arbiträre Konvention, an die man sich in den Sozialwissenschaften weitgehend hält.

16 Zeisel/Kaye, FN 350, 81.

17 Mehr zu diesen Tests bei Fahrmeier/Künstler/Pigeot/Kunz, FN 348, 437 ff. (t-Test) und 459 ff. (Wilcoxon-Rangsummen-Test).

18 Fahrmeier/Künstler/Pigeot/Kunz, FN 348, 55.

19 Zu Berechnung der Standardabweichung siehe Fahrmeier/Künstler/Pigeot/Kunz, FN 348, 69.

20 Schnell/Hill/Esser, FN 344, 219.

21 Schnell/Hill/Esser, FN 344, 223.

22 Schnell/Hill/Esser, FN 344, 219.

23 Richard E. Redding/N. Dickson Reppuch, Effects of Lawyers’ Socio-political Attitudes on Their Judgments of Social Science in Legal Decision Making, Law and Human Behavior 1999, 31-54, 47.

24 Vladimir J. Konecni/Ebbe B. Ebbesen, Social Psychology and the Law: The Choice of Research Problems, Settings, and Methodology, in: Konecni/Ebbesen (Hrsg.), FN 265, 27-44.

25 Konecni/Ebbesen, FN 364, 28.

26 Vladimir J. Konecni/Ebbe B. Ebbesen, A Critique of Theory and Method in Social-Psychological Approaches to Legal Issues, in: Bruce Dennis Sales (Hrsg.), The Trial Process, New York 1981, 481-498, 488.

27 Konecni/Ebbesen, FN 364, 31.

28 Ebbe B. Ebbesen/Vladimir J. Konecni, On the External Validity of Decision-Making Research: What Do We Know About Decisions in the Real World? in: Thomas S. Wallsten (Hrsg.), Cognitive Processes in Choice and Decision Behavior, Hillsdale 1980, 21-45.

29 Ebbesen/Konecni, FN 368, 25 ff.

30 Vladimir J. Konecni/Ebbe B. Ebbesen, Methodische Probleme in der Forschung über juristische Entscheidungsprozesse – unter besonderer Berücksichtigung experimenteller Simulationen, Gruppendynamik 1991, 175-188, 179.

31 Konecni/Ebbesen, FN 366, 493; Konecni/Ebbesen, FN 364, 35 f.

32 Konecni/Ebbesen, FN 370, 185.

33 Gabriele Löschper, Bausteine für eine psychologische Theorie richterlichen Urteilens, Baden-Baden 1999, 20.

34 Robert M. Bray/Norbert L. Kerr, Methodological Considerations in the Study of the Psychology of the Courtroom, in: Norbert L. Kerr/Robert M. Bray (Hrsg.), The Psychology of the Courtroom, San Diego etc. 1982, 287-323, 294.

35 Brian H. Bornstein, The Ecological Validity of Jury Simulations: Is the Jury Still Out?, Law and Human Behavior 1999, 75-92, 87.

36 Konecni/Ebbesen, FN 366, 486.

37 Bray/Kerr, FN 374, 296; Amiram Elwork/Bruce Dennis Sales/David Suggs, The Trial: A Research Review, in: Sales (Hrsg.), FN 366, 1-59, 51.

38 Bray/Kerr, FN 374, 296.

39 Bray/Kerr, FN 374, 301.

40 Rachlinski, FN 219.

41 Oswald, FN 260, 15.

42 Bundesamt für Statistik, Strafurteilsstatistik, Stand der Datenbank 12. August 2004, Verurteilungen nach Art der Massnahme (der Durchschnitt der Verwahrungen nach Art. 42 StGB [Gewohnheitsverbrecher] und der stationären Massnahmen und Verwahrungen nach Art. 41 Ziff. 1 [psychisch abnorme Täter] der letzten fünf Jahre [1999-2003, neuste verfügbare Zahlen] betrug 22,6; die Statistik unterscheidet bei den Massnahmen nach Art. 43 Ziff. 1 leider nicht zwischen stationären Massnahmen und Verwahrungen).

43 Shari Seidman Diamond, The Challenges of Socio-Legal Research on Decision Making: Psychological Successes and Failures, Journal of Law and Society 1995, 78-84, 79 f.

44 Bray/Kerr, FN 374, 316: „We do not stand to gain much knowledge by prohibiting all research except that which is restrictingly expensive for most investigators”.

45 Ebenso Elwork/Sales/Suggs, FN 377, 1-59, 51

46 Bornstein, FN 375, 78.

47 Bornstein, FN 375, 82.

48 Detaillierte Nachweise bei den einzelnen Heuristiken.

49 Amos Tversky/Daniel Kahneman, FN 325, 274.

50 Kachelmeier/Shehata, FN 304.

51 Siehe generell die im Kapitel “Real-World Applications” abgedruckten Studien in: Gilovich/Griffin/ Kahneman, 601-762; Camerer, FN 303.

52 Rachlinski, FN 456, 154; Derek J. Koehler/Lyle Brenner/Dale Griffin, The Calibration of Expert Judgment: Heuristiscs and Biases Beyond the Laboratory, in: Gilovich/Griffin/Kahneman (Hrsg.), 686-715.

53 Dawes, FN 616, 425.

54 Thomas Mussweiler/Fritz Strack/Tim Pfeiffer, Overcoming the Inevitable Anchoring Effect: Considering the Opposite Compensates for Selective Accessibility, Personality and Social Psychology Bulletin 2000, 1142-1150, 1146

55 Zur „Beweislastumkehr“ beim Vorliegen empirischer rechtssoziologischer Daten Manfred Rehbinder, Rechtssoziologie, 5. Aufl. München 2003, Rz. 24 und 59.