Dies ist ein Kapitel aus der Dissertation Mark Schweizer, Kognitive Täuschungen vor Gericht, Zürich 2005. Zur Hauptseite.

 
 

Denken in Repräsentativität

I.Ein Beispiel zum Einstieg

  1. Für Pierre-Simon Laplace war Wahrscheinlichkeitstheorie „im Grunde nur der Berechnung unterworfener gesunder Menschenverstand“;1 etwas, das vernünftige Men­schen instinktiv wissen, ohne genau erklären zu können, wie. Laplace hat hier wahr­scheinlich etwas vorschnell von sich auf andere geschlossen. Viele Menschen empfinden die aus der Wahrscheinlichkeitstheorie folgenden Schlüsse als kontraintuitiv.2

  2. Die folgende Frage, in der psychologischen Literatur als „Taxi-Problem“ bekannt, veranschaulicht die Schwierigkeiten des korrekten Denkens in Wahrscheinlichkeiten:

Zwei Taxigesellschaften sind in einer Stadt tätig. Die Taxis der Gesellschaft A sind grün, die der Gesell­schaft B blau. Die Gesellschaft A stellt 15 % der Taxis, die Gesellschaft B die verbleibenden 85 %. Eines Nachts kommt es zu einem Unfall mit Fahrerflucht. Das fliehende Auto war ein Taxi. Ein Zeuge sagt aus, es habe sich um ein grünes Taxi gehandelt.

Das Gericht lässt den Zeugen auf seine Fähigkeit untersuchen, grüne und blaue Taxis unter nächtlichen Sichtbedingungen zu unterscheiden. Das Untersuchungsergebnis ist: In 80 % der Fälle identifiziert der Zeuge die Farbe zutreffend, in 20 % der Fälle irrt er sich.

Wie hoch ist die Wahrscheinlichkeit, dass es sich beim fliehenden Taxi um ein Taxi der Gesellschaft A gehandelt hat?

  1. Die Mehrheit der befragten Personen antwortet, dass die Wahrscheinlichkeit 80 % beträgt.3 Die richtige Lösung4 ergibt sich aus dem so genannten Bayes-Theorem, be­nannt nach dem presbyterianischen Pfarrer und Mathematiker Thomas Bayes (1702-1761) .5

II.Der normative Standard: das Bayes-Theorem

  1. Das Bayes-Theorem zeigt, wie die anfängliche subjektive Überzeugung, dass eine Hypothese zutrifft (a-priori, Vortest-, Ursprungs- oder Anfangswahrscheinlichkeit) neuen Erkenntnissen anzupassen ist.

  2. Wenn H eine Hypothese bezeichnet, I ein Indiz und P „Wahrscheinlichkeit“ (von probability), wobei P Wert zwischen 0 und 1 annehmen kann, dann gilt6

P(H) ∙ P(I | H)

P (H | I) = ───────── (7)

P(I)


  1. In Worten ausgedrückt, berechnet sich die bedingte Wahrscheinlichkeit, dass die Hypothese H bei Vorliegen des Indizes I zutrifft, aus der Wahrscheinlichkeit, dass die Hypothese H zutrifft, multipliziert mit der bedingten Wahrscheinlichkeit, dass das Indiz I vorliegt, wenn die Hypothese H zutrifft, geteilt durch die Wahrscheinlichkeit, dass das Indiz I überhaupt vorliegt (unabhängig davon, ob H zutrifft oder nicht). In der Terminolo­gie von Armin Nack ist P(I | H) die Merkmalswahrscheinlichkeit, während P (H | I) die Belastungswahrscheinlichkeit ist.7

  2. Durch Umformung der Gleichung (7) lässt sich das Bayes-Theorem als so genannte „ratio rule“8 darstellen

P (H | I) P(H)

───── = ─── (8)

P (I | H) P(I)


  1. Mit anderen Worten ist das Verhältnis der bedingten Wahrscheinlichkeiten P (H | I) und P(I | H) gleich dem Verhältnis der einfachen Wahrscheinlichkeiten P(H) und P(I).

  2. Für den Fall von zwei sich gegenseitig ausschliessenden Hypothesen, von denen eine zutref­fen muss (Beispiel: „A ist der Vater von B“, „A ist nicht der Vater von B“) , lässt sich die bedingte Wahrscheinlichkeit, dass die Hypothese bei Vorliegen des Indizes I (Beispiel: „A und B haben die gleiche Blutgruppe, die nur bei zehn Prozent der Bevölke­rung vorkommt“), wie folgt errechnen

P(H) ∙ P(I | H)

P (H | I) = ──────────────────── (9)

P(H) ∙ P(I | H) + P(¬H) ∙ P(I | ¬H)


  1. In dieser Form wird das Bayes-Theorem oft in der juristischen oder psychologischen Litera­tur dargestellt.9 Der Nenner des Bruches auf der rechten Seite der Gleichung, die Randwahrscheinlichkeit von Indiz I, errechnet sich aus der Wahrscheinlichkeit, dass Indiz I vorliegt, wenn Hypothese H zutrifft und der Wahrscheinlichkeit, dass Indiz I vorliegt, wenn die Hypothese H nicht zutrifft. Im Zusammenhang mit Diagnoseverfahren wird das Vorhandensein von Indiz I, obwohl die Hypothese H nicht zutrifft, als „falsch positiv“ bezeichnet, und die Rate der falsch positiven Befunde ist ein wichtiges Kriterium für die Beweiskraft des Tests (Beispiel: Der Gynäkologe ertastet Knötchen in der Brust einer Patientin, obwohl die Hypothese „Brustkrebs“ nicht vorliegt).

  2. Leicht verständlicher und praktischer in der Anwendung auf Fragestellungen, wie sie typi­scherweise Juristen beschäftigen, ist das Bayes-Theorem oft in seiner in „Chancen“ („eins zu zehn“; Englisch: odds) ausgedrückten Form:

P (H1 | I) P(H1) P(I |H1)

───── = ──── ∙ ───── (10)

P (H2 | I) P(H2) P(I |H2)


  1. Der letzte Bruch auf der rechten Seite der Gleichung (10) ist der so genannte “Likelihood-Quotient”10, der den abstrakten Beweiswert eines Indizes angibt.11 In Worten daher

Bedingte Chance = Anfangschance ∙ Likelihood-Quotient


  1. Angenommen, die Chance, dass der Angeschuldigte sich am Tatort befunden hat, beträgt auf­grund der bisher bekannten Tatsachen 3:4 (dies entspricht einer Wahrscheinlichkeit von 0,42; eine Chance m:n entspricht der Wahrscheinlichkeit m / (m+n), oder 3/7 in diesem Beispiel). Nun trifft ein Laborbericht ein, gemäss dem am Tatort Spuren einer Blutgruppe gefunden wurde, die selten ist und nur in einem Prozent der Bevölkerung vorkommt (Indiz I). Der Angeschuldigte weist die identische Blutgruppe und eine Schnittverletzung auf, während das Opfer eine andere Blutgruppe hat. Wenn H1 die Hypothese bezeichnet, dass sich der Angeschuldigte am Tatort befunden hat, dann ist die bedingte Wahrscheinlichkeit P(I | H1) = 1. Die bedingte Wahrscheinlichkeit P(I | H2), d.h. dass die Blutgruppen überein­stimmen, obwohl sich der Angeklagte nicht am Tatort befunden hat (und die Spur daher von jemand anderen verursacht wurde), beträgt 0,01. Es ist demnach 100 Mal wahrschein­licher, dass die Spuren übereinstimmen, wenn sich der Angeschuldigte am Tatort befunden hat, als wenn er sich nicht am Tatort befunden hat. Der Likelihood-Quotient beträgt daher 100. Multipliziert man die Anfangschance mit dem Likelihood-Quotienten (3:4 ∙ 100:1 = 300:4), erhält man eine Wahrscheinlichkeit von 0,986 (300/304), dass sich der Angeschul­digte am Tatort befunden hat.

A.Die Lösung des Taxi-Problems nach dem Bayes-Theorem

  1. Mit dem Bayes-Theorem lässt sich nun die Wahrscheinlichkeit, dass der Unfall von einem grünen Taxi verursacht wurde, wenn der Zeuge aussagt, dass das Taxi grün gewesen sei, leicht berechnen.

  2. Im Taxi-Problem ist die Anfangswahrscheinlichkeit – ohne zusätzliche Informationen, und unter der Annahme, dass beide Taxi-Gesellschaften gleich viele Unfälle verursachen –, dass ein Taxi der Gesellschaft B den Unfall verursacht hat, 85 % [P(B) = 0,85]. Die An­fangswahrscheinlichkeit, dass ein Taxi der Gesellschaft A den Unfall verursacht hat, be­trägt 15 %, da es nur zwei Taxigesellschaften gibt. Die bedingte Wahrscheinlichkeit, dass der Zeuge das Taxi als grün identifiziert, wenn das Taxi tatsächlich grün ist (und folglich der Gesellschaft A gehört), beträgt 80 % [P(„grün“ | A) = 0,8]; umgekehrt beträgt die Wahrscheinlichkeit, dass der Zeuge das Taxi fälschlicherweise als grün identifiziert, wenn es blau ist und der Gesellschaft B gehört, 20 %.

  3. Aus diesen Wahrscheinlichkeiten lässt sich die a-posteriori Wahrscheinlichkeit oder Belastungswahrscheinlichkeit, dass das Taxi der Gesellschaft A gehört, wenn der Zeuge ein grünes Taxi gesehen, berechnen:

P(A) ∙ P(„grün“ | A)

P(A | „grün“) = ───────────── (11)

P(“grün”)


  1. Der Nenner dieser Formel bedarf wie bereits erwähnt vorgängiger Berechnung. Er gibt an, wie wahrscheinlich es überhaupt ist, dass der Zeuge „grün“ sagt, und setzt sich daher zusammen aus der Wahrscheinlichkeit, dass der Zeuge „grün“ sagt, wenn das Taxi tat­sächlich grün ist (also P(A) (P(„grün“ | A)) und der Wahrscheinlichkeit, dass der Zeuge ein Taxi als grün identifiziert, das tatsächlich blau ist (also p(B) P(„grün“ | B)). Folglich lautet die Formel in ihrer extensiven Form

P(A) ∙ P(„grün“ | A)

P(A | „grün“) = ──────────────────────── (12)

P(A) ∙ (P(„grün“ | A) + P(B) ∙ P(„grün“ | B)


  1. Setzt man die Wahrscheinlichkeiten gemäss dem Beispiel ein, ergibt sich eine Wahrschein­lichkeit von 41 %, dass ein grünes Taxi den Unfall verursacht hat, wenn der Zeuge ein grünes Taxi gesehen hat.12 Dieser Wert ist nach der positiven Identifizierung durch den Zeugen zwar erheblich höher als die Anfangswahrscheinlichkeit von 15 %, aber er darf nicht gleichgesetzt werden mit der Wahrscheinlichkeit von 80 %, dass der Zeuge ein grü­nes Taxi richtig identifiziert. Letzteres, die Gleichsetzung der bedingten Wahrscheinlich­keit P(A | „grün“) mit P(„grün“ | A) ist ein häufiger Fehler, der auf Denken in Assoziatio­nen, oder Repräsentativität, zurückzuführen ist.13

III.Das deskriptive Modell: Denken in Repräsentativität

  1. Dass das Bayes-Theorem nicht beschreibt, wie Menschen tatsächlich mit probabilistischen In­formationen umgehen, wurde bereits in den 60-er Jahren des letzten Jahrhunderts er­kannt. Studien von Ward Edwards und Kollegen kamen zum Schluss, dass Menschen ihre subjektive Einschätzung der Wahrscheinlichkeit nach der Kenntnis neuer Indizien zwar in die vom Bayes-Theorem vorgegebene Richtung revidierten, aber zu wenig. Dieses Phänomen wurde daher als „Konservatismus“ bezeichnet, weil die Versuchspersonen an ihren ursprünglichen Überzeugungen festhielten.14 Die Resultate von Edwards waren aber nicht immer eindeutig; so verschwand beispielsweise der Konservatismus, wenn die neue Information nur geringen diagnostischen Wert hatte (der Likelihood-Quotient also nahe bei 1 liegt). In diesem Fall war die Revision der Anfangswahrscheinlichkeit sogar zu extrem.15 Andere Forscher wiesen darauf hin, dass in der Wirklichkeit viele Indizien redundant seien und daher ein einzelnes Indiz bei der Revision der Anfangswahrschein­lichkeit zu Recht nur gering gewichtet wird. Die Versuchspersonen würden möglicher­weise ihre dem tatsächlichen Leben angepassten Entscheidungsalgorithmen auf die künst­liche Versuchsanlage übertragen; die Resultate seien daher ein Artefakt der Versuchsan­lage. Auch sei die Diagnostizität der Indizien unrealistisch hoch; die Versuchs­personen würden automatisch von realistischeren Werten ausgehen.16 Diese Kritik koinzi­dierte mit der Publikation von „On the Psychology of Prediction“ von Kahneman und Tversky, in der sie nachwiesen, dass ihre Versuchspersonen Basisraten vernachlässigen oder gar igno­rieren.17 Die Entdeckung der Vernachlässigung der Anfangswahrscheinlich­keit (base rate neglect) – der Antithese zum Konservatismus – bedeutete zusammen mit der Kritik an der künstlichen Versuchsanordnung das Ende der Forschung zum Konserva­tismus.18

  2. Kahneman und Tversky postulieren, dass Menschen sich einer Repräsentativitäts­heuristik (representative heuristic) bedienen, wenn sie die Wahrscheinlichkeit des Vorlie­gens einer Tatsache einschätzen. Gemäss der Repräsentativitätsheuristik beur­teilt eine Person die Wahrscheinlichkeit eines ungewissen Ereignisses nach dem Aus­mass, in dem es in wesentlichen Eigenschaften seiner Grundgesamtheit ähnlich ist.19 Mit anderen Worten postuliert die Repräsentativitätsheuristik, dass der Mensch auch dort assoziativ denkt, wo er komparativ denken sollte. Beim assoziativen Denken werden wahrgenommene Stimuli mit den Eigenschaften von im Gedächtnis gespeicherten Schemata verglichen. Ein Schema ist eine komplexe Wissenseinheit, die die typischen Eigenschaften von Mitgliedern einer allgemeinen Kategorie enthält.20 Nachdem das Schema aktiviert ist, können daraus wei­tere, noch nicht beobachtete Eigenschaften des betreffenden Objekts abgeleitet werden. Dies ist häufig nützlich; wird beispielsweise ein Tier mit einer gewissen Grösse, Farbe und Form wahrge­nommen, kann es dem Schema „Stinktier“ zugeordnet werden. Ohne wahr­nehmen zu müssen, dass das Tier tatsächlich stinkt, kann die Flucht ergriffen werden.21

  3. Unter gewissen Umständen kann das Denken in Assoziationen zu Fehlern führen, wie folgen­des klassisches Experiment zeigt. Kahneman und Tversky legten ihren Versuchs­personen fünf Beschreibungen von Menschen vor, die zufällig aus einer Gruppe von 100 Personen gezogen worden waren. Der einen Hälfte der Versuchspersonen wurde gesagt, dass die Gruppe aus 70 Ingenieuren und 30 Anwälten, der anderen Hälfte, dass sie aus 30 Ingenieuren und 70 Anwälten bestehe. Ansonsten waren die Instruktionen identisch.

  4. Eine solche Beschreibung lautete beispielsweise:22

Jack ist ein 45-jähriger Mann. Er ist verheiratet und hat vier Kinder. Er ist meist konservativ, sorgfäl­tig und ehrgeizig. Er zeigt kein Interesse an politischen und sozialen Themen und verbringt seine Freizeit mit seinen zahlreichen Hobbies, die Heimwerken, Segeln und das Lösen mathematischer Rät­sel umfassen.

Wie gross ist die Wahrscheinlichkeit, dass Jack einer der 30 Ingenieure aus der Gruppe der 100 Per­sonen ist?

  1. Die Antwort sollte, unabhängig davon, wie diagnostisch die Information ist,23 dadurch beein­flusst werden, wie die gross die Anfangswahrscheinlichkeit ist, dass Jack ein Ingeni­eur ist. Angenommen, eine Versuchsperson ist aufgrund der Beschreibung der Meinung, dass Männer mit den beschriebenen Eigenschaften unter Ingenieuren fünf Mal häufiger anzutreffen sind als unter Anwälten. In diesem Fall ist die a posteriori Wahrscheinlichkeit, dass Jack ein Ingenieur ist, 69 %,24 wenn sich 30 Ingenieure in der Gruppe befinden, wenn sich jedoch 70 Ingenieure in der Gruppe der 100 befinden, beträgt sie 92 %.25

  2. Kahneman und Tversky stellten jedoch keine signifikanten Unterschiede zwischen den bei­den Gruppen fest. Ihre Versuchspersonen hatten die Anfangswahrscheinlichkeit schlicht ignoriert; beachtet wurde sie nur dann, wenn überhaupt keine individualisierende Informa­tion vorhanden war („Sie haben keinerlei Information über die Person, die zufällig aus der Stichprobe gezogen wurde. Wie gross ist die Wahrscheinlichkeit, dass die Person einer der 30 Ingenieure in der Gruppe der 100 Personen ist?).26 Andere Autoren replizierten und erweiterten die Experimente von Kahneman und Tversky und bestätigten die Resultate weitgehend.27 Der base rate neglect war geboren und führte zu einer Flut von Publikatio­nen, die bis heute nicht nachlässt (zur Kritik am base rate neglect siehe hinten, S. ff.).

  3. Die Repräsentativität einer Eigenschaft einer Instanz einer Kategorie für ihre Zugehörig­keit zu derselben kann durch die bedingte Wahrscheinlichkeit P(E | S) ausgedrückt werden; 28 wobei „E“ die Eigenschaft und „S“ das Schema bezeichnet. Je repräsentativer, oder typischer, die Eigenschaften für die betreffende Kategorie sind, desto höher ist die bedingte Wahrscheinlichkeit P(E | S); sie erreicht 1, wenn alle Instanzen der Kategorie die entspre­chende Eigenschaft aufweisen. In dem „Jack der Ingenieur“ Experiment haben möglicher­weise viele Versuchspersonen assoziativ gedacht: „Das ist ein typischer Ingenieur. Min­destens 50 % aller Ingenieure haben diese Eigenschaften“. Die bedingte Wahrscheinlich­keit P(E | S) beträgt daher 0,5; d.h. die Wahrscheinlichkeit, dass die Eigen­schaften gegeben sind, wenn eine Instanz des Schemas „Ingenieur“ vorliegt, ist 50 %. Falsch ist jedoch der nächste Schritt: „Weil 50 % aller Ingenieure diese Eigenschaften aufweisen, ist die Wahr­scheinlichkeit, dass Jack ein Ingenieur ist, 50 %“. P(E | S) darf, siehe ratio rule (Gleichung 8, S. ), nur dann mit P(S | E) gleichgesetzt werden, wenn die Wahrscheinlichkeit von S und E identisch sind. Repräsentatives Ähnlichkeits-Denken unterscheidet jedoch nicht zwischen P(E | S) und P(S | E) und führt eine Symmetrie ein, die in Wirklichkeit (meist) nicht existiert.29

  4. Die Umkehrung bedingter Wahrscheinlichkeiten (inverse fallacy30) ist sehr häufig und hat Villejoubert/Mandel dazu verleitet, anzunehmen, dass sie die Ursache des empirisch festgestellten base rate neglects ist.31 Während bei der Vernachlässigung der Anfangswahr­scheinlichkeit nur die Basisrate ignoriert wird, wird bei der Verwechslung der bedingten Wahrscheinlichkeiten auch P(I | ¬H) vernachlässigt (im Beispiel von „Jack“ also die Wahrscheinlichkeit, dass eine Person mit den beschriebenen Eigenschaften auch unter Anwälten vorkommt).

  5. Villejoubert/Mandel machen sich bei ihrem Experiment die Tatsache zunutze, dass es auf die Basisraten nicht ankommt, wenn die Anfangswahrscheinlichkeit 0,5 ist. Sie legten ihren Versuchspersonen insgesamt zwölf Fragen im folgenden Format vor: „Auf einem Planeten gibt es eine Million Glooms und eine Million Fizos. 98 % der Glooms und 58 % der Fizos spielen Harmonika. Sie treffen eine der Kreaturen, die Ihnen durch einen Über­setzer mitteilt, dass sie Harmonika spielt. Wie gross ist die Wahrscheinlichkeit, dass es sich um einen Gloom handelt?“. Villejoubert/Mandel stellten fest, dass die Antworten häufig näher bei P (I | H) (im obigen Beispiel 0,98) als bei der gemäss Bayes-Theorem korrekten Antwort lagen (im obigen Beispiel 0,63). Rund die Hälfte ihrer Versuchsperso­nen setzten in mehr als 80 % der Fragen a posteriori Wahrscheinlichkeit und bedingte Wahrscheinlichkeit P (I | H) gleich.32 Für Villejoubert/Mandel ist dies Beleg dafür, dass nicht die Vernachlässigung der Basis­raten, sondern die Verwechslung der bedingten Wahrscheinlichkeiten die Ursache für die beobachteten Abweichungen vom Bayes-Theo­rem ist.

  6. Die Studie von Villejoubert/Mandel ist ein starkes Indiz für assoziatives Denken, wenn komparatives Denken angezeigt wäre. Kahneman/Tversky behaupten allerdings nicht, dass die Vernachlässigung der Basisraten die Ursache der beobachteten Abweichungen von der gemäss Bayes-Theorem richtigen Antwort ist; Ursache ist gemäss ihnen das reprä­sentative Denken. Die Vernachlässigung der Basisraten ist nur eine der zahlreichen Folgen dieser Heuristik.33 Allerdings hat sie in den letzten zwanzig Jahren die Diskussion domi­niert, weshalb häufig nur noch von base rate neglect gesprochen wird, was Villejou­bert/Mandel möglicherweise zur Annahme verleitet hat, die Vernachlässigung der Basis­rate werde als Ursache der beschriebenen Fehler gesehen.

A.Typische Fehler, die aus dem repräsentativen Denken resultieren

1.Ausländer sind kriminell, Marihuana ist eine Einstiegsdroge und Videospiele machen gewalttätig

  1. Der Anteil ausländischer Staatsangehöriger in den Strafvollzugsanstalten des Kantons Zü­rich (ohne Ausschaffungshaft) betrug 2003 76,5 %.34 Praktisch alle jugendlichen Amokläu­fer – der Attentäter von Erfurt, die Mörder von Columbine, Colorado – spielten intensiv gewalttätige Videospiele. Und fast alle Konsumenten von harten Drogen konsu­mieren auch, oder konsumierten früher, Marihuana. Dies hat Leute dazu verleitet, darauf zu schliessen, dass Ausländer generell kriminell sind,35 Videospiele zu Gewalttaten füh­ren36 und Marihuana eine Einstiegsdroge ist.37

  2. Diese Schlüsse sind falsch, weil sie aus der bedingten Wahrscheinlichkeit P (I | H) auf die be­dingte Wahrscheinlichkeit P (H | I) schliessen. Um das Verhältnis der bedingten Wahr­scheinlichkeiten bestimmen zu können, muss man aber auch das Verhältnis Wahrschein­lichkeiten P(H) und P(I) kennen. Um beim Beispiel der Videospiele zu bleiben: P(H), d.h. Amokläufer, ist extrem selten. Selbst in den USA, wo solche Amokläufe häufiger sind als in anderen Ländern, kommen sie kaum mehr als ein Mal jährlich vor. Der Anteil Jugendli­cher, zumal männlicher, die Videospiele spielen, ist aber sehr hoch.38 Gewalttätige Video­spiele gehören dabei zu den populärsten.39 Da das Verhältnis P(„läuft Amok“) zu P(„spielt Videogames“), sehr gross ist, muss auch das Verhältnis P (“läuft Amok” | „spielt Video­games“) zu P(„läuft nicht Amok“ | “spielt Videogames”) sehr gross sein. Mit anderen Worten wird nur ein ganz, ganz kleiner Anteil der Videospieler zu Gewalttätern, so wie nur ein kleiner Anteil der Haschisch-Konsumenten zu harten Drogen greift.40

2.Fallacia Consequentis

  1. Mit den obigen Fehlschlüssen verwandt ist die bereits Aristoteles bekannte fallacia consequentis, der bejahende Schluss von der Folge auf den Grund.41 Die fallacia consequen­tis hat folgende Form:

Wenn p, dann q. (Wer gewalttätig ist, spielt brutale Videospiele.)

q. (X spielt brutale Videospiele.)

Ergo, p. (X ist gewalttätig.)

  1. Selbst wenn die Aussage „wenn p, dann q“ wahr ist – die bedingte Wahrscheinlichkeit P(q | p) also 1 ist – ist der obige Schluss nicht richtig.42 Zutreffend ist der Schluss nur dann, wenn die Prämisse lautet „Ausschliesslich wenn p, dann q“; d.h. das Indiz kommt nur bei der Haupttatsache vor, und sonst gar nicht. In Bayes’scher Terminologie ist der Likeli­hood-Quotient für dieses Indiz unendlich, sein abstrakter Beweiswert ist unermesslich.43 Ergo führt es selbst dann zur Bejahung von p, wenn die Anfangswahrscheinlichkeit von p sehr gering ist.

3.Was typisch ist, ist beweiskräftig

  1. Beweisanzeichen, die typisch sind für eine bestimmte Tat, müssen nicht notwendigerweise diagnostisch sein. Kinder, die über sexuelle Übergriffe berichten, zögern oft und widerru­fen bereits gemachte Aussagen.44 Die Zurücknahme einer Anschuldigung ist daher nicht untypisch für ein missbrauchtes Kind und Teil von SUMMITs „Child Sexual Abuse Acco­modation Syndrome“.45

  2. Nur, wie gross ist die Wahrscheinlichkeit, dass ein Kind, das nicht missbraucht wurde und beispielsweise durch suggestive Fragen dazu gebracht wurde, unrichtige Anschuldigungen zu erheben,46 diese Aussagen später widerruft? Der gesunde Menschenverstand sagt einem, dass die Rate der widerrufenen Anschuldigungen in diesem Fall höher sein muss. Der Widerruf einer Anschuldigung muss daher ein entlastendes Indiz sein. Wie entlastend, können nur empirische Untersuchungen zeigen, die eine Kontrollgruppe verwenden und den Vergleich der Wahrscheinlichkeit eines Widerrufs bei tatsächlichem Missbrauch und suggeriertem Missbrauch erlauben.

  3. Auch andere Anzeichen, die oft als „typisch“ für Kindsmissbrauch angesehen werden, tau­gen nicht als Indizien für Missbrauch. So ist eine Rötung der Genitalien bei missbrauchten Kindern zwar häufig, aber bei nicht missbrauchten ebenso.47 Auch psychosomatische Symptome wie Bettnässen, Kopfschmerzen oder Verstopfung treten bei missbrauchten Kindern nicht häufiger auf als bei nicht missbrauchten Kindern in vergleichbarer Situa­tion.48 Von der Typizität der Symptome auf die Ursache zu schliessen, ohne die Häufig­keit der Symptome bei Nicht-Vorliegen der Ursache zu kennen, ist ein typischer Fehler assoziativen Denkens.

  4. Das Problem ist, dass häufig Experten befragt wurden, die ausschliesslich mit missbrauch­ten Kindern zu tun hatten. Ihre Beobachtungen aber können nie dazu dienen, zwischen den Hypothesen Missbrauch und Nicht-Missbrauch zu differenzieren, auch wenn das zu beur­teilende Kind alle Stereotypen des typischen Missbrauchs erfüllt. Robyn Dawes formu­liert dies so:49

Unglücklicherweise sagen viele Sachverständige auf der Basis ihrer „Erfahrung“ zu den Merkmalen missbrauchter Kinder aus, aber sie geben zu, wenig oder keine Erfahrungen mit Kindern zu haben, die nicht missbraucht wurden, aber einmal ausgesagt hatten, missbraucht worden zu sein. Daher ist solche Erfahrung – nicht bloss „genau gesagt“, sondern fundamental – irrelevant für die Beurteilung des Missbrauchs. Ironischerweise versuchen solche Pseudo-Experten häufig, ihre angeblichen Sachkennt­nisse durch die Behauptung zu belegen, dass fast alle Kinder, die sie behandeln, tatsächlich miss­braucht worden seien. Wird diese Aussage ernst genommen, sollte sie automatisch dazu führen, ihnen jeden Sachverstand bezüglich der für das Gericht zentralen Frage, nämlich ob das Kind missbraucht wurde oder nicht, abzusprechen.

  1. Als Indizien für oder gegen den Missbrauch taugen nur Symptome, deren Häufigkeit bei nicht missbrauchten Kindern in vergleichbaren Umständen man ebenfalls kennt. Dies wurde inzwischen erkannt, und entsprechende Forschungsanstrengungen werden unter­nommen.50

  2. Der Jurist kann daraus lernen, dass sich der Beweiswert eines Indizes immer erst aus Beantwortung der drei folgenden Fragen ergibt:

  1. Wie häufig kommt das Indiz bei der Haupttatsache vor?

  2. Wie häufig kommt das Indiz (auch) bei der Nicht-Haupttatsache vor?

  3. Wo kommt das Indiz häufiger vor, bei Gruppe 1 oder bei Gruppe 2?51

  1. Lässt sich die Frage 2 nicht beantworten, weil keine Daten vorliegen, so ist das Indiz wissen­schaftlich wertlos. Aus den Antworten zu den drei Fragen errechnet sich der abs­trakte Beweiswert des Indizes – der Likelihood-Quotient gemäss Bayes-Theorem. Bender/Nack umschreiben den Beweiswert eines Indizes mit gegebenem Likelihood-Quotienten wie folgt: 52

1 : 3 gering belastend

1 : 4-9 belastend

1 : 10-25 stark belastend

1 : 50-100 sehr stark belastend

1 : 1'000 und höher ausserordentlich stark belastend

4.Der Trugschluss des Anklägers

  1. Ein Laden wird überfallen. Der Täter trägt eine Skimütze mit Sehschlitzen. Bei einer Nahbereichsfahndung wird ein Mann aufgegriffen, der ungefähr die Grösse des Räubers hat und ähnliche Kleidung trägt. Weder Beute, Waffe noch Skimütze werden bei ihm gefunden. Eine ähnliche Skimütze, wie sie der Täter trug, findet sich jedoch in einem Abfalleimer unweit des aufgegriffenen Mannes. Nach der Schilderung dieses Sachverhalts – ohne weitere Indizien – wurden die Versuchspersonen in einem Experiment von Thompson/Schumann gebeten, ihre subjektive Überzeugung anzugeben, dass es sich bei dem aufgegriffenen Mann um den Täter handle.53

  2. Anschliessend erhielten die Versuchspersonen folgende zusätzliche Informationen: In der Skimütze werden Haare gefunden. Mikroskopische Untersuchungen zeigen, dass sie sich nicht von den Haaren des Verdächtigen unterscheiden lassen. Ein forensischer Wissen­schafter gibt folgende Aussage zu Protokoll:

wenn der Verdächtige unschuldig wäre, betrüge die Wahrscheinlichkeit, dass die Haarproben nicht unterschieden werden können, nur 2 %

  1. Nun wurden die Versuchspersonen erneut gebeten, ihre subjektive Überzeugung anzugeben, dass der Verdächtige der Räuber ist. 22 % der Versuchspersonen gaben eine Wahrscheinlichkeit von 98 % an. Sie begingen den Fehler, P(H | I) gleichzusetzen mit 1 – P(I | H).54 Dieser Fehler wird gewöhnlich als „Trugschluss des Anklägers“ bezeichnet.55

  2. Präsentiert der Sachverständige jedoch seine Erkenntnisse in der Form von Häufigkeiten

nur 2 % aller Menschen haben Haare, die sich mikroskopisch nicht von den Haaren des Täters unter­scheiden lassen. In einer Stadt mit einer Million Einwohner sind dies rund 20'000 Personen

    dann begehen nur 4 % der Befragten den Fehler, P(H | I) gleichzusetzen mit 1 – P(I | H).56

  1. Trugschlüsse des Anklägers sind kein Artefakt von gesuchten Experimenten. Ta­roni/Mangin/Bär weisen darauf hin, dass sich falsche Argumente wie das folgende häufig in Expertengutachten finden:57

Es lassen sich keine Unterschiede zwischen den Merkmalen in der untersuchten Spur und denjenigen bestimmt beim Verdächtigen auffinden. Eine solche Befundkonstellation lässt sich bei ca. 0,001 % der Bevölkerung nachweisen. Die Wahrscheinlichkeit, dass die Spur vom Tatverdächtigen stammt, ist grösser als 99,999 %.

  1. In einem Grundsatzurteil zur DNA-Analyse befasste sich der deutsche Bundesgerichtshof mit den folgenden Aussagen eines Sachverständigen: Die Kombination der Merkmale aller drei DNA-Polymorphismen komme nur bei 0,014 Prozent der Bevölkerung, d.h. bei einer von 6'937 Personen, vor. Deshalb könne mit einer „Wahrscheinlichkeit von 99,986 Prozent (100 Prozent abzüglich 0,014 Prozent)“ festgestellt werden, dass der Angeklagte der Ver­ursacher des Spermas aus der Scheide der Geschädigten sei. Zu dieser Aussage konnte der Gutachter aber nur gelangen, weil er – wie das Gutachter oft tun,58 aber nicht tun soll­ten59 – von einer „neutralen“ Anfangswahrscheinlichkeit von 0,5 ausging, dass das Sperma vom Angeklagten stammt. Die Feststellung der Belastungswahrscheinlichkeit aus der Merkmals­wahrscheinlich­keit setzt aber die Berücksichtigung der Anfangswahrschein­lichkeit voraus. Dass diese 0,5 beträgt, durfte der Sachverständige annehmen, nicht aber das Gericht. Der BGH wies ausdrücklich darauf hin, dass die vom Sachverständigen ge­nannte Merkmalswahrscheinlichkeit von 0,014 bei einer Stadt der Grösse von Hannover mit ungefähr 250'000 Einwohnern immerhin bedeutet, dass 35 männliche Personen aus Hannover als Täter nicht ausgeschlossen werden können.60

  2. Auch das Bezirksgericht Zürich, so lässt sich aus der Begründung eines Urteils vom 7. De­zember 1993 schliessen, ist nicht gefeit gegen den Trugschluss des Anklägers (der Trug­schluss hat in diesem Fall mit an Sicherheit grenzender Wahrscheinlichkeit nicht zu einem Fehlurteil geführt). Das Gericht stellt fest, dass gemäss Expertise der am Tatort gefundene Speichel mit einer Wahrscheinlichkeit von 1 : 150 Millionen vom Angeklagten stamme.61 Diese Belastungswahrscheinlichkeit konnte der Experte aber nur angeben, weil er von der neutralen Anfangswahrscheinlichkeit von 50 % ausgegangen ist, dass der Angeklagte der Verursacher der Spuren ist.62 Die Annahme einer Anfangswahrscheinlichkeit von 50 % für die Schuld des Angeklagten ist aber einigermassen willkürlich und kann sich zu Un­gunsten des Angeklagten auswirken.63 Der Gutachter kann die tatsächliche Anfangswahr­scheinlichkeit gar nicht kennen,64 oft kann sie auch nur nach richterlichem Ermessen geschätzt werden.

  3. Das Gericht selber ging offensichtlich davon aus, dass die tatsächliche Anfangswahrschein­lichkeit erheblich weniger als 50 % betrug, und schrieb: „Bereits eine erheblich kleinere Wahrscheinlichkeit [als die von 1 : 150 Millionen] würde genügen, um im Angeklagten den Spurengeber zu sehen, wenn man bedenkt, dass die Schweiz knapp 7 Millionen, Italien rund 58 Millionen Einwohner zählt“.65 Damit scheint das Gericht andeu­ten zu wollen, dass die Übereinstimmung bei einer Merkmalswahrscheinlichkeit von 1 : 150 Millionen den Angeklagten selbst dann mit hoher Wahrscheinlichkeit zum Täter macht, wenn jeder der 65 Millionen Einwohner der Schweiz und Italiens als Täter in Frage kommt.

  4. Dies ist falsch. Geht man von einer Anfangswahrscheinlichkeit von 1 : 65 Millionen aus, dass der Angeklagte der Spurenverursacher ist, so resultiert aus der Merkmalswahrschein­lichkeit von 1 : 150 Millionen „nur“ eine Wahrscheinlichkeit von 70 %, dass der Ange­klagte der Spurenverursacher ist. Nimmt man weiter an, dass es beim Vergleich von zwei DNA-Proben mit einer geringen Wahrscheinlichkeit von 1 : 10'000 zu einem falsch positi­ven Resultat66 kommt – eine durchaus realistische Annahme67 – so reduziert sich die Belastungswahrscheinlichkeit dramatisch auf weniger als ein Promille (näheres hinten, S. ff.)68.

  5. Das Urteil des Bezirksgerichts Zürich ist trotzdem kein Fehlurteil, weil die Anfangswahr­scheinlichkeit, dass der Angeklagte der Spurenverursacher war, im konkreten Fall erheb­lich höher als 1 : 65 Millionen war. Der dem Angeklagten angelastete Einbruchdiebstahl wurde nach dem gleichen Modus Operandi wie frühere Einbrüche des Angeklagten ausge­führt, der Mittäter war ein alter Bekannter des Angeklagten und der Angeklagte konnte für seinen angeblichen Aufenthalt in Italien keinen einzigen Zeugen benennen.69

  6. Fälle, in denen Gerichte oder Gerichtsgutachter erwiesenermassen dem Trugschluss des An­klägers unterlagen – und meist von der Berufungsinstanz korrigiert wurden – sind Regina v. Andrew Deen, Court of Appeals (Criminal Division) vom 10. Januar 1994; People v. Collins, 66 Cal. Rptr. 497 (1968), U.S. v. Massey, 594 F. 2d 676 (8th Cir. 1979); State of Arizona v. Mi­chael Steven Gallegos, 870 P.2d 1097 (1994) und State of Arizona v. Robert Wayne Johnson, 905 P.2d 1002 (1995).

5.Umgekehrter Fehler: was untypisch ist, ist unwahrscheinlich

  1. Alan M. Dershowitz, Harvard Professor und Berater des Verteidigungsteams im O.J. Simp­son Prozess, sagte im März 1995 am amerikanischen Fernsehen, dass nur etwa ein Zehntel eines Prozentes aller Männer, die ihre Frau schlagen, diese auch umbringen. Er brachte dies in Verteidigung seines Mandanten vor, der die ermordete Nicole Brown Simp­son erwiesenermassen geschlagen hatte. Dies wurde von den Strafverfolgungsbehörden und den Medien als belastendes Indiz gegen O.J. Simpson gewertet.

  2. Das Argument von Dershowitz ist auf den ersten Blick einleuchtend: es ist sehr, sehr sel­ten, dass ein Mann, der seine Frau schlägt, diese auch umbringt, daher ist das Indiz, dass O.J. Simpson seine Frau geschlagen hat, auch nicht belastend. „Ermorden“ ist mit anderen Worten nicht repräsentativ, oder typisch, für „schlagen“.

  3. Der Statistiker Irving J. Good wies in einem Leserbrief an die Zeitschrift Nature nach, dass die Argumentation von Dershowitz nicht richtig ist.70

  4. Angenommen, E bezeichnet „ermordet (egal von wem) in 1994“, S „schuldig“ (d.h. der Mann der geschlagenen Frau ist der Mörder), ¬S “unschuldig” und G „geschlagen von ihrem Mann“. Dann gilt für das Verhältnis der bedingten Wahrscheinlichkeiten gemäss dem Bayes-Theorem in seiner Chancen Form (siehe Gleichung (7))

P (S | E und G) P(S | G) P(E | S und G)

──────── = ───── ∙ ───────── (13)

P(¬S | E und G) P(¬S | G) P(E | ¬S und G)


  1. Good nimmt die Wahrscheinlichkeit von Dershowitz, dass ein seine Frau schlagender Mann diese umbringt (1/1’000), und multipliziert sie mit 1/10, um die Wahrscheinlichkeit anzugeben, dass der Mord in einem bestimmten Jahr geschieht.71 Die Anfangswahrschein­lichkeit, dass ein schlagender Mann seine Frau in einem bestimmten Jahr umbringt, ist daher

P(S | G) = 1/10'000 (0,0001) (14)


  1. Die Wahrscheinlichkeit, dass eine Frau ermordet wurde, dann wenn ihr Mann sie ermordet hat, ist logischerweise 1, also

P(E | S und G) = P (E | S) = 1 (15)


  1. Good stellt weiter fest, dass in den USA jährlich rund 25’000 Personen ermordet werden; bei einer Bevölkerung von rund 250 Millionen beträgt daher die Wahrscheinlichkeit für eine beliebige Person,72 und somit auch für die Frau eines schlagenden Mannes, in einem bestimmten Jahr ermordet zu werden

P(E | ¬S und G) = P(E | ¬S) ≈ 1/10'000 (0,0001) (16)


  1. Setzt man nun die Zahlen in die Gleichung (7) ein, so erhält man

P (S | E und G) 0,0001 1

───────── = ──── ∙ ──── ≈ 1 (17)

P(¬S | E und G) 0,9999 0,0001


  1. Mit anderen Worten beträgt die Wahrscheinlichkeit, dass die getötete Frau eines Mannes, der sie schlägt, von ihrem Mann ermordet wurde, rund 50 % (P (S | E und G) ≈ 0,5). Es ist daher nur vernünftig, den Ehemann als Hauptverdächtigen anzusehen, wenn feststeht, dass er seine Frau geschlagen hat und diese tot aufgefunden wird. Dass „ermorden“ untypisch ist für schlagende Männer, ändert nichts daran.73

  2. Gerd Gigerenzer weist darauf hin, dass die obige – gerade für Juristen – einigermassen komplexe Rechnung erheblich vereinfacht werden kann, wenn man sie in natürlichen Häufigkeiten darstellt.74 Man stelle sich 10'000 geschlagene Frauen vor. Von diesen wird in einem bestimmten Jahr eine von ihrem Ehemann ermordet. Von den restlichen 9'999 wird statistisch gesehen eine von jemand anderem ermordet. Von den zwei ermordeten Frauen wurde also eine von ihrem schlagenden Ehemann ermordet; mit anderen Worten beträgt die Wahrscheinlichkeit, dass der schlagende Ehemann der Mörder ist, 50 %.

B.Kritik am deskriptiven Modell in der Psychologie

  1. Die Forschung von Kahneman und Tversky zur Repräsentativitätsheuristik, und insbesondere zum base rate neglect, ist in den neunziger Jahren des letzten Jahrhunderts zunehmend kritisiert worden. Gerd Gigerenzer,75 Jonathan J. Koehler76 und Leda Cosmides/John Tooby77 kritisieren, dass die von Kahne­man und Tversky aufgrund ihrer Experimente gezogenen weitreichenden Schlüsse nicht zuträfen und nicht generell davon gesprochen werden könne, dass Menschen intuitiv schlechte Statistiker seien.

  2. Der wohl schärfste Kritiker Gigerenzer bringt zwei Hauptargumente vor, eines logisch-ma­thematischer Art, das andere empirischer Natur. Erstens weist er darauf hin, dass um­stritten ist, was es bedeutet, dass ein Ereignis „wahrscheinlich“ ist, und dass man sinnvoll gar nicht von der Wahrscheinlichkeit eines singulären Ereignisses sprechen könne. Es gebe daher keine normative Basis, mit der man die von den Versuchspersonen gegebenen Ant­worten zur Wahrscheinlichkeit eines singulären Ereignisses vergleichen und die Abwei­chungen als „Fehler“ qualifizieren könne. Zweitens, so das empirische Argument, ver­schwänden die beobachteten Phänomene weitgehend, wenn die Information in der Form natürlicher Häufigkeiten präsentiert würden. Die Kritik von Gigerenzer war mächtig genug, um Kahneman und Tversky zu einer Antwort78 herauszufordern, obwohl sie normalerweise bewusst darauf verzichtet haben, explizit zur Kritik an ihrer Arbeit Stellung zu nehmen.79 Im Folgenden werden die Argumente von Gigerenzer und die sich daraus ergebenden Schlussfolgerungen dargestellt.

1.Was heisst „ein Ereignis tritt mit einer Wahrscheinlichkeit von 0,x auf“?

  1. Was bedeutet die Aussage „Eine Frau im gebärfähigen Alter, die mit einem zeugungsfähi­gen Mann Geschlechtsverkehr hat, wird mit einer Wahrscheinlichkeit von 0,05 schwan­ger“? Um sagen zu können, was eine Aussage bedeutet, muss man aufzeigen, was der Fall sein muss, damit die Aussage wahr ist. Im Fall der Wahrscheinlichkeit der Schwanger­schaft lässt sich durch Beobachtung eines einzelnen Ereignisses nicht feststellen, ob die Aussage zutrifft. Entweder wird die Frau schwanger, dann ist die Wahrscheinlichkeit 1, oder sie wird nicht schwanger, dann ist die Wahrscheinlichkeit Null. Ein bisschen schwan­ger kann man bekanntlich nicht werden. So oder anders wird die Aussage, dass sie mit einer „Wahrscheinlichkeit von 0,05“ schwanger wird, durch die Beobachtung der Folgen des Geschlechtsverkehrs weder bestätigt noch widerlegt. Ob die Aussage zutrifft, muss daher an einem anderen Kriterium gemessen werden.

a.Objektive Wahrscheinlichkeit

  1. Eine Möglichkeit, Wahrscheinlichkeit zu definieren, ist als Grenzwert der relativen Häufigkeit eines Merkmals in einem Kollektiv (long run frequency).80 Nach dieser Auffas­sung kann man von Wahrscheinlichkeit nur sprechen, wenn „es sich um eine in grossen Mengen auftretende Erscheinung, [...] um eine praktisch unbegrenzte Folge von gleichartigen Beobachtungen handelt“.81 Dieser Wahrscheinlichkeitsbegriff wird wahl­weise objektiv, statistisch, empirisch oder frequentistisch genannt. Von der Wahrschein­lichkeit eines singulären Ereignisses zu sprechen ist nach dieser Auffassung sinnlos, weil es für ein singuläres Ereignis keine Referenzklasse gibt, in der man die Häufigkeit des Vorkommens des Ereignisses zählen könnte.82 Der Anwendungsbereich der objektiven Wahrscheinlichkeitstheorie ist deshalb auf Gebiete begrenzt, in denen lange Beobachtungs­reihen gemacht werden können, wie in der Physik, bei Glücksspielen oder im Versiche­rungswesen. Nach der objektiven Wahrscheinlichkeitstheorie kann die obige Aussage zur Schwangerschaft nur so verstanden werden, dass von 1'000 Frauen im gebärfähigen Alter, die mit tausend zeugungsfähigen Männern Geschlechtsverkehr haben, 50 schwanger wer­den. Daraus abzuleiten, dass die 1'001. Frau mit einer Wahrscheinlichkeit von 0,05 schwanger wird, ist unzulässig.

b.Subjektive Wahrscheinlichkeit

  1. Nach dem subjektiven oder epistemischen Wahrscheinlichkeitsbegriff ist Wahrscheinlich­keit Ausdruck unseres subjektiven Glaubens an das Eintreten oder die Ursache eines Er­eignisses in Anbetracht der derzeit zur Verfügung stehenden Informationen. Der Nachsatz „in Anbetracht der derzeit zur Verfügung stehenden Informationen“ ist wichtig; nach der subjektiven Wahrscheinlichkeitstheorie ist es sinnlos, von der Wahrscheinlichkeit eines Ereignisses „an sich“ zu sprechen. Die Wahrscheinlichkeit eines Ereignisses hängt immer von den bekannten Informationen ab.83 Ändern sich diese, muss die Wahrscheinlichkeit unter Berücksichtigung der neuen Informationen neu berechnet werden. Die frühere Wahr­scheinlichkeit ist deswegen nicht falsch, sondern ging eben von einem anderen Wissens­stand aus. So lässt sich auch zwanglos erklären, dass ein Wahrscheinlichkeitsurteil desto besser (begründet) ist, je mehr Informationen es berücksichtigt: mit der Verbreiterung der Informationsbasis wird es von einer unsicheren zu einer „sichereren“ Entscheidungs­grundlage.84 Im obigen Beispiel mit der Wahrscheinlichkeit der Schwangerschaft wird sich subjektive Wahrscheinlichkeit beispielsweise ändern, wenn man erfährt, dass die Frau im Zeitpunkt des Geschlechtsverkehrs ihren Eisprung hat. Vielleicht würde man statt von „subjektiver Wahrscheinlichkeit“ besser von „Gewissheit“ oder „Überzeugungsgrad“ sprechen, weil subjektive Wahrscheinlichkeit letztlich einen Grad von Gewissheit aus­drückt.85

  2. Nach dem subjektiven Wahrscheinlichkeitsbegriff lässt sich die Aussage, dass es morgen mit einer Wahrscheinlichkeit von 0,3 regnen wird, in eine Wette mit einer Chance von 3:7 übersetzen. D.h. die Person, die die Aussage macht, müsste bereit sein, eine Wette einzu­gehen, bei der sie bei einem Einsatz von 3 Einheiten 10 Einheiten gewinnen kann (und somit einen Gewinn von 7 macht), wenn es morgen regnet.86 Dieser von Frank P. Ram­sey entwickelte Gedanke erlaubt, Sätze der subjektiven Wahrscheinlichkeitstheorie auf einleuchtende Weise zu beweisen; ein Satz ist dann richtig, wenn er keine Wette zulässt, bei der der Wettgegner in jedem Fall verliert (sog. „Dutch book“).87 Ob die Theorie rationa­len Wettens geeignet ist, die Überzeugung eines Richters festzustellen, bleibe da­hingestellt,88 sie ist auf jeden Fall nicht notwendig, um den subjektiven Wahrscheinlichkeits­begriff anzuwenden.89

  3. Der subjektive Wahrscheinlichkeitsbegriff wurde im 20. Jahrhundert von Frank P. Ramsey,90 Bruno de Finetti91 und Leonhard Savage92 entwickelt. Die subjektive Wahrscheinlichkeitstheorie befasst sich naturgemäss in erster Linie mit dem Problem, wie die Wahrscheinlichkeit eines Ereignisses in Anbetracht neuer Informationen zu revidieren ist. Sie stellt Regeln auf, wie Überzeugungen rational und kohärent, d.h. widerspruchsfrei, verknüpft werden können. Da das Bayes-Theorem genau dies zeigt, wird die subjektive Wahrscheinlichkeitstheorie oft auch mit „Bayes’scher Statistik“ (Bayesian statistics) be­zeichnet.

  4. Zwei Menschen, die den gleichen Informationsstand aufweisen, können einem Ereignis durchaus eine andere subjektive Wahrscheinlichkeit beimessen, auch wenn es in der Praxis Fälle geben wird, in denen die meisten Leute sich einig sind.93 Genau dies haben Kah­neman und Tversky stillschweigend angenommen, und hier setzt die (eine) Kritik von Gigerenzer an:94 Kahneman und Tversky setzen voraus, dass beim Anwalt/Ingenieur Problem (das auf S. vorgestellt wurde) die Anfangs­wahrscheinlichkeit, dass es sich um einen Ingenieur handelt, 0,3 beträgt, wenn die Stichprobe 30 Ingenieure und 70 Anwälte enthält. Aber die subjektive Wahr­scheinlich­keits­theorie verlangt nicht, dass die relative Häufigkeit der Verteilung mit der Anfangswahrscheinlichkeit gleichzusetzen ist. Die An­fangswahrscheinlichkeit lässt sich nach der subjektiven Wahrscheinlichkeitstheorie nicht bestimmen, sie muss als gegeben hingenommen werden. Weil aber die Belastungswahr­scheinlichkeit von der Anfangswahrscheinlichkeit abhängt, lassen sich die Antworten der Versuchspersonen nach der subjektiven Wahrscheinlichkeitstheorie auch nicht als richtig oder falsch qualifizieren, wenn man deren subjektive Anfangswahrscheinlichkeit nicht kennt.95

c.Wahrscheinlichkeitsbegriff und Tatsachenfeststellung vor Gericht

  1. Die Diskussion, welcher Wahrscheinlichkeitsbegriff der „richtige“ ist, wird mit Sicherheit auch im 21. Jahrhundert weitergeführt werden.96 In der deutschen juristischen Literatur vertreten Bender/Nack,97 Ernst Ludwig Nell,98 Eleonora Bourmistrov-Jüttner99 und Minna Gräns100 einen subjektiven Wahrscheinlich­keits­begriff, während Hermann Weitnauer,101 Rupert Schreiber,102 Hans Joachim Musielak103 und Bernhard U. Maassen104 den objektiven Wahrscheinlichkeitsbegriff im Sinne der relativen Häufigkeit vertreten.105 Reinhard Greger lehnt sowohl eine Anwendung des subjektiven wie des objektiven Wahrscheinlichkeitsbegriffs im Rahmen der Tatsachenfeststellung vor Gericht ab, da sich seiner Auffassung nach juristische Urteile nicht mit wahrscheinlichkeits­theore­tischen Erwägungen erfassen lassen.106

  2. In der Schweiz hat sich in der Fachliteratur noch niemand dazu geäussert, ob bei Tatsachenfeststellungen vor Gericht von einem objektiven oder subjektiven Wahrschein­lichkeitsbegriff ausgegangen werden muss. Christophe Champod und Franco Taroni verwenden einen objektiven Wahrscheinlichkeitsbegriff, befassen sich aber schwerge­wichtig mit Beweismitteln der forensischen Wissenschaften, wo objektive Wahrschein­lichkeiten empirisch feststellbar sind.107 Meines Erachtens gibt es gute Gründe dafür, anzunehmen, dass das Rechtssystem sich für den subjektiven Wahrscheinlichkeitsbegriff entschieden hat; schon deshalb, weil es kaum identische Beweissituationen gibt, die sich beliebig oft wiederholen liessen.108 Der Richter beurteilt immer den Einzelfall, und die Wahrscheinlichkeit eines Einzelfalls lässt sich nur in subjektiver Wahrscheinlichkeit aus­drücken.109

  3. Die schweizerische Lehre und Rechtsprechung umschreibt das Beweismass des Vollbeweises mit den folgenden Formulierungen: „Die richterliche Überzeugung braucht [...] keine Gewissheit zu sein. Mit Gewissheit lassen sich Tatsachen, insbesondere solche der Vergangenheit oder der Zukunft, praktisch kaum feststellen. Die richterliche Überzeu­gung darf sich auf eine Wahrscheinlichkeit stützen, die zwar objektiv den Zweifel nicht ausschliesst, ihn aber subjektiv, nach Ansicht des Gerichts, als unbegründet erscheinen lässt. [...] Der Richter braucht nicht überzeugt zu sein, dass seine Annahme unter allen Umständen richtig sein müsse, es genügt, wenn er zu dem Ergebnis gelangt, dass sie nach den konkreten Umständen die am ehesten vertretbare sei“.110 „Absolute Gewissheit gibt es nicht und kann es nicht geben, und der Prozess kann sie nicht fordern. Im Rechtssinn ist daher ein Beweis bereits erbracht, wenn der Richter sich überzeugt hat, wenn also ein so hoher Grad von Wahrscheinlichkeit besteht, dass vernünftigerweise mit der Möglichkeit des Gegenteils nicht mehr zu rechnen ist“.111 „Tatbestandsmerkmale müssen im Allgemei­nen bewiesen, d.h. zur vollen Überzeugung des Richters gebracht werden. Hiefür kann es aber genügen, dass ein Sachverhalt mit an Sicherheit grenzender Wahrscheinlichkeit er­stellt ist, wenn völlige Sicherheit nicht zu gewinnen ist“.112 „Ein Beweis gilt als erbracht, wenn das Gericht nach objektiven Gesichtspunkten von der Richtigkeit einer Sachbehaup­tung überzeugt ist. Absolute Gewissheit kann dabei nicht verlangt werden. Es genügt, wenn das Gericht am Vorliegen der behaupteten Tatsache keine ernsthaften Zweifel mehr hat oder allenfalls verbleibende Zweifel als leicht erscheinen“ (BGE 130 II 321, 325).113

  4. Diese Formulierungen stellen einerseits klar, dass nicht Sicherheit verlangt wird. Der Rich­ter darf auch dann den Beweis als erbracht ansehen, wenn eine kleine Wahrscheinlichkeit bleibt, dass seine Überzeugung nicht zutrifft. Obwohl in den Beispielen meist von „sub­jektiver Gewissheit“ und „objektiver Wahrscheinlichkeit“ gesprochen wird, darf man dies nicht dahingehend verstehen, dass damit einem objektiven Wahrscheinlichkeitsbegriff das Wort geredet würde. Die Juristen, die die obigen Regeln formuliert haben, haben sich nicht mit Wahrscheinlichkeitstheorie befasst und waren sich der unterschiedlichen Wahrschein­lichkeitsbegriffe kaum bewusst. Man kann natürlich argumentieren, dass der Begriff der Wahrscheinlichkeit, der in der Jurisprudenz verwendet wird, weder dem objektiven noch dem subjektiven Wahrscheinlichkeitsbegriff entspricht, sondern etwas Eigenes ist. Damit entzieht man juristische Urteile weitestgehend der rationalen Kontrolle.114

  5. Die Umschreibungen der herrschenden Lehre lassen sich aber zwanglos als Umschreibun­gen der subjektiven Wahrscheinlichkeit, d.h. des verlangten Grades der Überzeugung des Richters, verstehen115 (dies im Übrigen auch dann, wenn man der so genannten „objektiven Beweismasstheorie“ folgt; auch diese begnügt sich mit Wahrscheinlichkeit).116 Bour­mistrov-Jüttner betont:117

So verstanden drücken die präzisierten juristischen Wahrscheinlichkeitsurteile nichts anderes aus als die rationale Überzeugung des Richters vom (oder den rationalen Glauben des Richters an das) Beste­hen bestimmter Sachverhalte aufgrund der zur Verfügung stehenden Informationen und Erfahrungen.

  1. Das Verständnis des juristischen Wahrscheinlichkeitsbegriffs als subjektive Wahrscheinlich­keit hat den Vorteil, dass die Kohärenz und Rationalität juristischer Urteile am normativen Standard der subjektiven Wahrscheinlichkeitstheorie gemessen und inter­subjektiv diskutiert werden können.118

  2. Aussagen wie „Je unwahrscheinlicher die Tatsachenbehauptung einer Partei ist, desto hö­here Anforderungen darf das Gericht an den Beweis der behaupteten Tatsachen stellen“119 lassen sich durch das Bayes-Theorem leicht erklären. Für das Bundesgericht gehört diese Überlegung in den Bereich der Beweiswürdigung und darf nicht zu einem erhöhten Be­weismass führen (BGE 130 II 321, 325). Dort gehört sie nach dem Bayes-Theorem auch hin. Sie besagt nichts anderes, als dass, wenn eine geringe Anfangswahrscheinlichkeit des Vorliegens einer Tatsache besteht, die abstrakte Beweiskraft der Beweismittel höher sein muss, ehe das feststehende Beweismass, die subjektive Überzeugung des Richters vom Vorliegen der Tatsache, erreicht wird.

  3. Das Recht verlangt auch, dass das Gericht seine freie Beweiswürdigung nachvollziehbar be­gründet. Freie Beweiswürdigung „bedeutet nicht Willkür, sondern Pflicht zu gewissen­hafter Schlussfolgerung aufgrund des Ergebnisses des Beweisverfahrens. Das Gericht muss seine Ansicht begründen können, es genügt nicht, wenn es sich einfach für überzeugt erklärt“.120 Die Beweiswürdigung „darf die Gesetze der Logik nicht verletzen“,121 der Richter muss „das Beweismaterial sorgfältig prüfend bewerten und begründen können, weswegen er hier den Beweis als erbracht und dort als fehlgeschlagen erachtet“.122 Die richterliche Überzeugung ist in den Urteilserwägungen zu begründen, damit die richterli­che Überzeugungsbildung verstandesmässig kontrolliert werden kann.123

  4. Dort, wo objektive Wahrscheinlichkeiten empirisch feststellbar sind, darf der Richter daher meines Erachtens nur diese objektiven Wahrscheinlichkeiten zu seiner subjektiven An­fangswahrscheinlichkeit machen.124 Dies ist letztlich auch die Auffassung von Weitnauer und (ihm folgend) Musielak, die die Anwendung des objektiven Wahrscheinlichkeitsbeg­riffs mit dem Argument verteidigen, beim Einzelfall handle es sich um eine „Stichprobe“ aus dem Kollektiv. Die Aussage, dass in einer Gesamtmenge von 100 Personen 90 ein bestimmtes Merkmal aufweisen, lässt sich nach ihrer Auffassung auf den Einzelfall über­tragen, indem die Richtigkeit der Hypothese, dass die konkrete Person das betreffende Merkmal aufweist, mit einer Wahrscheinlichkeit von 90 % zutreffe, wenn die Person zufällig aus dem Kollektiv ausgewählt wurde.125 Dies ist keine Folgerung aus der Wahr­scheinlichkeitstheorie, sondern ein Werturteil des Rechtssystems, das intersubjektiv disku­tierbare Entscheidungsbegründungen verlangt. Beim Anwalt/Ingenieur Problem muss der Richter daher von der empirischen Wahrscheinlichkeit von 0,3 ausgehen, dass es sich bei der beschriebenen Person um einen Ingenieur handelt. Dies ist zwar nicht logisch zwin­gend, aber jede Abweichung davon ist zumindest erklärungsbedürftig. Das Rechtssystem hat sich daher, wenn man so will, für die pragmatische, wenn auch logisch nicht begründ­bare, Auffassung von Kahneman und Tversky entschieden, dass man bei empirisch feststellbaren Wahrscheinlichkeiten diese als subjektive a priori Wahrscheinlichkeiten annehmen und unbegründete Abweichungen von der so angenommenen Anfangswahr­scheinlichkeit als Fehler betrachten muss.

2.Häufigkeiten statt Wahrscheinlichkeiten

  1. Gigerenzer und Cosmides/Tooby behaupten, dass die beobachteten Verletzungen des Bayes-Theorem weitgehend verschwinden, wenn man den Versuchspersonen die Informa­tionen in der Form von natürlichen Häufigkeiten („5 von 20“) statt als Wahrscheinlichkei­ten (0,25) präsentiert.

Information

Darstellung der Information


Natürliche Häufigkeiten

P(H)

100 von 10’000 getesteten Autofahrern sind betrunken.

P(I | H)

Bei 95 von 100 betrunkenen Autofahrern verfärbt sich das Teströhrchen.

P(I | ¬H)

Bei 495 von 9'900 nüchternen Autofahrern verfärbt sich das Teströhrchen auch.


Normalisierte Häufigkeiten

P (H)

100 von 10’000 getesteten Autofahrern sind betrunken.

P(I | H)

Bei 9’500 von 10’000 betrunkenen Autofahrern verfärbt sich das Teströhrchen.

P(I | ¬H)

Bei 500 von 10’000 nüchternen Autofahrern verfärbt sich das Teströhrchen auch.


Relative Häufigkeiten

P(H)

1 % aller getesteten Autofahrer ist betrunken.

P(I | H)

Bei 95 % aller betrunkenen Autofahrer verfärbt sich das Teströhrchen.

P(I | ¬H)

Bei 5 % aller nüchternen Autofahrer verfärbt sich das Teströhrchen auch.


Wahrscheinlichkeiten

P(H)

Die Wahrscheinlichkeit, dass ein getesteter Autofahrer betrunken ist, beträgt 0,1.

P(I | H)

Die Wahrscheinlichkeit, dass sich das Teströhrchen bei einem betrunkenen Autofahrer verfärbt, beträgt 0,95.

P(I | ¬H)

Die Wahrscheinlichkeit, dass sich das Teströhrchen bei einem nüchternen Autofahrer auch verfärbt, beträgt 0,05.

Tabelle 10: Verschiedene Darstellungsformen der Information im „Alkotest“ Prob­lem (S. )

  1. Gigerenzer stellt fest, dass sich die heuristics and biases Literatur fast ausschliesslich auf die Algorithmen der Informationsverarbeitung konzentriert und dabei die Darstellung der Information und deren Einfluss auf die Informationsverarbeitung vernachlässigt hat.126 Information braucht Repräsentation. Wenn unser Gehirn für eine Art der Darstellung von Wahrscheinlichkeits-Informationen besser gerüstet ist, dann für die Darstellung der Infor­mation in der Form natürlicher Häufigkeiten. Prozente und Brüche waren erst nach der Entwicklung komplexer mathematischer Systeme verständlich. Natürliche Häufigkeiten aber konnten schon vor der Erfindung von Schrift und Mathematik beobachtet werden.127 Unsere prähistorischen Vorfahren konnten feststellen, dass sie bei der Jagd im nördlichen Wald fünf von den letzten zwanzig Malen erfolgreich waren; sie haben sich kaum ausge­rechnet, dass dies einer Wahrscheinlichkeit von 0,25 entspricht, zumal bei der Umrech­nung von natürlichen Häufigkeiten in Wahrscheinlichkeiten wichtige Informationen, bei­spielsweise über die Anzahl der Beobachtungen, auf der eine Wahrscheinlichkeit beruht, verloren gehen.128 Am besten sollte nach dieser Theorie unsere Wahrscheinlichkeitsverarbei­tung sein, wenn sie auf der durch eigene Beobachtung festge­stellten natürlichen Häufigkeit eines Ereignisses (natural sampling) beruht.129

  2. Gigerenzer und Cosmides/Tooby berichten übereinstimmend, dass die beobachteten Ab­weichungen vom Bayes-Theorem weitgehend verschwinden, wenn man die klassischen Fragen aus der heuristics and biases Literatur umformuliert und natürliche Häufigkeiten statt Wahrscheinlichkeiten verwendet. So steigt die Anzahl der richtigen Antworten im „medizinischen Diagnose-Problem“130 (sehr ähnlich zum hinten dargestellten Alko-Test Problem) von 12 % bei der Darstellung der Information in Wahrscheinlichkeiten auf 46 %131, 56 %132 oder 73 %133 bei der Darstellung in natürlichen Häufigkeiten.

  3. Kahneman und Tversky weisen in ihrer Antwort auf die Kritik erstens darauf hin, dass sie nie behauptet hätten, die Repräsentativitätsheuristik trete unter allen Umständen auf. Natürlich gebe es Umstände, in denen Menschen eher den Regeln der Wahrscheinlich­keitstheorie folgen würden. Wenn Gigerenzer nun nachweise, dass Menschen nicht immer die von ihnen prognostizierten Fehler machten, habe er sie keineswegs widerlegt.134 Die Schlussfolgerungen von Gigerenzer seien zudem empirisch ungenügend belegt. Verschiedene Studien zeigten, dass die Vernachlässigung der Anfangswahrscheinlichkeit selbst dann nicht verschwände, wenn die Versuchspersonen die natürlichen Häufigkeiten aufgrund eigener Beobachtungen feststellten.135 Auch Gigerenzers eigene Resultate belegten keineswegs, dass die Vernachlässigung der Anfangswahrscheinlichkeit ver­schwände, sondern nur, dass sie sich bei der Darstellung der Information als Häufigkeiten verringere.

  4. Die Kontroverse zwischen Vertretern der heuristics and biases Schule und den Vertretern der „evolutionären“ Sicht – worunter ich hier alle verstehe, die sich Gigerenzers und Cosmides/Toobys Schlussfolgerungen anschliessen – tobt heftig, wie nicht anders zu erwarten ist, wenn zwei ausserordentlich erfolgsverwöhnte Akademiker von einem äusserst eloquenten und fundierten Kritiker angegriffen werden.136

  5. Als Aussenseiter ist es immer einigermassen schwierig, zu entscheiden, wer bei einem sol­chen intellektuellen Schlagabtausch die besseren Argumente hat. Einerseits haben Kahneman und Tversky sicher Recht, wenn sie darauf hinweisen, dass es nicht weiter erstaunlich ist, dass 92 % der Versuchspersonen die richtige Antwort geben, wenn man sie dazu zwingt, eine grafische Darstellung des Problems zu zeichnen.137 Wenn man den Leuten die richtige Lösung erklärt, verstehen sie sie in der Regel; deswegen kann man die intuitive, abweichende Antwort auch als Fehler bezeichnen. Auch gibt es Studien, die zeigen, dass base rate neglect auch bei nicht verbalen Problemen und natural sampling auftritt138 und Versuchspersonen nicht zwischen relevanten und irrelevanten base rates unterscheiden können,139 was dagegen spricht, dass Menschen evolutionär gewachsene Denkprozesse zur Verarbeitung natürlicher Häufigkeiten haben, die weitgehend fehlerfrei funktionieren.

  6. Andererseits sind die Belege dafür zahlreich, dass die Vernachlässigung der Basisrate bei Darstellung in natürlichen Häufigkeiten weitgehend verschwindet, und die theoretische Erklärung leuchtet ein. Der Ansatz von Gigerenzer und Cosmides/Tooby wird sofort plausibel, wenn man sich die Lösung eines konkretes Problem in Form eines Häufigkeits­baums und in Form des Bayes-Theorem vor Augen hält (dazu hinten, S. ff.). Eine faire Zusammenfassung des derzeitigen Diskussionsstandes besteht daher darin, zu sagen, dass die Anfangswahrscheinlichkeit bei der Darstellung der Information in natürlichen Häufig­keiten sehr viel weniger oft ignoriert wird als bei der Darstellung der Information in Wahr­scheinlichkeiten.140 Daraus ergeben sich konkrete Empfehlungen für die gerichtliche Pra­xis.

IV.Das Bayes-Theorem und richterliche Beweiswürdigung

A.US-amerikanische Lehre

  1. Das Für und Wider der Anwendung des Bayes-Theorems auf die richterliche Beweiswürdi­gung wird in den USA seit 30 Jahren intensiv diskutiert.141 Einige Aspekte dieser Debatte betreffen spezifisch amerikanische Probleme, wie die Frage, ob Geschwo­rene überhaupt fähig sind, einer Erläuterung des Bayes-Theorems zu folgen, oder ob sie dadurch nicht mehr verwirrt als aufgeklärt werden. Andere Befürchtungen sind, dass Ge­schworene die Bedeutung explizit statistischer Informationen übergewichten und andere, „weiche“ Faktoren ausser Acht lassen.142 Ein guter Teil der Kontroverse dreht sich um die Frage, ob eine Verurteilung ausschliesslich aufgrund eines statistischen Beweismittels zulässig sei, oder ob es individualisierender Beweismittel bedürfe. Unter dem Titel naked statistical evidence werden hypothetische Fälle wie das „gatecrasher paradox“ und die Gefangenen-Verschwörung erörtert. Bei der letzteren verabreden sich 24 Gefangene, einen Wärter zu ermorden. Nach dem Mord befinden sich im abgeschlossenen Gefängnishof 25 Gefangene, die als Täter in Frage kommen. Jeder einzelne von ihnen ist daher mit einer Wahrscheinlichkeit von 96 % der Täter; einer aber mit Sicherheit unschuldig. Genügt dies, um alle von ihnen zu verurteilen?143 Beim „gatecrasher paradox“ besuchen 1'000 nament­lich bekannte Personen ein Rodeo, zu dem erwiesenermassen nur 490 Eintrittsbillette verkauft wurden. Darf man, wenn keinerlei weitere Beweismittel vorliegen, alle 1'000 Personen zur Nachzahlung des Eintrittspreises verurteilen, weil die Wahrscheinlichkeit, dass jeder Einzelne die Veranstaltung ohne zu bezahlen besucht hat, 0,51 beträgt (und nach amerikanischen Zivilrecht „preponderance of the evidence“, was gemeinhin als eine Wahr­scheinlichkeit von mehr als 0,5 verstanden wird, für eine Gutheissung der Klage ge­nügt)?144

  2. Während also ein Teil dieser Debatte getrost ignoriert werden kann, sind andere Aspekte der amerikanischen Diskussion auch für Europa relevant. Zu Recht wird das Problem der a priori Wahrscheinlichkeiten thematisiert, auf das die subjektive Wahrscheinlichkeitstheorie bekanntlich keine Antwort hat, und die Komplexität der Berechnungen herausgestrichen, die notwendig sind, wenn man mit der wahrscheinlichkeitstheoretischen Beweiswürdigung ernst macht. Auf diese beiden Aspekte wird nachgehend eingegangen, nachdem kurz der Standpunkt der schweizerischen (soweit vorhanden) und deutschen Lehre zur Anwendung explizit Bayes’scher Induktion in Gerichtsverfahren beleuchtet wurde. Abschliessend wird darauf hingewiesen, dass die subjektive Wahrscheinlichkeitstheorie, unabhängig von ihrer Anwendung in der gerichtlichen Praxis, die Dogmatik des Beweisrechts bereichern kann – anerkanntermassen nicht gerade ein Gebiet, in dem in den letzten Jahren grosse Fort­schritte gemacht wurden.

B.Schweizer Lehre

  1. In der Schweiz haben sich ersichtlich nur Champod/Taroni – beides keine Juristen, sondern forensische Wissenschafter – zur Anwendung des Bayes-Theorem bei der richter­lichen Beweiswürdigung geäussert:145

Das Bayes-Theorem findet im Strafprozess eine ideale Anwendung. Es erlaubt, auf verlässliche Weise die Häufigkeiten und Wahrscheinlichkeiten zu berücksichtigen und die flagranten Fehler, die auf die Intuition zurückzuführen sind, zu vermeiden.

  1. Schweizer Juristen, die sich zur Beweiswürdigung äussern, begnügen sich damit, festzuhalten, dass die richterliche Beweiswürdigung frei sei, es keine schematischen Re­geln gebe und die Beweiswürdigung das Ergebnis einer Gesamtschau sei, wobei sich der Beweiswert eines Beweismittels aus den konkreten Umständen des Einzelfalls ergebe.146 Stets wird jedoch verlangt, dass die Beweiswürdigung rational und nachvollziehbar zu begründen sei.147

C.Deutsche Lehre

  1. Abgelehnt wird die Anwendung des Bayes-Theorems von Vertretern der skandinavischen Beweiswertmethode wie Per Olof Ekelöf. Für ihn hat die Anfangswahrscheinlichkeit „kein kognitives Verhältnis zu dem Beweisthema“, sie hat „auch keinen Beweiswert an sich und [kann] nicht in demselben Sinn angewandt werden wie nach dem Bayes-Theo­rem“.148

  2. Die meisten deutschsprachigen Autoren, die sich mit dem Thema auseinandergesetzt haben, befürworten die Anwendung des Bayes-Theorem, wenn auch meist nicht als starre Regel, gemäss der alle Beweise mathematisch zu gewichten und das Beweisergebnis gleichsam zu errechnen ist, sondern als Modell, um rational und intersubjektiv überprüfbar argumentieren zu können.149 Bender/Nack formulieren dies so: 150

Sinn und Zweck der Anwendung des Theorem von Bayes auf den Indizienbeweis ist nicht die Be­rechnung von Wahrscheinlichkeiten im Prozess; sondern seine Anwendung als Modell, um den Denk­prozess beim Indizienbeweis zu beschreiben, um rationaler argumentieren zu können.

  1. Für Gräns151 sind die

Formeln [...] als heuristische Hilfsmittel deutlich einer blossen Intuition vorzuziehen. [...] Zu behaup­ten, dass die Formeln irgendeine unberechtigte Kontrolle über die Beweiswürdigung nehmen würden, heisst zu behaupten, dass man nicht bereit ist, die Rationalität und die logische Haltbarkeit seiner Würdigung zu überprüfen.

  1. Nell weist darauf hin, dass selbst die Kritiker der „Mathematisierung“ insbesondere des Strafprozesses in den USA die Gültigkeit des Bayes-Theorems als eines theoretischen Modells für eine folgerichtige Bildung von Wahrscheinlichkeitsurteilen nicht in Frage stellen.152

  2. Am weitesten geht Bourmistrov-Jüttner, die die Zuordnung von Wahr­scheinlich­keits­werten zu intuitiven Urteilen fordert, weil sie zu einer vorsichtigeren Entscheidungs­praxis führe,153 die Präzisierung des intuitiven Urteils und eine bessere intersubjektive Nachvoll­ziehbarkeit der einzelnen Urteilsbildung erlaube sowie die rationale Lösung eines juristi­schen Falles ermögliche.154

D.Stellungnahme

  1. Mit der Mehrheit der deutschen und amerikanischen Lehre würde ich so weit wie Bourmistrov-Jüttner nicht gehen. Zu verlangen, dass Gerichte ihre Urteile gleichsam errechnen, ist nicht nur unrealistisch, es würde auch eine mathematische Scheingenauigkeit vortäuschen, die nicht existiert. Aber das Bayes-Theorem als Urteilsheuristik ist auf jeden Fall der ungestützten Intuition vorzuziehen, die, wie die oben dargestellte psychologische Forschung zeigt, oft in die Irre führt. Wenn man verlangt, dass die Beweiswürdigung „die Gesetze der Logik nicht verletzen [darf]“155 und der Richter zu „gewissenhafter Schlussfolge­rung aufgrund des Ergebnisses des Beweisverfahrens“156 verpflichtet ist, kann man sich der Folge kaum entziehen, dass das Bayes-Theorem der normative Standard ist, an dem die Kohärenz der Beweiswürdigung gemessen werden muss. Ausschliesslich das Bayes-Theorem erlaubt es, eine bestehende Überzeugung und neue Erkenntnisse wider­spruchsfrei zu integrieren.

E.Das Problem der a priori Wahrscheinlichkeiten

  1. Wenn das Bayes-Theorem die widerspruchsfreie Kombination von Anfangs­wahr­schein­lich­keit und Merkmalswahrscheinlichkeit erlaubt und wir daher, wenn wir beide kennen, auf sicherem Boden sind, richtet sich die Aufmerksamkeit naturgemäss darauf, wie man zu Anfangswahrscheinlichkeit und Merkmalswahr­scheinlichkeit gelangt. Das Bayes-Theorem gibt darauf bekanntlich keine Antwort. Nicht ganz zu Unrecht ist bemerkt worden, dass eine Theorie der Beweiswürdigung, die nur die Kombination be­kannter Wahrscheinlich­keiten erlaubt, aber keine Hinweise darauf gibt, wie man zu diesen Wahrscheinlichkeiten gelangt, unvollständig und für die Praxis wenig nützlich ist.

1.Die massgebliche Referenzklasse

  1. Cohen argumentiert, dass die Versuchspersonen in Kahneman/Tverskys Taxi-Problem die base rate von 85 % grünen Taxis zu Recht ignoriert haben: 157

Warum nur soll man annehmen, dass Versuchspersonen, die gebeten werden, die unbedingte Wahr­scheinlichkeit zu schätzen, dass das Taxi, das den Unfall verursacht hat, Blau gewesen ist, die stadt­weite Verteilung von grünen und blauen Taxis beachten, die bestenfalls dann relevant ist, wenn die zu entscheidende Frage ist, ob der Zeuge, der irgendwo ein Taxi gesehen hat, nicht notwendigerweise in einen Unfall verwickelt, ein blaues Taxi gesehen hat?

  1. Für Cohen ist die stadtweite Verteilung von grünen und blauen Taxis ein sehr schwaches Fundament, um die relevante Häufigkeit zu schätzen.158 Aber welches ist die „relevante Häufigkeit“? Gibt es nur eine relevante Häufigkeit? Sicher ist „grüne und blaue Taxis, die in Unfälle verwickelt waren“ eine relevantere Häufigkeit als die stadtweite Verteilung grüner und blauer Taxis, weil sie auf mehr Informationen beruht und insbesondere die Neigung der verschiedenfarbigen Taxis, in Unfälle verwickelt zu sein, berücksichtigt. Interessanterweise wird die Basisrate der Taxis, die in Unfälle verwickelt sind, bei der Lösung des Taxi-Problems von der Mehrheit der Versuchspersonen beachtet, nicht aber die stadtweite Verteilung der Taxis an sich.159 Es gibt selbstverständlich weitere Referenzklas­sen, die noch mehr relevante Informationen berücksichtigen, beispielsweise „Taxis, die nachts in Unfälle verwickelt waren“ oder „Taxis, die nachts in diesem Stadtteil in Unfälle verwickelt waren“, oder gar „Taxis, die nachts in dieser Strasse in Unfälle verwickelt waren“. Während diese Referenzklassen immer mehr Eigenschaften mit dem zu beurtei­lenden Ereignis teilen und insofern die Umstände des Einzelfalles besser berücksichtigen, werden sie auch immer kleiner, weshalb die Verlässlichkeit der Häufigkeitsschätzung abnimmt.160

  2. Die relevante Referenzklasse gibt es demnach nicht. Eine spezifischere Häufigkeit reduziert die Unsicherheit zweiten Grades (ob die relative Häufigkeit auch auf den Einzel­fall zutrifft), weil sie die Menge der Informationen reduziert, die die Schätzung beeinflus­sen kann.161 Andererseits erhöht sich die Gefahr, dass die beobachtete Häufigkeit nicht dem Grenzwert der relativen Häufigkeit entspricht, umso mehr, je kleiner die Stichprobe ist, in der die Häufigkeit beobachtet wird. Paul E. Meehl schlägt daher als Faustregel vor, als beste Referenzklasse immer die kleinste Klasse zu berücksichtigen, der das zu beurtei­lende Ereignis zugeordnet werden kann und deren Anzahl Mitglieder gross genug ist, um verlässliche Schätzungen der relativen Häufigkeit zu erlauben.162

  3. Was aber, wenn es keine Angaben darüber gibt, wie viele grüne im Verhältnis zu blauen Ta­xis in nächtliche Unfälle verwickelt waren? Darf man dann die bekannte, aber unspezifi­sche Referenzklasse „alle in der Stadt zugelassenen Taxis“ einfach ignorieren? Wenn das Ziel ist, ein möglichst genaues, d.h. dem tatsächlich Vorgefallenen entsprechendes, Urteil zu treffen, lautet die Antwort nein. Denn wenn man die stadtweite Verteilung nicht beach­tet, muss man – mangels anderer Indizien – davon ausgehen, dass grüne und blaue Taxis gleich häufig in Unfälle verwickelt sind und somit die Anfangswahrscheinlichkeit, dass es sich um ein grünes Taxi gehandelt hat, 0,5 beträgt. Die Häufigkeit von grünen und blauen Taxis in der ganzen Stadt ist aber ein Indiz dafür, dass dies nicht zutrifft. Wenn 85 % der Taxis in der Stadt blau sind, ist die beste Schätzung – ohne zusätzliche Informationen – dass auch 85 % der in nächtliche Unfälle verwickelten Taxis blau sind.163 Jede Abwei­chung von dieser Basisrate ist zu begründen – die Gesellschaft mit den blauen Taxis könnte beispielsweise mittels der Einsatzpläne ihrer Fahrer nachweisen, dass sie nachts kaum Taxis in Betrieb hat, etc.

  4. Darüber, ob eine Referenzklasse die richtige ist, d.h. ob deren Randbedingungen auch auf den zu beurteilenden Fall zutreffen, lässt sich trefflich streiten. Wenn man sich aber be­wusst ist, warum und worüber man streitet, kann man wenigstens die richtigen Fragen stellen und die konkreten Randbedingungen der Referenzklasse, die die Entscheidung begründen, werden transparent gemacht und können diskutiert werden.164

2.Geschätzte Anfangswahrscheinlichkeiten, oder „garbage in, garbage out“?

  1. Bei den obigen Ausführungen zur massgeblichen Referenzklasse wurde vorausgesetzt, dass man die relativen Häufigkeiten in den verschiedenen Referenzklassen kennt. In der Praxis wird man sich aber häufig mit der Situation konfrontiert sehen, dass man die relati­ven Häufigkeiten nicht kennt, weil keine Daten dazu erhoben wurden. Der Richter kann daher nicht vermeiden, die relativen Häufigkeiten zu schätzen, weil er – anders als der Wissenschafter – mangels Daten nicht einfach auf ein Urteil verzichten kann. Er ist ge­zwungen, auch dann zu urteilen, wenn die empirische Datenbasis ungenügend ist.

  2. Oft wird nun der Vorwurf erhoben, dass damit die ganze auf der Wahrscheinlichkeitstheo­rie beruhende Beweislehre wertlos ist, weil ihr Ausgangspunkt auf subjektiven, nicht empirisch erhärteten Schätzungen beruht. Bender/Nack bemerken dazu Folgendes:165

Wenn man die Forderung aufstellt, dass der Richter die drei Fragen der Fragen-Trias [es handelt sich um die vorne, S. , wiedergegebenen Fragen] stellen – und beantworten! – muss, wird einem oft entge­gengehalten, dass man über die Häufigkeitsverteilungen in der Regel keine Aussagen– und schon gar keine empirisch abgesicherten Aussagen – machen kann. Nur: Deswegen werden die richti­gen Fragen nicht falsch. Denn allein das wäre die Alternative: Wenn man nichts über Häufigkeiten weiss und sie noch nicht einmal abschätzen kann, dann kann man logischerweise auch nicht entschei­den, ob ein Indiz belastend ist oder nicht. Daran, dass man oft sehr wenig über die Häufigkeitsvertei­lungen weiss, kann auch die Beweislehre nichts ändern. Es führt aber kein Weg daran vorbei, dass der Richter sich wenigstens auf Plausibilitätsniveau Vorstellungen über Häufigkeitsverteilungen machen muss, wenn er die Beweiskraft eines Indizes abschätzen will.

  1. Musielak sieht das ganz ähnlich:166

Mögen Schätzungen der Wahrscheinlichkeit aufgrund von Erfahrungssätzen des täglichen Lebens noch so unzulänglich erscheinen, insbesondere wenn man sie mit den beim forensischen Beweis die Ausnahme bildenden wissenschaftlich fundierten Wahrscheinlichkeitsberechnungen mit mathemati­scher Genauigkeit vergleicht, sie sind einer völlig unkontrollierten Ermessens­entscheidung auf jeden Fall vorzuziehen.

  1. Empirische Studien belegen, dass die Zerlegung eines Beweisthemas in einzelne Beweisfakten und die Abschätzung des abstrakten Beweiswertes (Likelihood-Quotienten) von einzelnen Indizien die Qualität der Entscheide selbst dann erhöht, wenn die Likeli­hood-Quotienten ohne empirische Grundlage geschätzt werden.

  2. David A. Schum und Anne W. Martin baten ihre Versuchspersonen, die Zeugen­aussagen in zwölf erfundenen Straffällen auf ihren Beweiswert hin zu beurteilen. In der gesamtheitlichen Bedingung (zero task-decomposition, ZTD) wurden die Versuchs­perso­nen gebeten, nach der sorgfältigen Lektüre aller vorhandenen Zeugenaussagen den abs­trakten Beweiswert aller Zeugenaussagen in ihrer Gesamtheit zu beurteilen, d.h. an­zugeben, ob die Aussagen wahrscheinlicher sind, wenn der Angeklagte schuldig oder wenn er unschuldig ist. Eine Angabe von „Guilt-10“ bedeutet beispielsweise, dass die Zeugen­aussagen zehn Mal wahrscheinlicher sind, wenn der Angeklagte schuldig ist, als wenn er unschuldig ist.

  3. In der teilweise aufgeschlüsselten Bedingung (partial task-decomposition, PTD) wurden die Versuchspersonen gebeten, die gleichen Likelihood-Quotienten wie in der ZTD-Bedin­gung anzugeben, aber dieses Mal nicht für die Gesamtheit aller Aussagen, sondern für jede Zeugenaussage separat. Das Bayes-Theorem erlaubt es, diese Beurteilungen der abstrakten Beweiskraft einzelner Zeugenaussagen zu einem Likelihood-Quotienten der Beweiskraft der gesamten Aussagen zu kombinieren.167

  4. In der komplett aufgeschlüsselten Bedingung (complete task-decomposition, CTD) wurden die Versuchspersonen gebeten, nicht nur jede Zeugenaussage für sich, sondern einzelne Elemente jeder Zeugenaussage zu bewerten. Das gesamte Beweismaterial wurde also in einzelne Aussagen zerlegt, die dann je einzeln danach bewertet werden mussten, ob sie wahrscheinlicher sind, wenn der Angeklagte unschuldig ist oder wenn er schuldig ist. Beispielsweise wurden die Versuchspersonen gefragt, (i) wie wahrscheinlich eine Zeugen­aussage ist, wenn der Angeklagte am Tatort und schuldig ist; (ii) wie wahrscheinlich die Aussage ist, wenn er am Tatort und unschuldig ist; u. s. w. Auch diese Likelihood-Quo­tienten lassen sich wieder mittels des Bayes-Theorem zu einem einzigen Likelihood-Quo­tienten für das gesamte Beweisergebnis kombinieren – der Leser geht recht in der An­nahme, dass sowohl die Aufteilung der Zeugenaussagen in einzelne Elemente wie auch die Rekombination mittels Bayes-Theorem ausserordentlich komplex sind.168

  5. Schum/Martin haben die von ihnen erhobenen Daten auf verschiedene Art und Weise ana­lysiert. Stark vereinfacht lassen sich ihre Ergebnisse wie folgt zusammenfassen: je feiner die zu fällenden Urteile über den Sachverhalt in einzelne Elemente aufgeteilt wer­den, desto eher waren sich die Versuchspersonen über die Beurteilung der Fälle einig.169 D.h., je mehr den Versuchspersonen die Aufgabe der Aggregation und Integration der Daten abgenommen wurde und sie im Gegenzug dafür mehr Likelihood-Quotienten ein­zelner Aussageelemente abschätzen mussten, desto eher stimmte ihre (durch das Modell errechnete) Gesamtbeurteilung der Fälle überein. Wenn man davon ausgeht, dass grössere Übereinstimmung in der Beurteilung der Fälle ein Qualitätskriterium ist – d.h. wenn man annimmt, dass ein Fall eher „richtig“ entschieden wurde, wenn sich die meisten Urteiler über das Urteil einig sind – lässt dies den Schluss zu, dass Menschen weniger mit der Beurteilung einzelner Likelihood-Quotienten Mühe haben, sondern vielmehr mit der Integ­ration grosser Mengen von teilweise widersprüchlichen Informationen. Diese Integration kann ihnen das Bayes-Theorem abnehmen. Über Beurteilung der Likelihood-Quotienten, die vom Bayes-Theorem als gegeben vorausgesetzt werden, scheinen sich Menschen eher einig zu werden als über die korrekte Integration der einzelnen Beweismittel zu einem Gesamtbild.

  6. Schum/Martin können auch nachweisen, dass ihre Versuchspersonen bei einer Gesamtbeurteilung von teilweise widersprüchlichen Aussagen, Aussagen, die der ersten Aussage widersprachen, schlicht ignorieren oder gar als Bestätigung der ersten Aussage auffassen.170 Erst wenn die widersprüchliche Aussage in ihre einzelnen Elemente aufgeteilt und diese beurteilt werden, zeigt der abstrakte Beweiswert der zweiten, widersprüchlichen Aussage in die entgegengesetzte Richtung der ersten Aussage. Schum/Martin fanden also einen lokalen Primateffekt (primacy), d.h. das zuerst gehörte Argument beeinflusste die Interpretation späterer Argumente (mehr dazu hinten, S. ff.).

  7. Andererseits wurden redundante Informationen in der ZTD-Bedingung doppelt gewichtet, wodurch ihnen ein unzulässig hohes Gewicht beigemessen wird,171 was eine entsprechende Befürchtung von Lempert bestätigt.172

  8. Redundante Indizien sind solche, deren Informationsgehalt ganz oder teilweise in bereits be­rücksichtigten Indizien enthalten ist. 173 Den Einfluss untereinander unabhängiger Indi­zien auf die Wahrscheinlichkeit der Hypothese kann man einfach berechnen, indem man die anfänglichen Chancen der Hypothese mit dem Likelihood-Quotienten des Indizes multipliziert und das Ergebnis als anfängliche Chance für die Multiplikation mit dem Likelihood-Quotienten des nächsten Indizes verwendet.174 Man wendet das Bayes-Theo­rem einfach mehrmals an und verwendet jeweils das Resultat der vorangehenden Anwen­dung als Anfangswahrscheinlichkeit für die nächste Anwendung.

  9. Die Merkmalswahrscheinlichkeit zweier untereinander unabhängiger Indizien ergibt sich aus der Produktregel:

P (I1 und I2) = P (I1) ∙ P (I2) (18)


  1. Die Anwendung der Produktregel ist aber unzulässig, wenn die beiden Indizien untereinander abhängig sind, d.h. wenn die Wahrscheinlichkeit, dass das zweite Indiz vorliegt, sich ändert, wenn das erste Indiz feststeht. Bei abhängigen Indizien ist die Merk­malswahrscheinlichkeit

P (I1 und I2) = P (I1) ∙ P (I2 | I1). (19)


  1. Wenn P (I2 | I1) ≈ 1 verringert sich die Merkmalswahrscheinlichkeit bei Vorliegen des zwei­ten Indizes praktisch nicht mehr. Ein Beispiel von Bender/Nack veranschaulicht diese Überlegung:175 angenommen, es steht fest, dass der Täter grosse Hände (I1) und Füsse (I2) hatte. Der Verdächtige hat ebenfalls grosse Füsse, und man weiss, dass derart grosse Füsse nur bei 10 % oder weniger der Gesamtbevölkerung vorkommen. Das Indiz „grosse Füsse“ tritt daher bei der Annahme, dass der Verdächtige der Täter ist, zehn Mal häufiger auf als bei der Annahme seiner Unschuld. Der Verdächtige hat, wie der Täter, auch grosse Hände, und man weiss, dass nur 5 % der Bevölkerung derart grosse Hände haben. Wären die beiden Indizien unabhängig, könnte man 0,1 ∙ 0,05 = 0,005 (0,5 %) rechnen; mit anderen Worten ist die Wahrscheinlichkeit, dass die Indizienkombination bei Unschuld des Täters vorkommt, 200 Mal geringer als die Wahrscheinlichkeit, dass sie bei Schuld vorliegt.

  2. Die Anwendung der Produktregel ist aber in diesem Fall offensichtlich unzulässig, denn die Indizien „grosse Füsse“ und „grosse Hände“ sind nicht unabhängig; wer grosse Füsse hat, hat in der Regel auch grosse Hände, und umgekehrt. Wenn nun 90 % der Menschen, die grosse Füsse haben, auch grosse Hände haben, dann ist die Wahrscheinlichkeit (I2 | I1) = 0,9. Die Merkmalswahrscheinlichkeit von 0,1, die sich aus dem Indiz „grosse Füsse“ ergibt, verringert sich daher nur auf 0,1 ∙ 0,9 = 0,09 (von 10 % auf 9 %), wenn der Ver­dächtige auch grosse Hände hat.176

  3. Abhängige Indizien sollten daher zu „Indizienfamilien“ zusammengefasst werden, deren Merkmalswahrscheinlichkeit gesamthaft beurteilt wird.177

  4. Die Abhängigkeit zweier Indizien ist aber nicht immer so offensichtlich wie im obigen Bei­spiel mit den Händen und Füssen und wird bei der „Gesamtwürdigung“ der Beweise häufig übersehen, wie Ergebnisse von Schum/Martin belegen.178 Schnell passiert es, dass man Indizien, die die Anfangswahrscheinlichkeit begründet und zur Verhaftung des Ver­dächtigen geführt haben, bei der Beweiswürdigung nochmals berücksichtigt.179 Wenn die Polizei Falschgeld findet, dass sehr ähnlich ist wie dasjenige, das ein bekannter, vorbe­strafter Fälscher jeweils herstellte, hat sie guten Grund, dem Mann einen Besuch abzustat­ten, denn es besteht ein begründeter Anfangsverdacht. Angenommen es finden sich keine weiteren Indizien für eine Täterschaft des Verdächtigen, aber der Staatsanwalt erhebt trotzdem Anklage. Aufgrund der Vorstrafe des Verdächtigen und des Falschgelds, das seine „Handschrift“ trägt, darf das Gericht vielleicht von einer Anfangswahrscheinlichkeit von 0,1 ausgehen, dass der Verdächtige schuldig ist. Es darf dann aber einen Schuldspruch nicht damit begründen, dass die Wahrscheinlichkeit, dass die Ähnlichkeit der Noten vor­liegt, 100 Mal grösser ist, wenn der Angeklagte schuldig ist als wenn er unschuldig ist, woraus sich bei einer Anfangswahrscheinlichkeit von 0,1 eine Wahrscheinlichkeit der Schuld von 0,92 (92 %) ergibt, was möglicherweise für einen Schuldspruch genügen würde. Da die Ähnlichkeit der Noten bereits berücksichtigt wurde, um die Anfangswahr­scheinlichkeit zu begründen, ist es unzulässig, sie nochmals zu berücksichtigen. Bei der Gesamtwürdigung der Beweismittel geschehen aber genau solche Fehler offenbar häufig.

  5. Die Studien von Schum/Martin lassen daher den Schluss zu, dass die Qualität richterlicher Urteile auch dann verbessert werden kann, wenn die Likelihood-Quotienten für die einzelnen Beweiselemente ohne empirische Basis geschätzt werden, aber die Integ­ration der Information der Regel Bayes’ folgt.

F.Dogmatische Erkenntnisse

  1. Die wahrscheinlichkeitstheoretische Analyse der Beweiswürdigung hat auch unabhängig da­von, dass sie Fehler zu vermeiden hilft, Vorteile für die dogmatische Durchdringung des Beweisrechts. Welches Beweismass gefordert ist, was „Unschuldsvermutung“ eigentlich bedeutet und wann ein Beweismittel „erheblich“ im Sinne des Gesetzes (§ 133 ZPO-ZH u.a.) ist, lässt sich klarer analysieren, wenn man sich der Strukturen der Wahrscheinlich­keitstheorie bedient.

  2. Was bedeutet beispielsweise die in der schweizerischen Literatur herrschende Umschrei­bung des vollen Beweismasses, dass ein Sachverhalt „mit an Sicherheit grenzender Wahr­scheinlichkeit“180 erstellt sein muss, damit der Richter von seiner Richtigkeit überzeugt sein darf? Wird die erforderliche Gewissheit nicht numerisch in einer subjektiven Wahr­scheinlichkeit ausgedrückt, ist es möglich, dass zwei Personen zwar meinen, vom gleichen zu reden, aber eigentlich ein ganz anderes Verständnis vom verlangten Beweismass ha­ben.181 Dass diese Befürchtung nicht nur theoretischer Natur ist, zeigen zahlreiche amerikani­sche Studien, in denen Richter, Studenten und Normalbürger den Begriffen „preponderance of the evidence“ und „beyond reasonable doubt“ sehr unterschiedliche Bedeutungen zumassen (siehe , siehe Gräns, FN , 187 f. für weitere Studien auch aus Skandinavien).

Direkte Abfrage des numerischen Wahrscheinlichkeitswerts

Study

Subjects

Preponderance of evi­dence

Beyond reaso­nable doubt

Simon (1969)

Judges

.61

.89

Simon & Mahan (1971)

Citizens

.77

.79


Students

.76

.89

Davis (1976)

Students



Stringent criterion instruction


-

.87

Lax criterion instruction


-

.82

Undefined criterion instruction


-

.82

US v. Fatico (1978, Weinstein memorandum)

Judges

.51

.86

Kassin & Wrightsman (1979)

Students

-

.87

McCauliff (1982) (also "Clear and convinc­ing".75)

Judges

.55

.90

Hastie, Penrod, & Pennington (1983)

Citizens

-

.92

Cowan, Thompson, & Ellsworth (1984)

Citizens

-

.86

MacCoun (1984)

Students



Continuous scale


.68

.67

Interval (0, 1, ..., 10) scale


.68

.69

Odds ratio scale


.49

.51

Dane (1985)

Students

-

.66

Kerr, Bull, MacCoun, & Rathbum (1985)

Students

-

.79

Kagehiro (1986)

Students

.82

.91

Martin & Schum (1987) Odds ratio scale

Students


.91

MacCoun & Kerr (1988) (reported in Mac­Coun, 1987)

Students

-

.87


Citizens

-

.83


Students

.69

.81

Kagehiro (1990)

Students

-

.81-.91

Tabelle 11: mathematische Bedeutung unterschiedlicher Beweismasse182

  1. Noch interessanter sind Studien, in denen die entsprechenden Werte indirekt erhoben wur­den. Rita James Simon hat zwei unabhängige Gruppen von Studenten gebeten, nach der Anhörung der Plädoyers in einem Straffall ihr Urteil über die Schuld des Angeklagten abzugeben. Das verlangte Beweismass war „guilty beyond reasonable doubt“; die Ver­suchspersonen in der einen Gruppe wurden gebeten, anzugeben, ob der Angeklagte schul­dig im Sinne der Anklage sei oder nicht. Die Versuchspersonen der anderen Gruppe wur­den gebeten, die Wahrscheinlichkeit anzugeben, dass der Angeklagte sich so verhalten hat, wie die Anklage ihm vorwirft. Die Wahrscheinlichkeitswertungen wurden der Grösse nach geordnet und die dem Kriterium „guilty beyond reasonable doubt“ entsprechende Wahr­scheinlichkeit ermittelt, indem die Wahrscheinlichkeitswertungen um die Anzahl der Schuldsprüche in der anderen Gruppe heruntergezählt wurden. Der so erhaltene Wert lag bei 0,7, also erheblich tiefer als bei der direkten Abfrage.183 Die Resultate von Simon konnten von MacCoun (0,56), Dane (0,72) und zahlreichen weiteren (siehe ) repliziert werden.184

Indirekte Abfrage des numerischen Wahrscheinlichkeitswerts

Study

Subjects

Preponderance of evidence

Beyond reasonable doubt

Nagel, Lamm, & Neef (1981)

Students

-

.55

Nagel (1979)




No instruction

Students

-

.60

Beyond reasonable doubt instruction


-

.68

.90 probability instruction


-

.80

"10-to-l Blackstone error ratio" instruction


-

.90

MacCoun (1984)

Students

.52

.56

MacCoun (1994) ('Blackstone ratio")

Students

.48

.51

Thompson, Cowan, Ellsworth & Harrington (1984)

Citizens



Prodeath penalty citizens


-

.50

Antideath penalty citizens


-

.58

Dane (1985)

Students

-

.52

MacCoun & Kerr (reported in MacCoun, 1987)

Citizens

-

.55


Students

-

.52


Students

.52

.54

MacCoun & Tyler (reported in MacCoun, 1987)

Citizens

-

.54


Students

-

.51

Tabelle 12: Numerische Wahrscheinlichkeitswerte bei indirekter Abfrage (parallel counting)185

  1. Diese Ergebnisse lassen nur den Schluss zu, dass Formulierungen wie „mit an Sicherheit grenzender Wahrscheinlichkeit“ von verschiedenen Personen gänzlich unterschiedlich verstanden werden und schon deshalb kein geeignetes Kriterium zur Festlegung des Be­weismasses sind. Die Resultate der Studien mit indirekten Abfragemethoden bestätigen zudem den subjektiven Eindruck, dass es für eine Verurteilung häufig weniger braucht, als man gemeinhin annimmt – und insbesondere auch weniger, als die urteilenden Personen auf direkte Nachfrage hin zuzugeben bereit wären.186

  2. Was bedeutet es, dass jede Person, die einer Straftat angeklagt ist, bis zum gesetzlichen Be­weis ihrer Schuld als unschuldig gilt (Art. 6 Ziff. 2 EMRK)? Wird damit nur die Be­weislastverteilung geregelt?187 Oder wird damit auch etwas über die zulässige Anfangswahr­scheinlichkeit gesagt, die der Richter seiner Beweiswürdigung zu Grunde legen darf? Darf die Richterin mit anderen Worten von einer Anfangswahrscheinlichkeit der Schuld des Angeklagten von 0,9 ausgehen, wenn sie weiss – wie es empirisch zwei­fellos zutrifft – dass 90 % aller Anklagen in einem Schuldspruch enden?188 Sagt die Un­schuldsvermutung möglicherweise auch etwas über die Anfangswahrscheinlichkeit, die ein Gericht der Schuld des Angeklagten beimessen darf? Darf man den Kreis der möglichen Täter durch das Indiz des Anfangsverdachts eingrenzen, d.h. darf man davon ausgehen, dass der Angeklagte durch das Los aus dem Kreis aller Personen, auf die der Anfangsver­dacht zutreffen kann, bestimmt wurde?189 Oder muss das Gericht vor Beginn der Beweiswür­digung von einer Chance der Schuld von 1 zur Gesamtbevölkerung ausgehen, um den Angeklagten nicht für schuldiger als jeden anderen zu halten; m. a. W. muss das Gericht den Angeklagten so behandeln, als wäre er zufällig per Los zum Angeklagten bestimmt worden (wobei die gesamte Bevölkerung an der Verlosung teilgenommen hat)?190 Wenn ausschliesslich die Richtigkeit des Urteils das massgebliche Kriterium ist, weckt diese Betrachtungsweise allerdings Bedenken – es werden möglicherweise zu viele Angeklagte freigesprochen. Oder sind diese Überlegungen ohnehin verfehlt, weil man aus dem Sollen, das das Recht vorschreibt, kein Sein der tatsächlichen Anfangswahrschein­lichkeit ableiten darf?191

  3. Diese Fragen können hier nicht vertieft werden. Sie zeigen aber, welchen Erkenntnisge­winn die Anwendung der Wahrscheinlichkeitstheorie auf die Beweiswürdigung bieten kann; ganz abgesehen davon, dass sie die Urteilsqualität verbessern kann.

V.Eigene Studie zur Repräsentativitätsheuristik

A.Frage zur Repräsentativitätsheuristik

  1. Den Richtern der Zivil- und Strafgerichte der Kantone Aargau, St. Gallen und Zürich wurde folgender Sachverhalt zur Beurteilung vorgelegt (2003):

Nachdem auch ohne Anlass Alkoholtests durchgeführt werden dürfen, lässt die Kantonspolizei Zürich alle Autofahrer, die eine Kontrollstelle am Stadtrand von Zürich passieren, ins Teströhrchen blasen. Er­fahrungsgemäss ist einer von hundert getesteten Autofahrern betrunken.

Dieser Alcotest zeigt nicht ganz zuverlässig an, ob ein Autofahrer mehr als die zulässige Blutalkoholkon­zentration aufweist. Es kommt vor, dass ein alkoholisierter Autofahrer nicht erwischt wird, weil sich das Röhrchen (leider) nicht verfärbt. Bedauerlicherweise verfärbt sich das Röhrchen aber auch gelegentlich bei nüchternen Autofahrern.

  • Die Verfärbung tritt bei 95 % aller Blaufahrer (zu Recht) ein.

  • Die Verfärbung tritt aber auch (bedauerlicherweise) bei 5 % aller nüchternen Fahrer ein.

Angenommen, einer von den vielen kontrollierten Autofahrern bläst ins Röhrchen, und dieses verfärbt sich.

Wie hoch ist die Wahrscheinlichkeit, dass die Polizei einen Blaufahrer erwischt hat?

  1. Der Sachverhalt entspricht einem Beispiel von Bender/Nack,192 ergänzt um die Anfangswahrscheinlichkeit193 („Erfahrungsgemäss ist einer von hundert getesteten Autofah­rern betrunken“). Die Richter hatten vier Antwortmöglichkeiten (0-25 %, 26-50 %, 51-75 %, 76-100 %) und wurden gebeten, einen Prozentbereich zu wählen.

  2. Die bedingte Wahrscheinlichkeit, dass der Test verfärbt, wenn der Autofahrer betrunken ist, beträgt 0,95. Die Anfangswahrscheinlichkeit, dass der Autofahrer betrunken ist, beträgt 0,01. Die bedingte Wahrscheinlichkeit, dass der Test positiv anzeigt, wenn der Autofahrer nüchtern ist, beträgt 0,05. Die bedingte Wahrscheinlichkeit, dass der Autofahrer betrunken ist, wenn der Test verfärbt beträgt daher (0,95 ∙ 0,01) / ((0,95 ∙ 0,01) + (0,05 ∙ 0,99) = 0,16 oder 16 %.

  3. Die Hypothese ist, dass die Richter sehr viel häufiger die Antwort „76-100 %“ als die kor­rekte Antwort „0-25 %“ geben, da erstere die Antwort ist, die bei Verwechslung der be­dingten Wahrscheinlichkeiten P(Test pos. | betrunken) = 0,95 und P(betrunken | Test pos.) = 0,16 zu erwarten ist.

B.Resultate

  1. 173 der 181 Richter, die den Fragebogen zurückschickten, beantworteten die Frage nach der Belastungswahrscheinlichkeit. 8,8 % (16) beantworteten die Frage richtig, indem sie 0-25 % wählten, 10,5 % (19) kreuzten 26-50 % an, 7,7% (14) wählten 51-75 % und 68,5 % (124) entschieden sich 76-100 %. Viele Richter gaben daher die Antwort, die bei der Ver­wechslung der bedingten Wahrscheinlichkeiten zu erwarten ist.

  2. Die Richter schnitten damit besser ab als die Ärzte in der Studie von David M. Eddy, die zu 95 % den Fehler begingen, die bedingten Wahrscheinlichkeiten zu verwechseln.194 Verglichen mit den amerikanischen Richtern in der Studie von Guth­rie/Rachlinski/Wistrich schnitten die schweizerischen Richter etwas schlechter ab. 40 % der amerikanischen Richter beantworteten die Frage richtig, ebenfalls 40 % gaben eine Antwort, die auf die Verwechslung der bedingten Wahrscheinlichkeiten hindeutet.195 Drei der Richter, die die Frage richtig beantworteten, zeichneten einen Häufigkeitsbaum nach und bewiesen damit, dass sie das Problem erkannt und verstanden hatten.

C.Diskussion

  1. Die Resultate zeigen, dass eine grosse Mehrheit der befragten Richterinnen die (geringe) An­fangswahrscheinlichkeit nicht genügend gewichteten und – sei es als Folge davon oder aufgrund der semantischen Ähnlichkeit der inversen Wahrscheinlichkeiten – die bedingten Wahrscheinlichkeiten P(Test pos. | betrunken) und P(betrunken | Test pos.) verwechselten.

  2. Nicht völlig ausgeschlossen werden kann, dass einige der Richter unbewusst eine höhere An­fangswahrscheinlichkeit annahmen. Obwohl die Aufgabenstellung klar stellt, dass die Polizei die Alkoholproben ohne Anlass durchführte, haben die Richter ihrer Entscheidung möglicherweise das 2003 geltende Recht zugrunde gelegt, das Alkoholproben nur bei Anzeichen von Angetrunkenheit zuliess.196 „Anzeichen von Angetrunkenheit“ kann gera­dezu als Umschreibung für erhöhte Anfangs­wahrscheinlichkeit verstanden werden. Bereits bei einer Anfangswahrscheinlichkeit von 20 % erhöht sich die Belastungswahrscheinlich­keit bei positivem Atemalkoholtest auf über 76 %.197

  3. Das etwas bessere Abschneiden der amerikanischen Richter kann möglicherweise dadurch erklärt werden, dass an amerikanischen Rechtsfakultäten schon seit den späten siebziger, frühen achtziger Jahren die Anwendung des Bayes-Theorems in der Beweiswürdigung gelehrt wird. Die Generation der Richter, die befragt wurde, war sich daher der Bedeutung der Anfangswahrscheinlichkeit möglicherweise bewusster als der durchschnittliche schweizerische Richter, der im Rahmen seiner Ausbildung kaum mit dem Bayes-Theorem konfrontiert wird.

  4. An der Repräsentation der Basisrate in natürlichen Häufigkeiten oder Wahrscheinlichkei­ten – die bekanntlich einen Einfluss auf die korrekte Integration der Anfangswahrschein­lichkeit haben kann – kann es auf jeden Fall nicht gelegen haben. Es wurde darauf geach­tet, dass die Repräsentation der Information derjenigen bei Guthrie/Rachlinski/Wistrich entsprach, nämlich natürliche Häufigkeit bei der base rate („einer von hundert“) und Prozentzahlen bei den bedingten Wahrscheinlichkeiten P(Test pos. | betrunken) und P(betrunken | Test pos.).198

VI.Wie kann man Fehler des repräsentativen Denkens vermeiden?

A.Gutachter sollten nie die Belastungswahrscheinlichkeit angeben

  1. Gerichtsgutachter in der Schweiz, die sich zur Wahrscheinlichkeit äussern, dass eine bestimmte Spur – sei es eine Faser, Glas oder DNA-Spur – dem Angeschuldigten zugeord­net werden kann, äussern sich oft zur Belastungswahrscheinlichkeit („die Wahrscheinlich­keit der Vaterschaft nach Essen-Möller ist sehr viel grösser als 99,99 %. Die Bewertung nach Hummel daher: Vaterschaft praktisch erwiesen“).199

  2. Aussagen zur Belastungswahrscheinlichkeit setzen aber wie gesagt Annahmen über die An­fangswahrscheinlichkeit voraus. Der Gutachter kann diese Annahmen in der Regel nicht treffen, weil er nicht den gesamten Sachverhalt kennt.200 Gutachter rechnen daher häufig mit einer „neutralen“ Anfangswahrscheinlichkeit von 50 %;201 diese Anfangswahrscheinlich­keit setzt auch die Formel nach Essen-Möller voraus.202

  3. Die „neutrale“ Anfangswahrscheinlichkeit von 50 % wirkt sich aber häufig stark zu Lasten des Angeschuldigten aus. Bei einem Abstammungsgutachten mag sie, in Anbetracht der Ausschlussleistung moderner DNA-Gutachten (insbesondere, wenn die Proben, wie bei Vaterschaftsgutachten, gut sind), angemessen sein. Die Mutter des Kindes wird während der möglichen Empfängniszeit, die relativ klar eingegrenzt werden kann, nicht mit einer beliebigen Vielzahl von Männern geschlafen haben. Die Anfangswahrscheinlichkeit ist daher bereits relativ gross, wenn man weiss, dass der mögliche Vater einer der Männer ist, die zum Empfängniszeitpunkt Geschlechtsverkehr mit der Mutter hatten.

  4. Anders liegt der Fall aber bei Spuren, die am Tatort eines Verbrechens gesichert werden. Der Kreis der möglichen Täter ist dort erst einmal sehr gross, so dass man nicht einfach von einer Wahrscheinlichkeit von 50 %, dass der Verdächtige der Täter ist, ausgehen darf.203

  5. Der Gutachter sollte daher richtigerweise nur die Merkmalswahrscheinlichkeit angeben, d.h. die Häufigkeit, mit der ein bestimmtes Merkmal in der Gesamtbevölkerung vor­kommt.204

  6. Wenn der Gutachter in solchen Fällen die Belastungswahrscheinlichkeit – Bär spricht von „Identitätswahrscheinlichkeit“205 – angibt, wird der Richter auf den Holzweg geführt. Die ohnehin schon bestehende Gefahr, dass die Anfangswahrscheinlichkeit vernachlässigt wird, steigert sich praktisch zur Gewissheit, da der Richter kaum die Berechnungen des Gutachters nachprüfen und feststellen wird, dass diese von einer Anfangswahrscheinlich­keit von 50 % ausgegangen ist.

  7. Bär rechtfertigt die Annahme einer Anfangswahrscheinlichkeit von 50 % mit der folgenden Überlegung:206

Bei diesem Ansatz [Berechnung nach Essen-Möller] geht – stillschweigend – ein neutrales a-priori (0,5) mit ein, d.h. man geht von der fiktiven Annahme aus, dass in jedem zweiten (!) Fall tatsächlich Identität vorläge. In Wirklichkeit überwiegen aber die Fälle mit Identität diejenigen mit Nichtidentität. Mit Bestimmtheit gilt dies bei Berücksichtigung der extrem hohen Ausschlussleistung der DNA-Analyse, da die Nichtverursacher der Spur ja durch Ausschluss „abgereichert“ werden.

  1. Diese Argumentation ist nicht schlüssig, und Bär ist zwischenzeitlich auch von ihr abgerückt.207 Bär hält selber fest, dass der Gutachter die tatsächliche Anfangswahrschein­lichkeit nicht kennen kann.208 Der Gutachter kann daher auch nicht wissen, dass die Fälle mit Identität überwiegen, die Anfangswahrscheinlichkeit also über 0,5 liegt. Die Argu­mentation von Bär, dass sich die hohe Anfangswahrscheinlichkeit daraus ergebe, dass ein Grossteil der Bevölkerung durch die DNA-Analyse als Spurenverursacher ausgeschlossen werden kann („extrem hohe Ausschlussleistung der DNA-Analyse“), beruht auf einem Versehen. Das Argument von Bär berücksichtigt die Merkmalswahrscheinlichkeit zwei Mal; einerseits, um die Anfangswahrscheinlichkeit festzulegen, und dann nochmals, um den – durch die Berücksichtigung der Merkmalswahrscheinlichkeit bereits stark verklei­nerten Kreis der Verdächtigen – weiter einzugrenzen.

  2. Ein Beispiel mag veranschaulichen, was passiert. Angenommen, als Täter kommen alle Män­ner in der Schweiz zwischen 20 und 64 in Frage, also rund 2,3 Millionen Menschen.209 Am Tatort wird ein Haar gefunden, das nicht dem Opfer gehört. Eine DNA-Analyse des Haares ergibt einen „genetischen Fingerabdruck“, der nur bei 0,1 Promille der männlichen Bevölkerung vorkommt. Die DNA eines zufällig aus der Gesamtheit der Männer in der Schweiz ausgewählten Mannes stimmt also mit einer Wahrscheinlichkeit von 0,0001 mit der am Tatort gefundenen DNA-Spur überein.

  3. Wie gross ist die Wahrscheinlichkeit, dass ein x-beliebiger Mann der Täter ist? Die Chance beträgt rund 1:2,3 Millionen. Wie gross ist die Chance, dass ein Mann der Täter ist, wenn sein genetischer Fingerabdruck mit dem am Tatort gefundenen übereinstimmt? Nach dem Bayes-Theorem in seiner Chancen-Form

P (Täter | DNA matches) P(Täter) P (DNA matches | Täter)

────────────── = ────── ∙ ─────────────── (20)

P(¬Täter | DNA matches ) P (¬Täter) P (DNA matches | ¬Täter)


numerisch (1/2'300'000) / (2'300’000/2'300'001) x 1/0,0001 ≈ 1: 230.

  1. Die Wahrscheinlichkeit, dass ein zufällig ausgewählter Mann, dessen DNA mit der Tatortspur übereinstimmt, der Spurengeber ist, beträgt also rund 0,004.

  2. Mit anderen Worten hat sich die Chance von 1:2,3 Millionen verringert auf 1:230. Dies ist die – in der Tat beachtliche – „Ausschlussleistung“ des DNA-Fingerabdrucks: 99,99 % der männlichen Bevölkerung scheiden als Täter aus, weil ihre Allele keine identische DNA-Sequenz aufweisen. Bär will nun diesen durch die Ausschlussleistung „abgereicherten“ Pool als Anfangswahrscheinlichkeit festlegen und die Übereinstimmung des DNA-Finger­abdrucks erneut berücksichtigen, um den Pool weiter zu verringern. Im Beispiel käme man damit auf eine Chance von 10'000:230, dass es sich bei dem zufällig ausgewählten Mann, dessen DNA-Fingerabdruck mit demjenigen der Tatortspur übereinstimmt, um den Täter handelt (was einer Belastungswahrscheinlichkeit von rund 98% entspricht und möglicher­weise zur Verurteilung eines Mannes führt, der in Wirklichkeit nur mit einer Wahrschein­lichkeit von weniger als einem halben Prozent der Täter ist). Bär berücksichtigt das den Anfangsverdacht begründende Indiz zwei Mal, wovor Bender/Nack zu Recht warnen.210

  3. Bär hat in einem 1995 publizierten Aufsatz noch bedauert, dass sich die Angabe von Identi­tätswahrscheinlichkeiten international in der forensischen Spurenkunde noch nicht durchgesetzt hat.211 Inzwischen vertritt auch er die Meinung, dass die Angabe der Belas­tungswahrscheinlichkeit Gerichte leicht in die Irre führen kann.212

  4. Taroni, Mangin und Bär plädieren in einem 1999 in der Schweizerischen Zeitschrift für Strafrecht veröffentlichten „Brief an die Rechtsprechenden“ dafür, dass Sachverständige nicht ausschliesslich die Merkmalswahrscheinlichkeit angeben sollten. Die Merkmals­wahrscheinlichkeit beantworte im Prinzip die Frage des Gerichts nicht und stifte Verwir­rung; sie weisen insbesondere darauf hin, dass Ankläger und Verteidiger die Merkmals­wahrscheinlichkeit für irreführende Argumente verwenden können.213 Taroni et al. plädieren dafür, dass der Gutachter den Likelihood-Quotienten, die abstrakte Beweiskraft, der Spur (sei es nun eine Faser, DNA oder andere Spur) angibt.214

  5. Grundsätzlich kann ich mich diesem Vorschlag nur anschliessen; er ist definitiv eine Verbesserung gegenüber dem Status quo. Um den Zähler des Likelihood-Quotienten zu berechnen, d.h. die Wahrscheinlichkeit, dass die Spur übereinstimmt, wenn der Verdäch­tige der Täter ist (P (I | Schuldig)), muss der Sachverständige die Wahrscheinlich­keit ab­schätzen, mit welcher diese Spur vom Spurengeber am Tatort zurückgelassen worden ist, wenn er der Täter ist. Dazu muss der Sachverständige beispielsweise wissen, ob der Ver­dächtige Zugang zum Tatort hatte, ohne dass ihn dies belasten würde, wie heftig die Ag­gression war, die zur Spur führte oder wie viel Zeit verstrich zwischen der Tat und der Sicherung der Spur.215 Um den Nenner des Likelihood-Quotienten zu berechnen (P (I | Unschuldig)), muss der Gutachter neben der Häufigkeit des DNA-Profils in der Gruppe der möglichen Aggressoren auch die Häufigkeit des Auftretens von Spuren dieser Art am Tatort, aber ohne Bezug zur Tat, kennen.

  6. Nimmt man den Vorschlag der Angabe des Likelihood-Quotienten ernst, so übernimmt der Sachverständige daher einen Grossteil der Beweiswürdigung. Die Frage, ob Spuren der gefundenen Art am Tatort auch ohne Bezug zur Tat vorgefunden werden können, lässt sich beispielsweise nicht beantworten, ohne dass man die Aussagen des Verdächtigen kennt. Der Vorschlag von Taroni/Mangin/Bär bedingt daher, dass der Gutachter das gesamte oder annähernd das gesamte Untersuchungsergebnis kennt. Meines Erachtens ist es zwei­felhaft, ob es (i) effizient ist, wenn der Gutachter diesen Aufwand betreiben muss und (ii) sich mit der Aufgabenteilung zwischen Gericht und Sachverständigen vereinbaren lässt. Es besteht die Gefahr, dass damit die Beweiswürdigung delegiert wird, was aus prozessrecht­lichen Gründen bedenklich ist. Genauso wenig, wie sich ein Gutachter zu Rechtsfragen äussern soll (BGE 125 II 541, 549), sollte er dem Gericht die Aufgabe der Beweiswürdi­gung abnehmen. Der Gutachter muss der Richterin das Beweismittel, d.h. die Merkmals­wahrscheinlichkeit, liefern. Die Würdigung dieses Beweismittels ist die ureigene Aufgabe der Richterin.216

  7. Gibt der Sachverständige gemäss dem Vorschlag von Taroni/Mangin/Bär einen Likelihood-Quotienten an, so muss er auf jeden Fall begründen, wie er zu den Wahr­scheinlichkeiten in Nenner und Zähler gelangt ist. Diese Begründung wird in komplexen Fällen schnell einmal Ähnlichkeiten mit der Begründung der Schuld in einem gerichtlichen Urteil haben, was die Überlegung stützt, dass der Gutachter damit Aufgaben des Gerichts übernimmt.

B.Statistische Informationen sollten in natürlichen Häufigkeiten präsentiert wer­den

  1. Gutachter präsentieren die Merkmalswahrscheinlichkeit oft in der Form der bedingten Wahr­scheinlichkeit P(Übereinstimmung | Unschuldig); d.h. sie geben an, mit welcher Wahrscheinlichkeit eine Übereinstimmung vorliegt, wenn der Verdächtige unschuldig ist.217 Für das Gericht wichtiger aber ist die Wahrscheinlichkeit, dass der Angeklagte unschuldig ist, obwohl die Spur übereinstimmt, also P(Unschuldig | Übereinstimmung).

  2. Bei der Präsentation von statistischen Daten in der Form von bedingten Wahrscheinlichkei­ten besteht wie erwähnt die Gefahr, dass die beiden – semantisch ähnli­chen – bedingten Wahrscheinlichkeiten verwechselt werden (inverse fallacy).218 Diese Gefahr lässt sich reduzieren, wenn die statistischen Informationen nicht in der Form von Wahrscheinlichkeiten oder Prozentwerten präsentiert werden, sondern in der Form natürli­cher Häufigkeiten (z.B. „3 von 20 Taxis gehören der Gesellschaft B“ statt „15 % der Taxis gehören der Gesellschaft B“).219

  3. Die Lösung der „Alkotest-Frage“ in der Form, wie sie von Gigerenzer und Kollegen vorge­schlagen wird, zeigt, wie viel einfacher es wird, die richtigen Schlüsse aus den statis­tischen Angaben zu ziehen, wenn diese in der Form von natürlichen Häufigkeiten angege­ben werden.220 Bei der Angabe der natürlichen Häufigkeiten lassen sich einfach Häufigkeitsbäume gemäss der zeichnen, die den Zusammenhang zwischen Anfangswahrscheinlichkeiten, falsch positiven Resultaten und Belastungswahrscheinlich­keit unmittelbar klar machen.

  4. Von 10'000 kontrollierten Fahrern sind 100 (1 %) betrunken. Bei 95 davon ist der Alkoholtest positiv. Bei 5 %, oder 495, der 9'900 nüchternen Fahrer ist der Test aber eben­falls positiv. Der Anteil betrunkener Fahrer an der Gesamtzahl der positiv getesteten Fah­rer ergibt sich, wenn man die Anzahl richtig positiver Testresultate durch die Anzahl rich­tiger positiver und falsch positiver Testresultate teilt. Entscheidend sind also letztlich nur die Zahlen in den fett umrandeten Boxen. Die Gefahr von Trugschlüssen lässt es angezeigt erscheinen, insbesondere statistische Informationen in Häufigkeiten darzustellen.

Abbildung 10: Häufigkeitsbaum des Alkotest-Problems

  1. Lindsey et al. haben in einem Experiment mit 127 Jurastudierenden und 27 wissenschaftli­chen Angestellten der juristischen Fakultät der Freien Universität Berlin empirisch unter­sucht, wie sich die unterschiedliche Darstellung der statistischen Information in einem DNA-Gutachten auf die Beurteilung der Schuld des Angeklagten auswirkt.221 Jeder Teilneh­mer der Studie erhielt detaillierte Fallbeschreibungen zweier Mordfälle, die jeweils ein DNA-Gutachten umfassten. Die Juristen hatten eine Stunde Zeit, sich in die zwei Fälle einzulesen, und sollten danach verschiedene Fragen zu den DNA-Gutachten beantworten (z.B. „Mit welcher Wahrscheinlichkeit ist der Angeklagte der Verursacher der am Tatort sichergestellten DNA-Spur?“). Auf Grundlage der verfügbaren Beweismittel (im Wesent­lichen nur das DNA-Gutachten) sollten die Versuchspersonen anschliessend ihr Urteil über Schuld oder Unschuld des Angeklagten abgeben.222

  2. Wurden die Informationen in Wahrscheinlichkeiten dargestellt, konnten nur ca. 8 % der Ver­suchspersonen die gefragten Wahrscheinlichkeiten korrekt angeben, gegenüber 40 % richtigen Antworten bei der Darstellung in natürlichen Häufigkeiten.223 Die wissenschaftli­chen Mitarbeiter schnitten klar besser ab als die Studierenden; rund 70 % von ihnen gaben bei der Darstellung der Information in natürlichen Häufigkeiten die korrekte Antwort.224 Monetäre Anreize, d.h. ein Geldpreis für die richtige Antwort, hatten dabei keinen Einfluss auf die Anzahl der richtigen Antworten auf die Fragen nach der Wahrscheinlichkeit.225 Die natürlichen Häufigkeiten beeinflussten auch das Urteil über die Schuld: bei der Darstellung in Wahrscheinlichkeiten waren mehr als die Hälfte (55 %) der Versuchspersonen von der Schuld des Angeklagten überzeugt,226 bei der Darstellung in natürlichen Häufigkeiten bei ansonsten gleicher Sachlage nur 33 %.227

  3. Gutachter sollten ihre Angaben zur Merkmalswahrscheinlichkeit in DNA-, Faser- und ähnli­chen Gutachten daher in der Form von natürlichen Häufigkeiten machen; also bei­spielsweise „Es kommen grundsätzlich zehn Millionen Männer als Täter in Frage. Unge­fähr zehn von ihnen haben ein DNA-Profil, das mit der Tatortspur übereinstimmt. Wenn jemand dieses Profil aufweist, ist es praktisch sicher, dass die DNA-Analyse eine Überein­stimmung anzeigt. Unter den 9'999'990 Männern, deren DNA-Profil nicht mit der Tatort­spur übereinstimmt, wird die DNA-Analyse in 100 Fällen ebenfalls eine Übereinstimmung feststellen“.228 Durch diese Art der Präsentation statistischer Informationen lassen sich viele unnötige Fehler vermeiden.

VII.Beweiswürdigung und DNA-Analysen

A.Die Technik der DNA-Analyse

  1. Die Technik der DNA229-Analyse für forensische Zwecke ist, obwohl heute Routine, sehr komplex. Da für das im Folgenden entwickelte statistische Argument kein vertieftes Ver­ständnis des Ablaufs einer DNA-Analyse notwendig ist, wird die Technik hier nur kurz erläutert, ohne auf Details einzugehen. Vertiefte Darstellungen finden sich bei Marc Hother, Bär/Kratzer und Brodersen/Anslinger/Rolf.230

  2. Die Erbsubstanz DNA ist der chemische Stoff, der die menschliche Erbinformation enthält. Die DNA befindet sich als fadenförmiges Molekül im Kern jeder Zelle des menschlichen Körpers. Nur einige wenige Prozente des DNA-Moleküls enthalten die heute bekannten Erbfaktoren, die Gene. Die DNA verschiedener Menschen stimmt zu rund 99 % überein. Abweichungen gibt es nur an relativ wenigen, bekannten Stellen („Loci“).

  3. Die DNA-Analyse zu Identifizierungszwecken untersucht bestimmte solcher Loci. Jeder die­ser Abschnitte kann mehrere Kombinationen der Bauelemente der DANN aufweisen, so dass für einen bestimmten Abschnitt nur zehn Prozent der Menschen die gleiche Kombi­nation aufweisen. In allen Staaten, welche die DNA-Analyse zur Identifikation einsetzen, wird von denselben untersuchten Abschnitten ausgegangen. Die Wahrscheinlichkeit, dass sich zufällig zweimal das gleiche DNA-Profil vorfindet, ist umso kleiner ist, je grösser die Anzahl untersuchter Abschnitte ist, wenn man davon ausgeht, dass die Wahrscheinlichkeit der Übereinstimmung in einem bestimmten Abschnitt unabhängig von der Übereinstim­mung in einem anderen Abschnitt ist (und daher die Produktregel Anwendung findet). Bei einem DNA-Profil, welches aufgrund der Analyse von 11 DNA-Abschnitten erstellt wurde, ist die Wahrscheinlichkeit kleiner als eins zu 10 Milliarden, dass ein zufällig aus­gewähltes Individuum, das mit dem Probengeber der ersten Probe nicht verwandt ist, ein gleiches Profil aufweist.231

B.Der Beweiswert von DNA-Analysen und falsch positive Resultate

  1. Der Beweiswert einer DNA-Analyse lässt sich mittels des Bayes-Theorems analysieren. Das Gericht oder die Strafverfolgungsbehörde möchte wissen, welche der beiden folgen­den Hypothesen zutrifft:

U = die untersuchte Probe stammt vom Verdächtigen;

¬U = die untersuchte Probe stammt nicht vom Verdächtigen.

  1. Es sei B der Bericht des Gutachters, der eine Übereinstimmung des DNA-Profils des Verdächtigen und der Probe, die am Tatort erhoben wurde, feststellt. Immer dann, wenn eine Übereinstimmung tatsächlich vorliegt, stellt der Gutachter sie auch fest, es gilt also P(B | U) = 1. Der Gutachter wird aber auch dann eine Übereinstimmung feststellen, wenn die Probe nicht vom Verdächtigen stammt, aber der Verdächtige und der Spurenverursa­cher zufälligerweise genau den gleichen genetischen Fingerabdruck aufweisen. Diese Wahrscheinlichkeit einer zufälligen Übereinstimmung (random match probability, RMP) ist, wie oben gesehen, sehr gering. Es ist also P (B | ¬U) = RMP. Der Gutachter wird schliesslich auch dann von einer Übereinstimmung berichten, wenn er irrtümlicherweise eine Übereinstimmung feststellt, obwohl diese gar nicht vorliegt. Dieser Fehler wird „falsch positiv“ genannt, d.h. der Gutachter bejaht eine Hypothese, obwohl die Daten sie nicht belegen (false positive probability, FPP). Der Gutachter begeht dann keinen Fehler, wenn er eine Übereinstimmung feststellt, obwohl Verdächtiger und Spurengeber nicht identisch sind, wenn die zu vergleichenden DNA-Profile zufällig übereinstimmen. Die Wahrscheinlichkeit eines falsch positiven Befundes ist daher FPP ∙ (1 - RMP). Die Ge­samtwahrscheinlichkeit, dass der Gutachter eine Übereinstimmung feststellt, obwohl keine Übereinstimmung vorliegt, ist folglich P (B | ¬U) = RMP + (FPP ∙ (1 - RMP)).

  2. Die Wahrscheinlichkeit, dass das DNA-Profil vom Verdächtigen stammt, wenn der Gutachter von einer Übereinstimmung berichtet ist P(U| B). P(U| B) errechnet sich gemäss dem Bayes-Theorem in seiner extensiven Form für zwei sich gegenseitig ausschliessende Hypothesen U und ¬U gemäss Gleichung 9, S.

P(U) ∙ P(B | U)

P (U | B) = ──────────────────── (21)

P(U) ∙ P(B | U) + P(¬U) ∙ P(B | ¬U)


  1. Ersetzt man in dieser Gleichung P (B | ¬U) durch RMP + (FPP ∙ (1-RMP)), so erhält man

P(U) ∙ P(B | U)

P (U | B) = ───────────────────────────── (22)

P(U) ∙ P(B| U) + P(¬U) ∙ (RMP + (FPP ∙ (1 - RMP)))


  1. Als Likelihood-Quotient lässt sich die abstrakte Beweiskraft eines DNA-Gutachtens wie folgt darstellen:232

P (B | U) 1

────── = ────────────── (23)

P (B | ¬U) RMP + (FPP ∙ (1 - RMP))


  1. In dieser Form der Darstellung sieht man besonders klar, dass der Likelihood-Quotient bei sehr kleiner RMP fast ausschliesslich von der FPP bestimmt wird; es gilt also bei sehr kleiner RMP approximativ: abstrakte Beweiskraft ≈ 1/FPP.

  2. Die Diskussion der Zuverlässigkeit von DNA-Fingerabdrücken als Beweismittel hat sich bis­her hauptsächlich darum gedreht, wie hoch die Wahrscheinlichkeit einer zufälligen Übereinstimmung vom DNA-Profil des Verdächtigen und dem Profil der Tatortspur ist. Es wurde befürchtet, dass diese sehr viel grösser ist, wenn Verdächtiger und Spurengeber der gleichen Ethnie angehören, weil die Verteilung der DNA-Polymorphismen möglicherweise nicht homogen ist.233 Auch wurde anfänglich bezweifelt, dass die Übereinstimmungen in verschiedenen Loci unabhängig sind und man die Produktregel anwenden darf, um die Wahrscheinlichkeit der gleichzeitigen Übereinstimmung mehrerer Abschnitte zu berech­nen.234 Diese Befürchtungen haben sich jedoch nicht bestätigt. Die Frage, welche Rolle die Wahrscheinlichkeit eines falsch positiven Befundes für den Beweiswert eines DNA-Gut­achtens spielt, wurde bisher kaum diskutiert.235 Dabei kann deren Einfluss sehr gross sein, wie nachfolgendes Beispiel zeigt.

  3. Angenommen, die Strafverfolgungsbehörde geht von einer Wahrscheinlichkeit von 10 % aus, dass die untersuchte Probe vom Verdächtigen stammt, die Wahrscheinlichkeit einer zufälligen Übereinstimmung (RMP) sei 1:1 Milliarde (die Wahrscheinlichkeit entspre­chend 10-9) und die Behörde hält es für ausgeschlossen, dass der Gutachter einen Fehler macht und eine Übereinstimmung meldet, obwohl keine vorliegt (FPP = 0). Dann gilt numerisch

1 ∙ 0,1

P (U | B) = ────────────────── = 0.999999991

1 ∙ 0,1 + 0,9 ∙ 10-9 + (0 ∙ (1-10-9)


  1. Die Chance, dass die untersuchte Probe vom Verdächtigen stammt, beträgt demnach 100'000'000:1, es ist mit anderen Worten praktisch sicher, dass der Verdächtige der Spu­rengeber ist (ob er der Täter ist, ist wieder eine andere Frage – möglicherweise ist seine DNA an den Tatort gelangt, ohne dass er der Täter ist).

  2. Was aber, wenn eine geringe Wahrscheinlichkeit von einem Tausendstel besteht, dass der Gutachter ein falsch positives Resultat meldet?

  3. Es gilt dann numerisch

1 ∙ 0,1

P (U | B) = ───────────────────── = 0.99

1 ∙ 0,1 + 0,9 ∙ 10-9 + (0,001 ∙ (1-10-9))

  1. Die Chance, dass der Verdächtige der Spurengeber ist, beträgt demnach nur noch 100 zu 1 und ist um Grössenordnungen kleiner als bei einer FPP von 0. Man darf daher die Gefahr, dass ein falsch positives Resultat gemeldet wird, bei der Beurteilung des Beweiswerts von DNA-Gutachten auf keinen Fall vernachlässigen. Die nachstehend abgebildete aus Thompson/Taroni/Aitken zeigt, wie sich die nachträgliche Chance (posterior odds) im Verhältnis zur anfänglichen Chance, Wahrscheinlichkeit zufälliger Übereinstimmung und nachträglicher Wahrscheinlichkeit ändert. Wie leicht ersichtlich, ist die hohe Aus­schlussleistung der DNA-Analyse („Chance einer zufälligen Übereinstimmung von eins zu zehn Milliarden“) irreführend, denn die Belastungswahrscheinlichkeit hängt weitgehend von der Wahrscheinlichkeit eines falsch positiven Fehlers ab.



Anfängliche Chance

(Prior Odds)

Wahrscheinlichkeit zufälliger Überein­stimmung (RMP)

Wahrscheinlichkeit eines falsch positiven Resultates (FPP)

Nachträgliche Wahr­scheinlichkeit (Posterior Odds)

2:1

10-9

0

2’000’000’000

2:1

10-9

0.0001

20’000

2:1

10-9

0.001

2’000

2:1

10-9

0.01

200

2:1

10-6

0

2’000’000

2:1

10-6

0.0001

19’802

2:1

10-6

0.001

1’998

2:1

10-6

0.01

200

2:1

10-3

0

2’000

2:1

10-3

0.0001

1’818

2:1

10-3

0.001

1’001

2:1

10-3

0.01

182

1:10

10-9

0

100’000’000

1:10

10-9

0.0001

1’000

1:10

10-9

0.001

100

1:10

10-9

0.01

10

1:10

10-6

0

100’000

1:10

10-6

0.0001

990

1:10

10-6

0.001

100

1:10

10-6

0.01

10

1:10

10-3

0

100

1:10

10-3

0.0001

91

1:10

10-3

0.001

50

1:10

10-3

0.01

9

1:100

10-9

0

10’000’000

1:100

10-9

0.0001

100

1:100

10-9

0.001

10

1:100

10-9

0.01

1

1:100

10-6

0

10’000

1:100

10-6

0.0001

99

1:100

10-6

0.001

10

1:100

10-6

0.01

1

1:100

10-3

0

10

1:100

10-3

0.0001

9

1:100

10-3

0.001

5

1:100

10-3

0.01

1

1:1’000

10-9

0

1’000’000

1:1’000

10-9

0.0001

10

1:1’000

10-9

0.001

1

1:1’000

10-9

0.01

0,1

1:1’000

10-6

0

1’000

1:1’000

10-6

0.0001

9,9

1:1’000

10-6

0.001

1

1:1’000

10-6

0.01

0,1

1:1’000

10-3

0

1

1:1’000

10-3

0.0001

0,91

1:1’000

10-3

0.001

0,50

1:1’000

10-3

0.01

0,09

Tabelle 13: Beweiswert eines DNA-Gutachtens in Abhängigkeit von Fehlerwahr­scheinlichkeit236

  1. Die geringe Anfangschance von 1:1'000 kann sich ergeben, wenn es keine belastenden Indi­zien ausser der Übereinstimmung der DNA-Proben gibt, wie dies beispielsweise der Fall sein kann, wenn der Treffer durch die Suche in einer Datenbank mit den DNA-Profi­len von tausenden von Personen gefunden wurde.237

  2. Thompson/Taroni/Aitken weisen darauf hin, dass die Vorstellung, die falsch positive Rate sei unerheblich, auf einem ähnlichen Denkfehler wie der Trugschluss des Anklägers beruht; sie sprechen von false positive fallacy.238 Man nimmt irrtümlicherweise an, dass, wenn die falsch positive Rate gering ist, die Wahrscheinlichkeit einer zu Unrecht gefunde­nen Übereinstimmung ebenfalls gering ist. Mit anderen Worten, wenn die Wahrscheinlich­keit, dass die Übereinstimmung zu Unrecht gefunden wurde, 1 % beträgt, dann „muss“ folglich die Wahrscheinlichkeit, dass die Übereinstimmung zu Recht gefunden wurde, 99 % betragen. Diese Überlegung ist, wie vorne bereits diskutiert, falsch, denn die Wahr­scheinlichkeit eines falsch positiven Resultats in einem Einzelfall kann nicht ohne Berück­sichtigung der Anfangswahrscheinlichkeit, dass die Proben übereinstimmen, berechnet werden.

  3. Auch hier mag ein Häufigkeitsbaum die Analyse veranschaulichen.

Abbildung 11: Häufigkeitsbaum bei DNA-Analyse

  1. Das Abbildung 11 dargestellte Beispiel geht davon aus, dass die Anfangswahrscheinlich­keit bei 1:1 Million liegt und die RMP ebenfalls 1:1 Million beträgt. Beim Spurengeber – es kann nur einen geben – wird das Gutachten eine Übereinstimmung finden. Bei den 999'999 Verdächtigen, die nicht Spurengeber sind, wird das Gutachten aber bei einer falsch positiven Rate von 1:10'000, wie im Beispiel angenommen, ebenfalls bei 99 Perso­nen fälschlicherweise eine Übereinstimmung feststellen, obwohl keine vorliegt. Die Wahr­scheinlichkeit, dass eine Person, deren DNA-Profil mit der Tatortspur übereinstimmt, tatsächlich der Täter ist, ist daher 1/(99 + 1) = 0,01.

  2. Die vorgehenden Überlegungen werfen natürlich die Frage auf, wie hoch denn die falsch po­sitiv Rate in Wirklichkeit ist. Dies ist eine empirisch nur unzulänglich erforschte Frage. Als forensische DNA-Analysen erstmals vor Gericht zugelassen wurden, gab es eine Reihe von Experten, die behaupteten, Fehler kämen bei der DNA-Analyse gar nie vor.239 Diese Behauptung wurde inzwischen in Theorie und Praxis widerlegt. Fehler können bei der Entnahme und der Handhabung von Proben vorkommen oder auf eine Fehlinterpretation oder Fehlübermittlung der Testresultate zurückzuführen sein. Besonders bei Proben, die am Tatort erhoben werden und Spuren verschiedener DNA enthalten, ist die Separation der einzelnen DNA-Stränge mitunter schwierig. Das Abschneiden eines Labors bei der Ana­lyse von reinen Proben, wie sie in Probeläufen und bei Abstammungsgutachten verwendet werden, sagt daher wenig darüber aus, wie hoch die Wahrscheinlichkeit eines falsch posi­tiven Befundes bei einer verunreinigten Spur ist. Dennoch wurden in proficiency tests, wie sie bei amerikanischen Labors regelmässig vorgenommen werden, wiederholt falsch posi­tive Resultate gemeldet.240 In mindestens einem Fall hat ein Laborfehler zur Verurteilung eines Unschuldigen geführt.241 Für die frühen 90-er Jahre des letzten Jahrhunderts wurden Fehlerraten von 0,0008 bis 0,04 geschätzt.242 Cellmark Ltd, der führende Anbieter von forensischen DNA-Tests in den USA, musste auf Druck der Verteidigung im O.J. Simpson Prozess zugeben, dass seine eigene Fehlerrate bei rund 1:200 lag.243

  3. Die beste Methode, um die falsch positiv Rate empirisch festzustellen, sind Blindtests durch unabhängige Stellen.244 In der Schweiz sieht die DNA-Profil-Verordnung (SR 363.1) vor, dass sich Labors, die forensische DNA-Gutachten erstellen, akkreditieren müssen (Art. 2 Abs. 1 DNA-Profil-Verordnung). Um akkreditiert zu werden, muss ein Labor Qualitätsanforderungen erfüllen, die vom Bund vorgegeben und in einer Vereinbarung festgehalten werden, sowie unter der Leitung einer qualifizierten Fachperson stehen (Art. 2 Abs. 2 lit. b und c DNA-Profil-Verordnung). Akkreditiert werden forensische DNA-Labors durch die Schweizerische Akkreditierungsstelle (SAS).245 Die Labors nehmen an Eignungs­prüfungen teil, bei denen eine unabhängige Stelle, z.B. die Schweizerische Ge­sellschaft für Rechtsmedizin, den Labors biologisches Material zur Analyse zustellt und das Resultat überprüft.

  4. Bevor ein DNA-Profil in die DNA-Datenbank des Bundes aufgenommen wird, muss es in zwei unabhängigen durchgeführten Analyseprozessen dasselbe Resultat zeitigen (Doppel­analyse); diese Anforderung ergibt sich aus den durch das EJPD im Rahmen von Art. 2 Abs. 2 lit. b DNA-Profil-Verordnungen festgelegten Leistungs- und Qualitätsanforderun­gen.246

  5. Blindtests sind in der Schweiz jedoch im Rahmen des Akkreditierungs- und Qualitätssiche­rungsverfahrens nicht vorgesehen; d.h. die akkreditierten Labors wissen immer, wann sie geprüft werden.247

  6. Die Proben, die analysiert werden, um das in die DNA-Profil-Datenbank aufzunehmende DNA-Profil zu bestimmen, sind von guter Qualität. Sie werden unter optimalen Bedingun­gen mit Wangenschleimhautabstrich vom Probengeber entnommen. Die Gefahr einer Fehlanalyse ist daher geringer als bei Tatortspuren, die oft mit fremd-DNA verunreinigt sind. Ein falsch positives Resultat kann nicht nur dadurch entstehen, dass das in der DNA-Profil-Datenbank aufgenommene Profil falsch bestimmt wurde, sondern auch dadurch dass das Profil der Tatortspur falsch bestimmt wird. Die Doppelanalyse aller DNA-Proben, deren Profile in die DNA-Profil-Datenbanken aufgenommen werden, löst daher nur das geringere Problem.

  7. Mit einer gewissen Regelmässigkeit durchgeführte Blindtests aller DNA-Labors sind zugege­benermassen aufwendig und teuer.248 Wiederholt wurde deshalb vorgeschlagen, dass die Gefahr von falsch positiven Treffern mit weniger Aufwand durch Doppelanalysen vermieden werden könne.249 Dies scheint auch die Auffassung des Bundesamtes für Polizei zu sein.

  8. Doppelanalysen sind aber nicht immer durchführbar, weil die am Tatort erhobenen Proben unter Umständen beim ersten Test verbraucht wurden. Eine Doppelanalyse kann auch nicht jeden Fehler korrigieren – wenn eine Kontaminierung der Probe erfolgte, ehe sie geteilt wurde, nützt auch eine zweite Analyse derselben Probe nichts.250 Die Fehlerreduktion durch Doppelanalyse ist schliesslich nur dann optimal, wenn die Ergebnisse der beiden Analysen untereinander unabhängig sind. Dies muss aber durchaus nicht der Fall sein – wenn der Fehler beim ersten Mal darauf zurückzuführen ist, dass die Probe besonders schwierig zu analysieren oder das Profil besonders schwierig zu interpretieren war, dann wird der gleiche Fehler mit erhöhter Wahrscheinlichkeit auch bei der zweiten Analyse gemacht werden. Doppelanalysen können die Wahrscheinlichkeit eines falsch positiven Ergebnisses wohl reduzieren, aber niemand behauptet, dass sie es ausschliessen können.251

  9. Gerichte sollten sich bewusst sein, dass DNA-Proben zweifellos sehr beweiskräftige Indizien sind. Sie sollten aber ob der spektakulären Erfolge der forensischen DNA-Analyse – z.B. im Falle des Mordes des deutschen Modeschöpfers Rudolf Mooshammer im Januar 2005 – nicht vergessen, dass die DNA-Analyse nicht unfehlbar ist. Das Verständnis des Bayes-Theorems hilft aufzeigen, welche Faktoren den abstrakten Beweiswert eines DNA-Gutachtens bestimmen. Kein Richter sollte sich aus falscher Rücksicht auf die Unfehlbar­keit der DNA-Analyse dazu gedrängt fühlen, einen Angeklagten, gegen den als einziges Beweismittel ein DNA-Gutachten vorliegt, zu verurteilen. Vernünftige Zweifel an der Schuld des Angeklagten sind in solchen Fällen durchaus rational zu begründen.

1 Pierre-Simon Laplace, Philosophischer Versuch über die Wahrscheinlichkeit, Leipzig 1932, 176.

2 Franz Eisenführ/Martin Weber, Rationales Entscheiden, Heidelberg 1993, 169; Rolf Bender /Armin Nack, Tatsachenfeststellung vor Gericht, Bd. 1 Glaubwürdigkeits- und Beweislehre, 2. Aufl. München 1995, Rz. 379.

3 Amos Tversky/Daniel Kahneman, Causal schemas in judgments under uncertainty, in: Martin Fishbein (Hrsg.), Progress in social psychology, Hillsdale 1980, 49-72; Don Lyon/Paul Slovic, Dominance of Accuracy Information and Neglect of Base-Rates in Probability Estimates, Acta Psychologica 1976, 287-298; Maya Bar-Hillel, The Base-Rate Fallacy in Probability Judgments, Acta Psychologica 1979, 211-233, 220.

4 Für eine andere Lösung nach dem so genannten Signalentdeckungsmodell siehe Gerd Gigerenzer, Die Repräsentation von Information und ihre Auswirkung auf statistisches Denken, in: Hell/Fiedler/Gigerenzer (Hrsg.), FN , 99-127, 117 ff. Die Lösung nach dem Signalent­deckungs­modell setzt aber voraus, dass der Zeuge die Verteilung von grünen und blauen Taxis kennt, was kaum je der Fall sein dürfte.

5 Möglicherweise zu Unrecht, siehe Stephen M. Stigler, Who discovered Bayes’s Theorem?, The American Statistician 1983, 290-296.

6 Die Herleitung des Bayes-Theorem aus den Axiomen der Wahrscheinlichkeitstheorie ist in dargestellt.

7 Armin Nack, Beweiswürdigung beim Indizienbeweis, Kriminalistik 1995, 466-470, 468.

8 Hastie/Dawes, FN , 121.

9 Bender/Nack, FN , Rz. 401, dort auch Erweiterung auf mehrere Indizien; Gäelle Villejoubert/David R. Mandel, The Inverse Fallacy: An Account of Deviations from Bayes’s Theorem and the Additivity Principle, Memory & Cognition 2002, 171-178, 171.

10 Richard Jeffrey, Subjective Probability: The Real Thing, Cambridge 2004, 16.

11 Bender/Nack, FN , Rz. 405; Thomas D. Lyon/Jonathan J. Koehler, The Relevance Ratio: Evaluating the Probative Value of Expert Testimony in Child Sexual Abuse Cases, Cornell Law Review 1996, 43-78, 46.

12 (0,15 ∙ 0,8) / ((0,15 ∙ 0,8) + (0,85 ∙ 0,2)) = 0,41 (gerundet auf zwei Stellen hinter dem Komma). Wer nicht selber rechnen will, kann auf einen der zahlreichen im Internet zugänglichen „Bayes-Rechner“ zurückgreifen, siehe z.B. http://psych.fullerton.edu/mbirnbaum/bayes/BayesCalc.htm oder http:// members. aol.com/ johnp71/bayes.html (besucht am 14. März 2004).

13 Hastie/Dawes, FN , 127; Robyn M. Dawes, Representative Thinking in Clinical Judgment, Clinical Psychology Review 1986, 425-441, 430; Eisenführ/Weber, FN , 171 f.; Armin Nack, FN , 469; Villejoubert/Mandel, FN , 17.

14 Ward Edwards, Conservatism in human information processing, in B. Kleinmuntz (Hrsg.), Formal Representation of Human Judgement, New York 1968; gekürzter Nachdruck in: Kahneman/ Slovic/Tversky (Hrsg.), 359-369.

15 Lawrence D. Phillips/Ward Edwards, Conservatism in simple probability inference tasks, Journal of Experimental Psychology 1966, 346-357.

16 Peter Ayton/George Wright, Subjective Probability: What Should We Believe?, in: George Wright/Peter Ayton (Hrsg.), Subjective Probability, New York 1994, 163-183, 168 f.

17 Daniel Kahneman/Amos Tversky, On the Psychology of Prediction, Psychological Review 1973, 237-251; Nachdruck in: Kahneman/Slovic/Tversky (Hrsg.), 48-68.

18 Ayton/Wright, FN , 170. Was nicht heisst, dass das Phänomen nicht existiert. Dort, wo die neue Information sehr hohe Diagnostizität hat, scheinen Menschen ihre Anfangswahrscheinlichkeit zu wenig stark zu revidieren; so William C. Thompson/Edward L. Schumann, Interpretation of Statistical Evidence in Criminal Trials: The Prosecutor’s Fallacy and the Defense Attorney’s Fallacy, Law and Human Behavior 1987, 167-187, 175; David L. Faigman/A.J. Baglioni, Bayes’ Theorem in the Trial Process: Instructing Jurors on the Value of Statistical Evidence, Law and Human Behavior 1988, 1-17, 13.

19 Daniel Kahneman/Amos Tversky, Subjective probability: A Judgment of Representativeness, Cognitive Psychology 1972, 430-454, 431; Nachdruck in: Kahneman/Slovic/Tversky (Hrsg.), 32-47, 33. Später haben Kahneman und Tversky die Definition dessen, was „repräsentativ“ bedeutet, erheblich ausgeweitet, Amos Tversky/Daniel Kahneman, Judgments of and by Representativeness, in: Kahneman/Slovic/Tversky (Hrsg.), 84-100, 87; nicht ganz zu Unrecht wurde ihnen vorgeworfen, dass die Definition sehr vage und offen wird, Margrit Oswald, Urteile über den Repräsentativitätsheurismus, Archiv für Psychologie 1986, 113-125, 114 ff.

20 Eisenführ/Weber, FN , 171.

21 Beispiel aus Hastie/Dawes, FN , 117.

22 Kahneman/Tversky, FN , 54.

23 Die Kritik von Oswald, FN , 122, am „Tom W.“ Experiment (Kahneman/Tversky, FN , 238) ist zwar berechtigt, vermag aber nicht die Resultate des „Ingenieur/Anwalt“ Experiments zu erklären.

24 Nach dem Bayes-Theorem in seiner Chancen-Form: 3:7 ∙ 5 = 15:7 (P = 0,68).

25 7:3 x 5 = 35:3 (P=0,92).

26 Kahneman/Tversky, FN , 241.

27 Maya Bar-Hillel, Studies of Representativeness, in: Kahneman/Slovic/Tversky (Hrsg.), 69-83; Maya Bar-Hillel/Efrat Neter, How Alike Is It? Versus How Likely Is It?: A Disjunction Fallacy in Probability Judgements, Journal of Personality and Social Psychology 1986, 1119 -1131; Nachdruck in: Gilovich/Griffin/Kahneman (Hrsg.), 82-97.

28 Hastie/Dawes, FN , 121.

29 Hastie/Dawes, FN , 122.

30 Jonathan J. Koehler, The Base Rate Fallacy Reconsidered: Descriptive, Normative and Methodological Challenges, Behavioral and Brain Sciences 1996, 1-53, 9.

31 Villejoubert/Mandel, FN ,171 ff.

32 Villejoubert/Mandel, FN , 176.

33 Weitere Folgen sind beschrieben in Kahneman/Frederick, FN .

34 Justizvollzug des Kantons Zürich, Jahresheft 2004, 64 (erhältlich unter www.poeschwies.ch/ content/pdf/suche/index.php?id_pdf=395; besucht am 10. Januar 2005).

35 Tatsächlich sind die Unterschiede zwischen Ausländern und Schweizern gering, wenn man die unterschiedliche Alters- und Geschlechtsstruktur berücksichtigt. Betrachtet man ausschliesslich die Wohnbevölkerung (lässt also Asylanten und Touristen oder Durchreisende weg), so fehlen die Unterschiede sogar fast ganz; Bundesamt für Statistik, Pressemitteilung vom 10. Mai 1996.

36 “Software für Massaker”, Frankfurter Allgemeine Sonntagszeitung vom 28. April 2002.

37 Dieses und weitere Beispiele bei Hastie/Dawes, FN , 122.

38 Douglas A. Gentile/David A. Walsh, A Normative Study of Family Media Habits, Applied Developmental Psychology 2002, 157-178.

39 Craig A. Anderson/Brad J. Bushman, Effects of Violent Video Games on Aggressive Behavior, Aggressive Cognition, Aggressive Affect, Physiological Arousal and Prosocial Behavior: A Meta-Analytic Review of the Scientific Literature, Psychological Science 2001, 353-359.

40 BVerfGE 90, 145, 181 (in Deutschland rund 2,5%).

41 Egon Schneider, Logik für Juristen, 5. Aufl. München 1999, 259.

42 Zu den häufigsten Fehlern beim deduktiven Schliessen siehe Volker Gadenne, Deduktives Denken und Rationalität, in: Hell/Fiedler/Gigerenzer (Hrsg.), FN , 161-188, 163 ff.; weiteres Beispiel bei Franco Taroni/Patrice Mangin/Walter Bär, Die Interpretation des Beweiswertes von DNA-Untersuchungen in sachverständigen Gutachten, Schweizerische Zeitschrift für Strafrecht 1999, 439-445, 440.

43 Bender/Nack, FN , Rz. 439.

44 Teena Sorensen/Barbara Snow, How Children Tell: The Process of Disclosure in Child Sexual Abuse, Child Welfare 1991, 3-15, zitiert in Debra Poole/D. Stephen Lindsay, Assessing the accuracy of young children’s reports: Lessons from the Investigation of Child Sexual Abuse, Applied & Preventive Psychology 1998, 1-26, 9.

45 Poole/Lindsay, FN , 7.

46 Diese Wahrscheinlichkeit ist, bei unprofessionell geführten Interviews, nicht unbeträchtlich, siehe die bei Poole/Lindsay, FN , 4, erwähnten Studien.

47 Siehe die bei Lyon/Koehler, FN , Fn. 36 zitierten Studien.

48 Poole/Lindsay, FN , 9.

49 Zitiert in Poole/Lindsay, FN , 21; siehe auch Robyn Dawes, Probabilistic Thinking, in Neil J. Smelser/Paul B. Baltes (Hrsg.), International Encyclopedia of the Social and Behavioral Sciences, London 2001, 12082-12089, 12086.

50 Poole/Lindsay, FN , 9.

51 Nack, FN , 467.

52 Bender/Nack, FN , 1. Aufl. München 1981, Rz. 429.

53 Thompson/Schumann, FN , 173.

54 Thompson/Schumann, FN , 174.

55 David J. Balding/Peter Donnelly, The Prosecutor's Fallacy and DNA Evidence, Criminal Law Review 1994, 711-721; Thompson/Schumann, FN , 171; Ian Stewart, Der Trugschluss des Ermittlers, Spektrum der Wissenschaft Juli 1997, 8.

56 Thompson/Schumann, FN , 174.

57 Taroni/Mangin/Bär, FN , 440.

58 Walter Bär, Zum Beweiswert der DNA-Analyse, in: Andreas Donatsch/Niklaus Schmid (Hrsg.), Festschrift für Jörg Rehberg, Zürich 1996, 41-51, 46.

59 Franco Taroni/Colin Aitken, Probabilités et preuve par l’ADN dans les affaires civiles et criminelles: Questions de la cour et réponses fallacieuses des experts, Schweizerische Zeitschrift für Strafrecht 1998, 291-313, 299 f.

60 BGHSt 38, 320.

61 ZR 94 Nr. 7, 25 (1995).

62 Zur Rechtfertigung dieser Annahme des Gutachters siehe Bär, FN , 46.

63 Taroni/Aitken, FN , 299 f.; BGHSt 38, 320.

64 Bär, FN , 46; Nack, FN , 469.

65 ZR 94 (1995) Nr. 7, 25 f.

66 D.h. es wird eine Übereinstimmung der Proben gefunden, obwohl keine vorliegt.

67 William C. Thompson/Franco Taroni/Colin C.G. Aitken, How the Probability of a False Positive Affects the Value of DNA Evidence, Journal of Forensic Science 2003, 47-54, 49.

68 Siehe Thompson/Taroni/Aitken, FN , 49 ff. für eine Erklärung.

69 ZR 94 (1995) Nr. 7, 26.

70 Irving J. Good, When Batterer Turns Murderer, Nature 1995, 541.

71 Good geht offensichtlich davon aus, dass ein Mann, der seine Frau umbringt, im Schnitt zehn Jahre mit ihr verheiratet ist. Er berechnet jedoch auch noch eine Variante, in der der Mann im Schnitt 20 Jahre verheiratet ist, ehe er seine Frau umbringt. Die Wahrscheinlichkeit eines Mordes in einem bestimmten Jahr ist entsprechend geringer, aber das Endresultat immer noch sehr belastend für O.J.

72 Natürlich ist das Risiko, ermordet zu werden, nicht gleichmässig verteilt. Für junge Schwarze in bestimmten Stadtteilen von Los Angeles ist es erheblich höher als für weisse Frauen reicher Sport­stars. Die Annahme der gleichmässigen Verteilung ist aber hier angezeigt, weil keine spezifischeren Daten vorhanden sind und wirkt sich zugunsten des Verdächtigen aus.

73 Ähnlich wie Dershowitz, aber in einem anderen Fall, argumentieren Deborah Davis/William C. Follette, Rethinking the Probative Value of Evidence: Base Rates, Intuitive Profiling, and the „Post­diction“ of Behavior, Law and Human Behavior 2002, 133-158; sie werden durch Richard D. Friedmann/Roger C. Park, Sometimes What Everybody Thinks They Know is True, Law and Human Behavior 2003, 629-644, die ähnlich wie Good argumentieren, und David H. Kaye/Jona­than J. Koehler, The Misquantification of Probative Value, Law and Human Behavior 2003, 645-659, die darauf hinweisen, dass sich die abstrakte Beweiskraft eines Indizes im Likelihood-Quotienten spiegelt, überzeugend widerlegt.

74 Gerd Gigerenzer, Ecological Intelligence: An Adaptation for Frequencies, in: Denise D. Cummins/Colin Allen (Hrsg.), The Evolution of Mind, New York 1998, 9-29, 19.

75 Gerd Gigerenzer, FN ; ders., Why the Distinction between Single-event Probabilities and Frequencies is Important for Psychology (and Vice Versa), in: Wright/Ayton (Hrsg.), 129-161.

76 Koehler, FN , 1 ff.

77 Leda Cosmides/John Tooby, Are Humans Good Intuitive Statisticians After All? Rethinking Some Conclusions from the Literature on Judgment Under Uncertainty, Cognition 1996, 1-73.

78 Kahneman/Tversky, FN .

79 Daniel Kahneman, Autobiography, 2002 (nobelprize.org/economics/laureates/2002/kahneman-autobio.html; besucht am 12. Januar 2005).

80 Richard von Mises, Wahrscheinlichkeit, Statistik und Wahrheit, 4. Aufl., Wien/New York 1972, 263.

81 von Mises, FN , 12.

82 von Mises, FN , 10.

83 Dennis Lindley, Foundations, in: Ayton/Wright, FN , 3-15, 6.

84 Ernst Ludwig Nell, Wahrscheinlichkeitsurteile in juristischen Entscheidungen, Diss. Bayreuth 1982, Berlin 1983, 58.

85 Minna Gräns, Das Risiko materiell fehlerhafter Urteile, Diss. Uppsala 1995, München 2002, 157.

86 Christopher Hitchcock, Probability and Chance: Philosophical Aspects, in: Smelser/Baltes, FN , 12089-12095, 12091.

87 Jeffrey, FN , 5 ff.

88 Zweifelnd Bender/Nack, FN , Rz. 369.

89 Eleonora Bourmistrov-Jüttner, Subjektive Wahrscheinlichkeitstheorie und rationale Entscheidungstheorie in Anwendung auf die Rechtspraxis, Diss. München 1987, 48 f.

90 Frank P. Ramsey, Truth and Probability, London 1926, in: Richard B. Braithwaite (Hrsg.), The Foundations of Mathematics and other Logical Essays, New York 1931, 156-198 (elektronische Version erhältlich unter cepa.newschool.edu/het/texts/ramsey/ramsess.pdf (besucht am 12. Januar 2005).

91 Bruno de Finetti, Theory of Probability, a Critical Introductory Treatment, Chichester 1974.

92 Savage, FN .

93 Lindley, FN , 6.

94 Gigerenzer, FN , 145.

95 Cosmides/Toby, FN , 5.

96 Hitchcock, FN , 12095.

97 Bender/Nack, FN , Rz. 368.

98 Nell, FN , 59 f.

99 Bourmistrov-Jüttner, , 62 ff.

100 Gräns, FN , 159.

101 Hermann Weitnauer, Wahrscheinlichkeit und Tatsachenfeststellung, in Karlsruher Forum 1966, 6.

102 Rupert Schreiber, Theorie des Beweiswerts für Beweismittel im Zivilprozessrecht, Berlin etc. 1968.

103 Hans Joachim Musielak, Die Grundlagen der Beweislast im Zivilprozessrecht, Berlin/New York 1978, 112.

104 Bernhard U. Maassen, Beweismassprobleme im Schadenersatzprozess, Köln etc. 1975, 6.

105 Die Hinweise verdanke ich Gräns, FN , 158.

106 Reinhard Greger, Beweis und Wahrscheinlichkeit, Diss. Erlangen-Nürnberg, München 1978, 49, 55.

107 Christophe Champod/Franco Taroni, Probabilités au procès pénal – risques et solutions, Schweizerische Zeitschrift für Strafrecht 1994, 195-219, 215.

108 Gräns, FN , 159.

109 Nell, FN , 59; Peter Donnelly/Richard D. Friedman, DNA Database Searches and the Legal Consumption of Scientific Evidence, Michigan Law Review 1997, 931-984, 970: “Thus, the legal system embraces subjectivity, for it has no other choice”.

110 Max Guldener, Beweiswürdigung und Beweislast nach schweizerischem Zivilprozessrecht, Zürich 1955, 6 f.

111 Max Kummer, Grundriss des Zivilprozessrechts, 4. Aufl., Bern 1984, 135.

112 Oscar Vogel/Karl Spühler, Grundriss des Zivilprozessrechts, 7. Aufl., Bern 2001, 256.

113 Die schweizerischen Prozessgesetze verzichten in der Regel auf eine Umschreibung des Beweis­masses und begnügen sich damit, festzuhalten, dass der Richter die Beweise frei würdigt; Art. 40 BZPO, § 148 ZPO-ZH, Art. 219 ZPO-BE.

114 Bourmistrov-Jüttner, FN , 78, spricht von „erkenntnistheoretischem Esoterismus“.

115 So auch für das deutsche Recht Bender/Nack, FN , 368.

116 Gräns, FN , 175.

117 Bourmistrov-Jüttner, FN , 61.

118 Bourmistrov-Jüttner, FN , 78.

119 Max Guldener, Schweizerisches Zivilprozessrecht, 3. Aufl., Zürich 1979, 322; zustimmend Richard Frank/Hans Sträuli/Georg Messmer, Kommentar zur zürcherischen Zivilprozess­ordnung, 3. Aufl. Zürich 1997, § 148 N 8.

120 Guldener, FN , 322

121 Walter Habscheid, Schweizerisches Zivilprozess- und Gerichtsorganisationsrecht, 2. Aufl. Zürich 1990, 398.

122 Kummer, FN , 136.

123 Guldener, FN , 6.

124 Ähnlich Bender/Nack, FN , 369.

125 Weitnauer, FN , 20 und 46; Musielak, FN , 112.

126 Gigerenzer, FN , 141.

127 Gigerenzer, FN , 142.

128 Cosmides/Tooby, FN , 16. Cosmides/Tooby entwickeln das evolutionspsychologische Argument für die relativen Häufigkeiten detaillierter als Gigerenzer, siehe Cosmides/Tooby, FN , 14 ff.

129 Gigerenzer, FN , 149 ff.

130 David M. Eddy, Probabilistic Reasoning in Clinical Medicine: Problems and Opportunities, in: Kahneman/Slovic/Tversky (Hrsg.), 249-267; siehe auch W. Casscells/A. Schoenberger/T. Grayboys, Interpretation by Physicians of Clinical Laboratory Results, New England Journal of Medicine 1978, 999-1000.

131 Ulrich Hoffrage/Gerd Gigerenzer, Using Natural Frequencies to Improve Diagnostic Inferences, Academic Medicine 1998, 538-540.

132 Cosmides/Tooby, FN , 26.

133 Gigerenzer, FN , 149.

134 Kahneman/Tversky, FN , 586.

135 Kahneman/Tversky, FN , 584.

136 Siehe nur den Schlagabtausch zwischen Gerd Gigerenzer/Ulrich Hoffrage, How to Improve Bayesian Reasoning Without Instructions: Frequency Formats, Psychological Review 1995, 684-704 mit Charles Lewis/Gideon Keren, On the Difficulties Underlying Bayesian Reasoning: A Comment on Gigerenzer and Hoffrage, Psychological Review 1999, 411-416 und die Antwort von Gerd Gigerenzer/Ulrich Hoffrage, Overcoming Difficulties in Bayesian Reasoning: A Reply to Lewis and Keren (1999) and Mellers and McGraw (1999), Psychological Review 1999, 425-430.

137 So das Experiment 4.1 von Cosmides/Tooby, FN , 34.

138 Adam S. Goodie/Edmund Fantino, An Experientially Derived Base-Rate Error in Humans, Psychological Science 1995, 101-106.

139 Gernot D. Kleiter/Marianne Krebs, Do Subjects Understand Base Rates?, Organizational Behavior and Human Decision Processes 1997, 25-61.

140 So lässt sich Koehler, FN , 50, grob zusammenfassen. Siehe auch Robert Hamm, Underweighting of Base-Rate Information Reflects Important Difficulties People Have With Probabilistic Inference, Psycoloquy.94.5.03. base-rate.7.hamm (1994) (www.cogsci.ecs.soton.ac.uk/psycoloquy/raw/1994. volume.5/ psyc.94.5.03.base-rate. 7.hamm; besucht am 14. Januar 2005).

141 Befürwortend Irving J. Good, Probability and the Weighing of Evidence, London 1950; Michael Finkelstein/William Fairley, A Bayesian Approach to Identification Evidence, Harvard Law Review 1970, 489-517; Michael Finkelstein/William Fairley, A Comment on „Trial by Mathematics“, Harvard Law Review 1971, 1801-1809; Richard Lempert, Modeling Relevance, Michigan Law Review 1977, 1021-1057; David Kaye, The Laws of Probability and the Laws of the Land, University of Chicago Law Review 1979, 34-56; Saks/Kidd, FN ; ablehnend Lawrence Tribe, FN ; L. Jonathan Cohen, The Probable and the Provable, London 1977; Lea Brilmeyer/Lewis Kornhauser, Review: Quantitative Methods and Legal Decisions, University of Chicago Law Review 1978, 116-151; Charles Nesson, Reasonable Doubt and the Permissive Inference: The Value of Complexity, Harvard Law Review 1979, 1187-1215. Diese Aufzählung ist selbstverständlich nicht vollständig, was in Anbetracht der kaum zu überschauenden Menge an Publikationen auch nicht möglich wäre. Sie führt jedoch die meist zitierten „Klassiker“ der Debatte auf.

142 Tribe, FN , 1361. Empirische Studien bestätigen diese Befürchtung nicht, siehe Faigman/Baglioni, FN , 1.

143 Siehe Nesson, FN , 1192 f.

144 L. Jonathan Cohen, Subjective Probability and the Paradox of the Gatecrasher, Arizona State Law Journal 1981, 627-633. Eine vertiefte Analyse von Cohens Paradoxen findet sich bei Bourmistrov-Jüttner, FN , 172 ff.

145 Champod/Taroni, FN , 213.

146 So z.B. Alfred Bühler, Beweiswürdigung, in: Christoph Leuenberger, Der Beweis im Zivilprozess, Bern 2000, 71-92, 87. Michael Nonn beerdigt in seiner Dissertation aus dem Jahr 1996 in erster Linie die legale Beweistheorie, die von den meisten schon seit längerem für tot gehalten wird, Michael Nonn, Die Beweiswürdigung im Zivilprozess unter besonderer Berücksichtigung des Kantons Basel-Landschaft, Basel 1996.

147 Bühler, FN , 89; Guldener, FN , 322; Habscheid, FN , 398.

148 Gräns, FN , 149; Per Olof Ekelöf, Beweiswert, in: Wolfgang Grunsky/Rolf Stürmer/ Gerhard Walter/Manfred Wolf (Hrsg.), Festschrift für Fritz Baur, Tübingen 1981, 343-363, 358: „Statistisch gesehen liegt hier eine Ursprungswahrscheinlichkeit von 90 % vor, dass die Kuh dem A gehört. Meiner Ansicht nach ist dieses Verhältnis nur ein negatives Hilfsfaktum von marginaler Bedeutung. Zwar haben wir die Erfahrung, dass es in einer solchen Situation wahrscheinlicher ist, dass die Kuh dem A gehört. Die Verteilung der Kühe auf ihre Eigentümer ist aber mit der Kuh im Garten nicht kausal verbunden. Für sich allein betrachtet hat diese Verteilung daher so wenig Beweiswert, dass sie im Verhältnis zum geforderten Beweismass ohne Bedeutung ist“. Ekelöf scheint, wie die Versuchspersonen von Kahneman/Tversky, der base rate nur dann Bedeutung zuzumessen, wenn sie mit dem Ereignis kausal verknüpft ist, siehe Tversky/Kahneman, FN , 60.

149 So bereits Lempert, FN , 1025, auf die Kritik von Tribe reagierend.

150 Bender/Nack, FN , Rz. 400.

151 Gräns, FN , 160.

152 Nell, FN , 53.

153 Unter Hinweis auf empirische Studien von Rita James Simon/Linda Mahan, Quantifying Burdens of Proof: A View from the Bench, the Jury and the Classroom, Law and Society Review 1971, 319-330.

154 Bourmistrov-Jüttner, FN , 195.

155 Habscheid, FN , 398.

156 Guldener, FN , 322.

157 L. Jonathan Cohen, Are There Any A Priori Constraints on the Study of Rationality, Behavioral and Brain Sciences 1981, 359-380, 365: “[W]hy on earth should it be supposed that subjects, asked to estimate the unconditional probability that the cab involved in the accident was blue, ought to take into account a prior distribution of colours that would at best be relevant only if the issue at stake was just about the colour of a cab that was said to have been seen somewhere, not necessarily in an accident, and was taken to be blue?”

158 Cohen, FN , 365.

159 Amos Tversky/Daniel Kahneman, Evidential Impact of Base Rates, in: Kahneman/Slovic/Tversky (Hrsg.), 153-160, 157. Nach Tversky/Kahneman wird die Basisrate der Unfälle beachtet, weil sie eine kausale Beziehung zum Einzelfall suggeriert: die Fahrer der Taxis, die häufiger in Unfälle verwickelt sind, fahren gefährlicher.

160 Und natürlich ist es auch möglich, dass es zu den spezifischeren Referenzklassen keine statistischen Daten gibt, siehe dazu den nächsten Abschnitt.

161 Jonathan J. Koehler/Daniel N. Shaviro, Veridical Verdicts: Increasing Verdict Accuracy Through the Use of Overtly Probabilistic Evidence and Methods, Cornell Law Review 1990, 247-279, 260.

162 Meehl, FN , 22.

163 Koehler/Shaviro, FN , 261.

164 Bender/Nack, FN , Rz. 393.

165 Bender/Nack, FN , Rz. 392.

166 Hans-Joachim Musielak, Das Överviktsprincip: Zum Verhältnis von richterlicher Überzeugung und Wahrscheinlichkeit, in: Alexander Lüderitz/Jochen Schröder, Festschrift für Gerhard Kegel, Frankfurt 1977, 451-471, 461.

167 David A. Schum/Anne W. Martin, Formal and Empirical Research on Cascaded Inference, Law and Society Review 1982, 105-151; Nachdruck in: Reid Hastie (Hrsg.), Inside the Juror, Cambridge 1993, 136-174, 156. Die Seitenzahlen beziehen sich auf den Nachdruck.

168 Die bei Schum/Martin, FN , 169 ff. abgedruckten Formeln geben einen Eindruck von der Komplexität des Modells; ebenso die Tatsache, dass die 20 Versuchspersonen insgesamt 16'000 Likelihood-Quotienten zu Protokoll gaben, Schum/Martin, 153.

169 Schum/Martin, FN , 158 ff.

170 Schum/Martin, FN , 164.

171 Schum/Martin, FN , 165.

172 Lempert, FN , 1050.

173 Lempert, FN , 1042.

174 Bender/Nack, FN , Rz. 409.

175 Bender/Nack, FN , Rz. 410.

176 Weitere Beispiele bei Lempert, FN , 1043.

177 Lempert, FN , 1044; Bender/Nack, FN , Rz. 410.

178 Daher ist es fraglich, ob die schweizerische Lehre mit ihrer Betonung der „Gesamtwürdigung“ der Beweise (Bühler, FN , 87) viel dazu beiträgt, die Qualität der Beweiswürdigung zu verbessern.

179 Lempert, FN , 105; Bender/Nack, FN , Rz. 420.

180 Vogel/Spühler, FN , 256.

181 Gräns, FN , 164.

182 Aus Reid Hastie, Algebraic Models of Juror Decision Processes, in: Hastie, FN , 84-115, 102.

183 Rita James Simon, „Beyond reasonable doubt“ – An Experimental Attempt at Quantification, Journal of Applied Behavioral Science 1970, 203-209.

184 Nachweise bei Hastie, FN , 103.

185 Aus Hastie, FN , 105.

186 Siehe zum Thema auch die finisch-schwedische Studie von Minna Hatakka/Hannu Tapani Klami, Beweismass und Irrtumsrisiko, Helsinki 1990.

187 Niklaus Schmid, Strafprozessrecht, 2. Aufl., Zürich 1993, Rz. 278 ff.

188 Willem A. Wagenaar, The Subjective Probability of Guilt, in: Ayton/Wright, FN , 529-547, 531 (Wagenaar stellt die Frage, er bejaht sie nicht).

189 So Bender/Nack, FN , Rz. 420, die allerdings betonen, dass man dann das Indiz, das den Anfangsverdacht begründete und zur Eingrenzung des möglichen Täterkreises (und damit zur erhöhten Anfangswahrscheinlicheit) führte, bei der Beweiswürdigung nicht nochmals zählen darf.

190 So Richard Lempert, The New Evidence Scholarship: Analyzing the Process of Proof, Boston University Law Review 1986, 439-477, 464.

191 Lempert, FN , 463.

192 Bender/Nack, FN , Rz. 435.

193 Die tatsächliche Anfangswahrscheinlichkeit ist leider höher und liegt bei 3-5%, siehe Berner Zeitung vom 24. November 2003, S. 24b und Neue Luzerner Zeitung vom 18. November 2003, S. 7.

194 Zumindest legte ihre Antwort nahe, dass sie diesen Fehler begingen, Eddy, FN , 249 ff.; siehe auch Casscells/ Schoenberger/Grayboys, FN , 999.

195 Guthrie/Rachlinski/Wistrich, FN , 809.

196 Art. 55 Abs. 2 aSVG. Mit den am 1. Januar 2005 in Kraft getretenen Änderungen des Strassenverkehrsgesetzes wurde die anlassfreie Atemalkoholkontrolle eingeführt.

197 Nämlich auf 82,6%.

198 Guthrie/Rachlinski/Wistrich, FN , 808, verwendeten einen anderen Sachverhalt und andere Zahlen, aber die gleiche Repräsentation.

199 Taroni/Aitken, FN , 298; Mangin/Taroni/Bär, FN , 440.

200 Bär, FN , 46.

201 Bär, FN , 46; Taroni/Aitken, FN , 301, mit Nachweisen.

202 Taroni/Aitken, FN , 301.

203 Taroni/Aitken, FN , 300.

204 Taroni/Aitken, FN , 302 f.

205 Bär, FN , 45.

206 Bär, FN , 46. Das Ausrufzeichen entspricht dem Originaltext.

207 Mangin/Taroni/Bär, FN , 339 ff.

208 Bär, FN , 46.

209 Die Zahl stimmt ungefähr, siehe Bundesamt für Statistik, Statistisches Jahrbuch der Schweiz 2004, 34. Fragen kann man sich, ob man das Universum der möglichen Täter auf die ständige Wohn­bevölkerung der Schweiz eingegrenzen darf, denn grundsätzlich kommt auch eine sich auf der Durchreise befindliche Person als Täter in Frage.

210 Bender/Nack, FN , Rz. 420.

211 Bär, FN , 45.

212 Taroni/Mangin/Bär, FN , 440. Taroni/Aitken, FN , 299, haben die Angabe der Belastungswahrscheinlichkeit bereits 1998 als „arbitraire et trompeuse“ bezeichnet.

213 Taroni/Mangin/Bär, FN , 440 f.

214 Taroni/Mangin/Bär, FN , 440 f.

215 Taroni/Mangin/Bär, FN , 441 f.

216 Bender/Nack, FN , Rz. 424; Kaye/Koehler, FN , 648, mit zahlreichen Hinweisen.

217 Bender/Nack, FN , Rz. 421.

218 Thompson/Schumann, FN , 174.

219 Stefan Kraus/Ralph Hertwig, Muss DNA-Evidenz schwer verständlich sein?, Monatsschrift für Kriminologie und Strafrechtsreform 2000, 155-162, 158 f; Samuel Lindsey/Ralph Hertwig/Gerd Gigerenzer, Communicating Statistical DNA Evidence, Jurimetrics 2003, 147-163, 154.

220 Peter Sedlmeier/Gerd Gigerenzer, Teaching Bayesian Reasoning in Less Than Two Hours, Journal of Experimental Psychology: General 2001, 380-400; Hastie/Dawes, FN , 194. Für weitere grafischen Darstellungsweisen siehe Gigerenzer, FN , 108 und 113.

221 Lindsey/Hertwig/Gigerenzer, FN .

222 Lindsey/Hertwig/Gigerenzer, FN , 158. Die Studie wird auch besprochen in Krauss/Hertwig, FN , 160 f.

223 Krauss/Hertwig, FN , 160.

224 Lindsey/Hertwig/Gigerenzer, FN , 159.

225 Lindsey/Hertwig/Gigerenzer, FN , 159.

226 Obwohl 92 % von ihnen die statistischen Informationen nicht verstanden hatten!

227 Krauss/Hertwig, FN , 160.

228 Nach Lindsey/Hertwig/Gigerenzer, FN , 163. Das Beispiel geht von einer falsch-positiv Rate von 1:100'000 aus; d.h. in einem von hunderttausend Fällen, in denen keine Übereinstimmung von Tatort- und Angeschuldigtenprofil vorliegt, wird dennoch eine Übereinstimmung festgestellt. Zur Bedeutung falsch positiver Ergebnisse gleich nachstehend.

229 Desoxyribo-Nucleic-Acid, deutsch Desoxyribo-Nuklein-Säure, DNS. Die Abkürzung DNA hat sich auch im deutschsprachigen Raum durchgesetzt.

230 Marc Hother, Die DNA-Analyse – ihre Bedeutung für die Strafverfolgung und ihr Beweiswert im Strafverfahren, Diss. Giessen 1995; Walter Bär/Adelgunde Kratzer, Die Anwendung der Gentechnologie in der Rechtsmedizin, in: Forschung für Leben Nr. 50, Mai 1998; Kilian Brodersen/Katja Anslinger/Burkhard Rolf, DNA-Analyse und Strafverfahren, München 2003.

231 Botschaft zum Bundesgesetz über die Verwendung von DNA-Profilen im Strafverfahren und zur Identifizierung von unbekannten und vermissten Personen, 37 (www.admin.ch/ch/d/ff/2001/29.pdf, besucht am 17. Januar 2005).

232 Formaler Beweis bei Thompson/Taroni/Aitken, FN , 53 f.

233 David H. Kaye, DNA Evidence: Probability, Population Genetics, and the Courts, Harvard Journal of Law & Technology 1993, 101-172, 128 ff.

234 BGHSt 38, 320.

235 Siehe jedoch Jonathan J. Koehler/Audrey Chia/J. Sam Lindsey, The Random Match Probability (RMP) in DNA Evidence: Irrelevant and Prejudicial?, Jurimetrics 1995, 201-219; Jonathan J. Koehler, Why DNA Likelihood-Rations Should Account for Error (Even When A National Research Council Report Says They Should Not), Jurimetrics 1997, 425-437.

236 Aus Thompson/Taroni/Aitken, FN , 50.

237 Thompson/Taroni/Aitken, FN , 50.

238 Thompson/Taroni/Aitken, FN , 51.

239 Nachweise bei Thompson/Taroni/Aitken, FN 670, 47.

240 Nachweise bei Thompson/Taroni/Aitken, FN 670, 47.

241 Timothy Durham, Nachweise bei Thompson/Taroni/Aitken, FN 670, 48.

242 Koehler/Chia/Lindsey, FN 838, 206 ff.

243 Genau genommen bei 2:365 = 0,0055; Jonathan J. Koehler, One in Millions, Billions and Trillions: Lessons from People v. Collins (1968) for People v. Simpson (1995), Journal of Legal Education 1997, 214-223, 221.

244 Thompson/Taroni/Aitken, FN 670, 53.

245 Informationen zur SAS unter www.sas.ch/de/portraet/index.html (besucht am 4. Februar 2005). Die Tätigkeit der SAS wird durch die Verordnung über das schweizerische Akkreditierungssystem und die Bezeichnung von Prüf-, Konformitätsbewertungs-,Anmelde- und Zulassungsstellen (Akkreditierungs- und Bezeichnungsverordnung, AkkBV, SR 946.512) geregelt.

246 Schriftliche Auskunft von Christian Linsi, stv. Chef Rechtsdienst des Bundesamtes für Polizei, vom 28. Januar 2005.

247 Auskunft gemäss FN 849.

248 Joseph L. Peterson/R. E. Gaensslen, Developing Criteria for Model External DNA Proficiency Testing: Final Report National Institute of Justice, 2001, xi (erhältlich unter www.uic.edu/pharmacy/ depts/forensicsci/NIJ%20Blind%20DNA%20PT%20Final%20Report.pdf, besucht am 5. Februar 2005).

249 National Research Council, The Evaluation of Forensic DNA Evidence, Washington DC 1996, 87: “A wrongly accused person's best insurance against the possibility of being falsely incriminated is the opportunity to have the testing repeated”.

250 Thompson/Taroni/Aitken, FN 670, 48.

251 Thompson/Taroni/Aitken, FN 670, 48.