Intuition, Statistik und BeweiswürdigungAngenommen, am Tatort eines Verbrechens wurde ein Haar gefunden, das vom Haar des Abgeklagten nicht unterschieden werden kann, und der forensische Gutachter äussert sich wie folgt: Wenn der Angeklagte unschuldig wäre, betrüge die Wahrscheinlichkeit, dass die Haarproben nicht unterschieden werden können, nur 2%. Dürfen Sie davon ausgehen, dass der Angeklagte mit einer Wahrscheinlichkeit von 98% der Spurengeber ist? Die Antwort ist, einmal mehr, «es kommt darauf an». In diesem Fall kommt es darauf an, wie viele Verdächtige als Spurengeber in Frage kommen. Der Aufsatz erklärt in verständlicher Sprache, warum dies so ist und wie sich häufige Denkfehler bei der Beweiswürdigung vermeiden lassen.
B. Der Trugschluss des Anklägers C. Der Trugschluss des Verteidigers
2. Geschätzte Anfangswahrscheinlichkeiten, oder «garbage in, garbage out»? I. Ein Beispiel zum Einstieg ^[Rz 1] Das folgende Beispiel aus der psychologischen Literatur veranschaulicht die Probleme, die die meisten Menschen mit statistischem Denken haben. Das Problem ist in der sozialpsychologischen Literatur als «Taxi-Problem» bekannt, und es wurde in Dutzenden von Studien erforscht. Interessanterweise, für uns Juristen, handelt es sich um ein Problem der Beweiswürdigung – abstrahiert und vereinfacht, sicherlich, aber nicht grundsätzlich verschieden von Problemen der Beweiswürdigung, wie sie sich täglich vor Gerichten in der Schweiz stellen.
Das Gericht lässt den Zeugen auf seine Fähigkeit untersuchen, grüne und blaue Taxis unter nächtlichen Sichtbedingungen zu unterscheiden. Das Untersuchungsergebnis ist: In 80% der Fälle identifiziert der Zeuge die Farbe zutreffend, in 20% der Fälle irrt er sich. Wie hoch ist die Wahrscheinlichkeit, dass es sich beim fliehenden Taxi um ein Taxi der Gesellschaft A gehandelt hat? A. Die Lösung, einleuchtend erklärt ^[Rz 3] Die meisten Texte zum Taxi-Problem, und zur Statistik und Beweiswürdigung, bringen an dieser Stelle das sogenannte Bayes-Theorem,2 nach welchem sich die Lösung zum obigen Problem errechnen lässt. Und die meisten Juristen verlieren ganz plötzlich das Interesse am Thema. Tatsächlich ist es eine der Erkenntnisse der kognitiven Psychologen, dass Menschen ausserordentlich schlecht darin sind, das Bayes-Theorem in seiner abstrakten Darstellung zu begreifen, die gleiche Problematik aber, anders dargestellt, ohne grosse Mühe verstehen.3 Daher nun vorweg die einleuchtende Darstellung.[Rz 4] Wenn man sich vorstellt, dass es in der Stadt 1´000 Taxis gibt, dann gehören 150 (grüne) Taxis der Gesellschaft A, und 850 (blaue) Taxis der Gesellschaft B. Eines dieser 1´000 Taxis hat den Unfall verursacht. Der Zeuge sagt, er habe ein grünes Taxi gesehen, und wir wissen, dass er in 80% der Fälle richtig liegt. Das bedeutet aber auch, dass er in 20% der Fälle ein blaues Taxi als grün bezeichnet. Von den 850 blauen Taxis wird er also (irrtümlicherweise) 170 als grün bezeichnen. Von den 150 grünen Taxis wird er (richtigerweise) 120 als grün bezeichnen. Um die Wahrscheinlichkeit zu errechnen, dass er tatsächlich ein grünes Taxis gesehen hat, wenn er ein Taxi als grün identifiziert, muss man die korrekten Antworten «grün» durch alle Antworten «grün» teilen, also 120 : (170+120) = 0,41. Die Wahrscheinlichkeit, dass ein grünes Taxi den Unfall verursacht hat, wenn der Zeuge meint, ein grünes Taxi gesehen zu haben, beträgt daher weniger als 50%. Diese Wahrscheinlichkeit hängt ganz entscheidend von der Verteilung der grünen und blauen Taxis in der Stadt ab; gäbe es gleich viele grüne wie blaue Taxis in der Stadt, wäre die richtige Antwort in der Tat 80%. Wir neigen aber offenbar dazu, die anfängliche Verteilung (auch a-priori, Vortest-, Ursprungs- oder Anfangswahrscheinlichkeit) zu ignorieren. Psychologen sprechen in diesem Zusammenhang von «base rate neglect».4 ![]() Abbildung 1: Grafische Darstellung des «Taxi-Problems» II. Das Bayes-Theorem ^[Rz 5] Wenn hier nun doch kurz das Bayes-Theorem eingeführt wird, dann vor allem darum, weil es eine elegante Möglichkeit ist, die mit der Beweiswürdigung zusammenhängenden Probleme zu diskutieren. Alle hier abgehandelten Probleme lassen sich aber auch anhand des in Abbildung 1 dargestellten Baumes lösen, niemand braucht also die Formel auswendig zu lernen.[Rz 6] Wenn H eine Hypothese bezeichnet, I ein Indiz und P «Wahrscheinlichkeit» (von probability), wobei P einen Wert zwischen 0 und 1 annehmen kann, dann gilt5
[Rz 7] P (H | I) ist die bedingte Wahrscheinlichkeit, dass die Hypothese H bei Vorliegen des Indizes I zutrifft. Sie darf nicht verwechselt werden mit der der Wahrscheinlichkeit P(I | H), dass das Indiz I vorliegt, wenn die Hypothese H zutrifft. In der Terminologie von Armin Nack ist P(I | H) die Merkmalswahrscheinlichkeit, während P (H | I) die Belastungswahrscheinlichkeit ist.6 Die beiden werden oft verwechselt.7 [Rz 8] Für den Fall von zwei sich gegenseitig ausschliessenden Hypothesen, von denen eine zutreffen muss (Beispiel: «A ist der Vater von B», «A ist nicht der Vater von B») , lässt sich die bedingte Wahrscheinlichkeit, dass die Hypothese bei Vorliegen des Indizes I (Beispiel: «A und B haben die gleiche Blutgruppe, die nur bei zehn Prozent der Bevölkerung vorkommt»), wie folgt errechnen
[Rz 9] In dieser Form wird das Bayes-Theorem meist in der juristischen oder psychologischen Literatur dargestellt.8 Im Zusammenhang mit Diagnoseverfahren wird das Vorhandensein von Indiz I, obwohl die Hypothese H nicht zutrifft (also P(I | ¬H)), als «falsch positiv» bezeichnet, und die Rate der falsch positiven Befunde ist ein wichtiges Kriterium für die Beweiskraft des Tests (Beispiel: Der Gynäkologe ertastet Knötchen in der Brust einer Patientin, obwohl die Hypothese «Brustkrebs» nicht vorliegt). III. Denken in Repräsentativität ^[Rz 10] Dass das Bayes-Theorem nicht beschreibt, wie Menschen tatsächlich mit probabilistischen Informationen umgehen, ist in der Psychologie bereits seit mehr als 40 Jahren bekannt. Anfang der siebziger Jahre postulierten Daniel Kahneman und Amos Tversky, dass Menschen sich einer Repräsentativitätsheuristik (representative heuristic) bedienen, wenn sie die Wahrscheinlichkeit des Vorliegens einer Tatsache einschätzen.9 Vereinfacht gesagt, besagt sie, dass der Mensch auch dort assoziativ denkt, wo er komparativ denken sollte.10 Einige typische Fehler, die aus dem repräsentativen Denken resultieren, werden nachfolgend kurz dargestellt.A. Was typisch ist, ist beweiskräftig ^[Rz 11] Beweisanzeichen, die typisch sind für eine bestimmte Tat, müssen nicht notwendigerweise diagnostisch sein. Kinder, die über sexuelle Übergriffe berichten, zögern oft und widerrufen bereits gemachte Aussagen.11 Die Zurücknahme einer Anschuldigung ist daher nicht untypisch für ein missbrauchtes Kind und Teil von SUMMITs «Child Sexual Abuse Accomodation Syndrome».12[Rz 12] Nur, wie gross ist die Wahrscheinlichkeit, dass ein Kind, das nicht missbraucht wurde und beispielsweise durch suggestive Fragen dazu gebracht wurde, unrichtige Anschuldigungen zu erheben,13 diese Aussagen später widerruft? Der gesunde Menschenverstand sagt einem, dass die Rate der widerrufenen Anschuldigungen in diesem Fall höher sein muss. Der Widerruf einer Anschuldigung muss daher ein entlastendes Indiz sein. Wie entlastend, können nur empirische Untersuchungen zeigen, die eine Kontrollgruppe verwenden und den Vergleich der Wahrscheinlichkeit eines Widerrufs bei tatsächlichem Missbrauch und suggeriertem Missbrauch erlauben. [Rz 13] Auch andere Anzeichen, die oft als «typisch» für Kindsmissbrauch angesehen werden, taugen nicht als Indizien für Missbrauch. So ist eine Rötung der Genitalien bei missbrauchten Kindern zwar häufig, aber bei nicht missbrauchten ebenso.14 Auch psychosomatische Symptome wie Bettnässen, Kopfschmerzen oder Verstopfung treten bei missbrauchten Kindern nicht häufiger auf als bei nicht missbrauchten Kindern in vergleichbarer Situation.15 Von der Typizität der Symptome auf die Ursache zu schliessen, ohne die Häufigkeit der Symptome bei Nicht-Vorliegen der Ursache zu kennen, ist ein typischer Fehler assoziativen Denkens. [Rz 14] Als Indizien für oder gegen den Missbrauch taugen nur Symptome, deren Häufigkeit bei nicht missbrauchten Kindern in vergleichbaren Umständen man ebenfalls kennt. Dies wurde inzwischen erkannt, und entsprechende Forschungsanstrengungen werden unternommen.16 [Rz 15] Der Jurist kann daraus lernen, dass sich der Beweiswert eines Indizes immer erst aus Beantwortung der drei folgenden Fragen ergibt:
B. Der Trugschluss des Anklägers ^[Rz 17] Angenommen, Sie haben einen Fall zu beurteilen, bei dem ein Mann, der in etwa der Beschreibung des Täters entspricht, in der Nähe des Tatorts verhaftet wurde. Es gibt keine (weiteren) belastenden Indizien gegen ihn, ausser einem: am Tatort wurde ein Haar gefunden, das vom Haar des Verdächtigen nicht unterschieden werden kann, und der forensische Gutachter äussert sich wie folgt:
[Rz 19] Präsentiert der Sachverständige jedoch seine Erkenntnisse in der Form von Häufigkeiten
[Rz 21] Trugschlüsse des Anklägers sind kein Artefakt von gesuchten Experimenten. Taroni/Mangin/Bär weisen darauf hin, dass sich falsche Argumente wie das folgende häufig in Expertengutachten finden:25
[Rz 23] Um die Gefahr zu verringern, dass der Richter dem Trugschluss des Anklägers unterliegt, sollte sich ein Gutachter daher nur zur Merkmalswahrscheinlichkeit und nicht (auch) zur Belastungswahrscheinlichkeit äussern. Aussagen zur Belastungswahrscheinlichkeit setzen Annahmen über die Anfangswahrscheinlichkeit voraus. Der Gutachter kann diese Annahmen in der Regel nicht treffen, weil er nicht den gesamten Sachverhalt kennt.29 Gutachter versuchen diesem Problem zu entgehen, indem sie mit einer «neutralen» Anfangswahrscheinlichkeit von 50% rechnen.30 [Rz 24] Die «neutrale» Anfangswahrscheinlichkeit von 50% wirkt sich aber häufig stark zu Lasten des Angeschuldigten aus. Bei einem Abstammungsgutachten mag sie, in Anbetracht der Ausschlussleistung moderner DNA-Gutachten (insbesondere, wenn die Proben, wie bei Vaterschaftsgutachten, gut sind), angemessen sein. Die Mutter des Kindes wird während der möglichen Empfängniszeit, die relativ klar eingegrenzt werden kann, nicht mit einer beliebigen Vielzahl von Männern geschlafen haben. Die Anfangswahrscheinlichkeit ist daher bereits relativ gross, wenn man weiss, dass der mögliche Vater einer der Männer ist, die zum Empfängniszeitpunkt Geschlechtsverkehr mit der Mutter hatten. [Rz 25] Anders liegt der Fall aber bei Spuren, die am Tatort eines Verbrechens gesichert werden. Der Kreis der möglichen Täter ist dort erst einmal sehr gross, so dass man nicht einfach von einer Wahrscheinlichkeit von 50%, dass der Verdächtige der Täter ist, ausgehen darf.31 [Rz 26] Der Gutachter sollte daher richtigerweise nur die Merkmalswahrscheinlichkeit angeben, d.h. die Häufigkeit, mit der ein bestimmtes Merkmal in der Gesamtbevölkerung vorkommt.32 [Rz 27] Wenn der Gutachter in solchen Fällen die Belastungswahrscheinlichkeit – Bär spricht von «Identitätswahrscheinlichkeit»33 – angibt, wird der Richter auf den Holzweg geführt. Die ohnehin schon bestehende Gefahr, dass die Anfangswahrscheinlichkeit vernachlässigt wird, steigert sich praktisch zur Gewissheit, da kaum ein Richter die Berechnungen des Gutachters nachprüfen und feststellen wird, dass dieser von einer Anfangswahrscheinlichkeit von 50% ausgegangen ist. [Rz 28] Gutachter sollten ihre Angaben zur Merkmalswahrscheinlichkeit in DNA-, Faser- und ähnlichen Gutachten zudem in der Form von natürlichen Häufigkeiten machen; also beispielsweise «Es kommen grundsätzlich zehn Millionen Männer als Täter in Frage. Ungefähr zehn von ihnen haben ein DNA-Profil, das mit der Tatortspur übereinstimmt. Wenn jemand dieses Profil aufweist, ist es praktisch sicher, dass die DNA-Analyse eine Übereinstimmung anzeigt. Unter den 9'999'990 Männern, deren DNA-Profil nicht mit der Tatortspur übereinstimmt, wird die DNA-Analyse in 100 Fällen ebenfalls eine Übereinstimmung feststellen».34 Durch diese Art der Präsentation statistischer Informationen lassen sich viele unnötige Fehler vermeiden. C. Der Trugschluss des Verteidigers ^[Rz 29] Die Anklage im Prozess gegen O.J. Simpson, dem vorgeworfen wurde, seine Frau ermordet zu haben, brachte als belastendes Indiz vor, dass der Angeklagte seine Frau nachweislich geschlagen hatte. Alan M. Dershowitz, Harvard Professor und einer der Mitglieder von O.J. Simpsons «Dream Team» der Verteidigung, wandte dagegen ein, dass nur etwa ein Zehntel eines Prozentes aller Männer, die ihre Frau schlagen, diese auch umbringen.[Rz 30] Das Argument von Dershowitz ist auf den ersten Blick einleuchtend: Es ist sehr, sehr selten, dass ein Mann, der seine Frau schlägt, diese auch umbringt, daher ist das Indiz, dass O.J. Simpson seine Frau geschlagen hat, auch nicht (sehr) belastend. «Ermorden» ist mit anderen Worten untypisch für «schlagen». [Rz 31] Der Statistiker Irving J. Good wies in einem Leserbrief an die Zeitschrift Nature den Fehler in Dershowitzs Argumentation nach (und Gigerenzer zeigt, dass seine Überlegungen sehr viel leichter verständlich werden, wenn man sie in natürlichen Häufigkeiten darstellt).35 Wenn man sich 10'000 geschlagene Ehefrauen vorstellt, wird von diesen in einem bestimmten Jahr eine von ihrem Ehemann ermordet: «ein Zehntel eines Prozentes aller Männer, die ihre Frau schlagen», bringen sie auch um, also wird eine von 1´000 geschlagenen Ehefrauen von ihrem Mann ermordet.36 Geht man von einer durschnittlichen Dauer der Ehe von zehn Jahren aus, beträgt das Risiko, in einem bestimmten Jahr vom schlagenden Ehemann ermordet zu werden, eins zu zehntausend. Good stellt weiter fest, dass in den USA jährlich rund 25'000 Personen ermordet werden; bei einer Bevölkerung von rund 250 Millionen beträgt daher die Wahrscheinlichkeit für eine beliebige Person,37 und somit auch für die Frau eines schlagenden Mannes, in einem bestimmten Jahr ermordet zu werden, ebenfalls eins zu zehntausend. Von 10´000 geschlagenen Frauen werden in einem Jahr statistisch gesehen daher zwei ermordet, eine von ihrem schlagenden Ehemann, die andere von einem Dritten. Mit anderen Worten beträgt die Wahrscheinlichkeit, dass der schlagende Ehemann der Täter ist, noch bevor irgendwelche anderen Beweise erhoben werden, 50%. IV. Das Bayes-Theorem im gerichtlichen Alltag ^[Rz 32] In der amerikanischen und deutschen Literatur werden die Vor- und Nachteile der Beweiswürdigung nach Bayes intensiv diskutiert.38 Es würde den Rahmen dieses Aufsatzes sprengen, diese Debatte hier wiederzugeben. Die Mehrheit der deutschen und amerikanischen Lehre vertritt die (vernünftige) Mittelposition, dass Gerichte ihre Urteile nicht gleichsam errechnen müssen, d.h. den einzelnen Hypothesen explizite Wahrscheinlichkeitswerte zuordnen und diese nach dem Bayes-Theorem kombinieren, aber das Bayes-Theorem als qualitative Richtschnur verwenden sollten. Das Bayes-Theorem als Urteilsheuristik ist auf jeden Fall der ungestützten Intuition vorzuziehen, die, wie gezeigt, oft in die Irre führt. Wenn man wie die schweizerische Prozessrechtslehre verlangt, dass die Beweiswürdigung «die Gesetze der Logik nicht verletzen [darf]»39 und der Richter zu «gewissenhafter Schlussfolgerung aufgrund des Ergebnisses des Beweisverfahrens»40 verpflichtet ist, kann man sich der Folgerung kaum entziehen, dass das Bayes-Theorem der normative Standard ist, an dem die Kohärenz der Beweiswürdigung gemessen werden muss.[Rz 33] Macht man ernst mit der Anwendung des Bayes-Theorems in der gerichtlichen Praxis, ist man schnell mit verschiedenen Problemen konfrontiert. Eines ist die schiere Komplexität der Berechnungen, wenn mehrere, oft untereinander abhängige, Indizien kombiniert werden müssen;41 ein anderes, wie man zur Anfangswahrscheinlichkeit gelangt, die am Ausgangspunkt jeder Anwendung des Bayes-Theorems steht. Diese Fragen sind alles andere als trivial, aber sie sind kein Grund, das Bayes-Theorem in Bausch und Bogen zu verwerfen. Nachstehend wird versucht, Lösungen für die zwei genannten Probleme zu skizzieren. A. Das Problem der Anfangswahrscheinlichkeit ^[Rz 34] Das Bayes-Theorem erlaubt die widerspruchsfreie Kombination von Anfangs- und Merkmalswahrscheinlichkeit. Es gibt aber keine Antwort darauf, wie man zu diesen Wahrscheinlichkeiten gelangt. Eine Theorie der Beweiswürdigung, die nur die Kombination bekannter Wahrscheinlichkeiten erlaubt, aber keine Hinweise darauf gibt, wie man zu diesen Wahrscheinlichkeiten gelangt, ist unvollständig und für die Praxis wenig nützlich. 1. Die massgebliche Referenzklasse ^ [Rz
35] Die meisten Menschen ignorieren im anfangs geschilderten
Taxi-Problem die stadtweite Verteilung der Taxis – es gibt stadtweit
rund fünf Mal mehr blaue als grüne Taxis, also ist die
Wahrscheinlichkeit, dass ein blaues Taxi den Unfall verursacht hat, a priori höher. Die Frage ist aber berechtigt, warum die stadtweite Verteilung
der Taxis massgeblich sein soll: Der Unfall geschah nachts, wäre es
nicht wichtiger, zu wissen, welche Taxis nachts unterwegs waren? Und,
wenn wir schon dabei sind, welche Taxis nachts in dem Stadtteil, in dem
sich der Unfall ereignet hat, unterwegs waren? Oder wie gross der
Anteil der grünen Taxis an den Taxis ist, die einen Unfall verursacht
haben – vielleicht gibt es zwar viel mehr blaue Taxis, aber die grünen
Taxis sind häufiger in Unfälle verwickelt.42 2. Geschätzte Anfangswahrscheinlichkeiten, oder «garbage in, garbage out»? ^ [Rz
40] Bei den obigen Ausführungen zur massgeblichen Referenzklasse wurde
vorausgesetzt, dass man die relativen Häufigkeiten in den verschiedenen
Referenzklassen kennt. In der Praxis ist man aber häufig mit der
Situation konfrontiert, dass man die relativen Häufigkeiten nicht
kennt, weil keine Daten dazu erhoben wurden. Der Richter kann daher
nicht vermeiden, die relativen Häufigkeiten zu schätzen, weil er –
anders als der Wissenschafter – mangels Daten nicht einfach auf ein
Urteil verzichten kann. Er ist gezwungen, auch dann zu urteilen, wenn
die empirische Datenbasis ungenügend ist.
B. Integration mehrerer Indizien ^[Rz 43] Wenn mehrere Indizien voneinander unabhängig sind – die Wahrscheinlichkeit, dass das zweite Indiz auftritt, hängt nicht davon ab, ob das erste Indiz vorliegt – ist die Integration mehrerer Indizien einfach: Man nimmt die Anfangswahrscheinlichkeit, wendet das Bayes-Theorem mit der Merkmalswahrscheinlichkeit des ersten Indiz darauf an, und nimmt das Resultat als Ausgangspunkt für die nächste Anwendung des Bayes-Theorems mit der Merkmalswahrscheinlichkeit des zweiten Indizes. Wer nicht selber rechnen will, kann einen der zahlreichen Bayes-Rechner im Internet verwenden (z.B. http://statpages.org/bayes.html oder http://psych.fullerton.edu/mbirnbaum/bayes/BayesCalc.htm). Alternativ kann man die Wahrscheinlichkeit, dass beide Indizien gleichzeitig auftreten, auch mit der Produktregel errechnen und das Ergebnis als Ausgangspunkt für die Anwendung des Bayes-Theorems nehmen:Formel 3: P (I1 und I2) = P (I1) ∙ P (I2) [Rz 44] Beispielsweise wird beim Verdächtigen ein Kleidungsstück gefunden, dessen Fasern mit den am Tatort gefundenen Fasern übereinstimmen. Wäre der Verdächtige nicht am Tatort gewesen, betrüge die Wahrscheinlichkeit der Übereinstimmung 0,2 (20%). Die Haare des Verdächtigen stimmen ebenfalls mit einem Tatort gefundenen Haar überein; wäre der Verdächtige nicht am Tatort gewesen, betrüge die Wahrscheinlichkeit einer Übereinstimmung 0,05 (5%). Die Wahrscheinlichkeit, dass sowohl Faser- wie Haarprobe übereinstimmen, obwohl der Verdächtige nicht am Tatort war, beträgt 0,2 x 0,05 = 0,01, oder 1%, wenn die beiden Spuren voneinander unabhängig sind (was man hier wohl annehmen darf). Diese Merkmalswahrscheinlichkeit wendet man wiederum gemäss dem Bayes-Theorem auf die Anfangswahrscheinlichkeit an. [Rz 45] Die Anwendung der Produktregel ist aber unzulässig, wenn die Indizien voneinander abhängig sind. Beispielsweise ist der Verdächtige blond und blauäugig, was mit der Beschreibung des Täters übereinstimmt. Wenn ein Fünftel der Bevölkerung blonde Haare hat, und ein Fünftel der Bevölkerung blaue Augen, darf man dann davon ausgehen, dass die Wahrscheinlichkeit, dass der Verdächtige zufällig mit der Beschreibung des Täters übereinstimmt, 0,2 x 0,2 = 0,04, oder 4%, beträgt? Man darf nicht, denn die Wahrscheinlichkeiten für das Auftreten von blauen Augen und blonden Haaren sind offensichtlich voneinander abhängig – viel mehr Menschen mit blonden Haaren haben blaue Augen als Menschen mit schwarzen Haaren. Das Indiz «blaue Augen» ist (teilweise) redundant, wenn man das Indiz «blonde Haare» bereits berücksichtigt hat, d.h. sein Informationsgehalt ist ganz oder teilweise im bereits berücksichtigten Indiz enthalten. [Rz 46] Kennt man die Korrelation von blonden Haaren und blauen Augen, d.h. weiss man, wie viele blonde Menschen blaue Augen haben, kann man die Wahrscheinlichkeit des gleichzeitigen Vorliegens der beiden Indizien gemäss der folgenden Formel berechnen: Formel 3: P (I1 und I2) = P (I1) ∙ P (I2 | I1). [Rz 47] Wenn beispielsweise 80% aller blonden Menschen blaue Augen haben, beträgt die Wahrscheinlichkeit, dass der Verdächtige zufällig mit der Beschreibung des Täters übereinstimmt 0,2 x 0,8 = 0,16, oder 16%. Die Wahrscheinlichkeit einer zufälligen Übereinstimmung ist also vier Mal höher als wenn man annimmt, dass die Indizien unabhängig sind. Wenn P (I2 | I1) ≈ 1 ist, verringert sich die Merkmalswahrscheinlichkeit bei Vorliegen des zweiten Indizes praktisch nicht mehr. Einfacher ist es oft, abhängige Indizien zu «Indizienfamilien» zusammenzufassen, deren Merkmalswahrscheinlichkeit gesamthaft beurteilt wird.50 Im vorerwähnten Beispiel würde man beispielsweise von einem Indiz «blond und blauäugig» ausgehen, und die Wahrscheinlichkeit der zufälligen Übereinstimmung ausgehend von diesem Indiz schätzen (d.h. wie gross ist der Anteil blonder und blauäugiger Menschen an der Gesamtbevölkerung?). [Rz 48] Die Abhängigkeit zweier Indizien ist aber nicht immer so offensichtlich wie im obigen Beispiel und wird bei der Gesamtwürdigung der Beweise häufig übersehen, wie Ergebnisse von Schum/Martin belegen.51 Schnell passiert es zum Beispiel, dass man Indizien, die die Anfangswahrscheinlichkeit begründet und zur Verhaftung des Verdächtigen geführt haben, bei der Beweiswürdigung nochmals berücksichtigt.52 Eine sorgfältige Begründung der Beweiswürdigung unter Berücksichtigung der subjektiven Wahrscheinlichkeitstheorie kann solche Fehler vermeiden helfen, die bei der in der Schweiz oft propagierten «Gesamtwürdigung»53 der Beweise schnell passieren. V. Exkurs: Beweiswürdigung und DNA-Analysen ^A. Die Technik der DNA-Analyse ^[Rz 49] Obwohl die Technik der DNA54-Analyse für forensische Zwecke heute Routine ist, ist sie erstaunlich komplex, und ich will hier nicht auf die technischen Details eingehen.55 Die DNA ist ein fadenförmiges Molekül, das die menschliche Erbinformation enthält, und findet sich im Kern jeder menschlichen Zelle. Die DNA verschiedener Menschen ist überraschenderweise zu 99% identisch; an einigen wenigen bekannten Stellen (sinnigerwise «loci» genannt) unterscheidet sie sich aber zufällig. Man geht nach dem Stand der Wissenschaft davon aus, dass die Chance der Übereinstimmung jeder Stelle mit ihrem Äquivalent auf einer anderen DNA unabhängig von der Übereinstimmung anderer «loci» ist. Die Wahrscheinlichkeit der Übereinstimmung mehrerer «loci» lässt sich daher nach der oben erwähnten Produkt-Regel errechnen. Die Chance einer zufälligen Übereinstimmung von elf «loci» zweier DNA-Proben von verschiedenen, nicht verwandten, Menschen ist kleiner als 1 zu 10 Milliarden.56B. Der Beweiswert von DNA-Analysen und falsch positive Resultate ^[Rz 50] Übertragen auf das Taxi-Problem beantwortet diese Wahrscheinlichkeit die Frage, wie wahrscheinlich es ist, dass die Gesellschaft mit den blauen Taxis ausnahmsweise doch ein grünes Taxi besitzt. Der Zeuge, der das Taxi als grün identifiziert, irrt in diesem Fall nicht – das Taxi war tatsächlich grün. Aber der daraus gezogene Schluss, nämlich dass ein Taxi der Gesellschaft A (normalerweise die mit den grünen Taxis) den Unfall verursacht hat, ist falsch. Übertragen auf die DNA-Analyse bedeutet dies, dass die Analyse korrekt ist – die Proben stimmen tatsächlich überein – aber die Übereinstimmung ist eben zufällig, und der Schluss, dass die beiden Proben vom gleichen Menschen stammen, ist falsch.[Rz 51] Wie beim Taxi-Problem gezeigt, ist die Möglichkeit, dass die Gesellschaft mit den blauen Taxis ausnahmsweise ein grünes Taxi besitzt, nicht die einzige Fehlerquelle. Ebenso wenig ist die – sehr, sehr, sehr kleine – Chance einer zufälligen tatsächlichen Übereinstimmung zweier verschiedener DNA-Proben die einzige Fehlerquelle bei der DNA-Analyse. Genauso wie der Zeuge einen Fehler machen und ein blaues Taxi als grün identifizieren kann, kann ein Analyselabor einen Fehler machen und zwei nicht übereinstimmende Proben als identisch bezeichnen. [Rz 52] Ob diese Gefahr ernst zu nehmen ist, ist eine empirische Frage. Als forensische DNA-Analysen erstmals vor Gericht zugelassen wurden, gab es eine Reihe von Experten, die behaupteten, Fehler kämen bei der DNA-Analyse gar nie vor.57 Diese Behauptung wurde inzwischen in Theorie und Praxis widerlegt. Fehler können bei der Entnahme und der Handhabung von Proben vorkommen oder auf eine Fehlinterpretation oder Fehlübermittlung der Testresultate zurückzuführen sein. Besonders bei Proben, die am Tatort erhoben werden und Spuren verschiedener DNA enthalten, ist die Separation der einzelnen DNA-Stränge mitunter schwierig. Das Abschneiden eines Labors bei der Analyse von reinen Proben, wie sie in Probeläufen und bei Abstammungsgutachten verwendet werden, sagt daher wenig darüber aus, wie hoch die Wahrscheinlichkeit eines falsch positiven Befundes bei einer verunreinigten Spur ist. Dennoch wurden in proficiency tests, wie sie bei amerikanischen Labors regelmässig vorgenommen werden, wiederholt falsch positive Resultate gemeldet.58 In mindestens einem Fall hat ein Laborfehler zur Verurteilung eines Unschuldigen geführt.59 Für die frühen 90-er Jahre des letzten Jahrhunderts wurden Fehlerraten von 0,0008 bis 0,04 geschätzt.60 Cellmark Ltd, der führende Anbieter von forensischen DNA-Tests in den USA, musste auf Druck der Verteidigung im O.J. Simpson Prozess zugeben, dass seine eigene Fehlerrate bei rund 1:200 lag.61 [Rz 53] Na und, kann man sagen, wenn die Chance eines falsch positiven Resultates bei 1:200, oder einem halben Prozent, liegt, dann ist die Wahrscheinlichkeit, dass die beiden Proben tatsächlich übereinstimmen, doch dennoch 99,5%, und das dürfte für eine Verurteilung meist reichen. Der Leser dürfte inzwischen ahnen, das diese Annahme falsch ist. Thompson/Taroni/Aitken weisen darauf hin, dass die Vorstellung, die falsch positive Rate sei unerheblich, auf dem gleichen Denkfehler wie der Trugschluss des Anklägers beruht; sie sprechen von false positive fallacy.62 Man nimmt irrtümlicherweise an, dass, wenn die falsch positive Rate gering ist, die Wahrscheinlichkeit einer zu Unrecht gefundenen Übereinstimmung ebenfalls gering ist. [Rz 54] Auch hier mag ein Häufigkeitsbaum die Analyse veranschaulichen (Abbildung 2). Angenommen, die Anfangswahrscheinlichkeit, dass der Spurengeber der Täter ist, beträgt eins zu tausend; die Chance einer zufälligen Übereinstimmung zweier Proben eins zu zehn Milliarden, und die Chance eines falsch positiven Ergebnisses eins zu zweihundert, wie bei Cellmark Ltd. ![]() Abbildung 2: Häufigkeitsbaum zur DNA-Analyse [Rz 55] Die Wahrscheinlichkeit, dass die beiden Proben vom gleichen Menschen stammen, beträgt daher tatsächlich nicht 99,5%, sondern weniger als ein Fünftel (1 : (1+5) = 0,17). Die hohe Ausschlussleistung der DNA-Analyse («Chance einer zufälligen Übereinstimmung von eins zu zehn Milliarden») ist irreführend, denn die Belastungswahrscheinlichkeit hängt nicht von ihr, sondern weitgehend von der Wahrscheinlichkeit eines falsch positiven Fehlers ab. [Rz 56] Die Wahrscheinlichkeit eines falsch positiven Fehlers lässt sich nur empirisch durch Blindtests feststellen.63 Regelmässig durchgeführte Blindtests aller DNA-Labors sind zugegebenermassen aufwendig und teuer.64 Wiederholt wurde deshalb vorgeschlagen, dass die Gefahr von falsch positiven Treffern mit weniger Aufwand durch Doppelanalysen vermieden werden könne.65 Dies scheint auch die Auffassung des Bundesamtes für Polizei zu sein. [Rz 57] Doppelanalysen sind aber nicht immer durchführbar, weil die am Tatort erhobenen Proben unter Umständen beim ersten Test verbraucht wurden. Eine Doppelanalyse kann auch nicht jeden Fehler korrigieren – wenn eine Kontaminierung der Probe erfolgte, ehe sie geteilt wurde, nützt auch eine zweite Analyse derselben Probe nichts.66 Die Fehlerreduktion durch Doppelanalyse ist schliesslich nur dann optimal, wenn die Ergebnisse der beiden Analysen untereinander unabhängig sind. Dies muss aber durchaus nicht der Fall sein – wenn der Fehler beim ersten Mal darauf zurückzuführen ist, dass die Probe besonders schwierig zu analysieren oder das Profil besonders schwierig zu interpretieren war, dann wird der gleiche Fehler mit erhöhter Wahrscheinlichkeit auch bei der zweiten Analyse gemacht werden. Doppelanalysen können die Wahrscheinlichkeit eines falsch positiven Ergebnisses wohl reduzieren, aber niemand behauptet, dass sie es ausschliessen können.67 [Rz 58] DNA-Analysen sind zweifellos sehr beweiskräftige Indizien. Ihr Wert für die Praxis soll nicht kleingeredet werden, und es ist absehbar, dass sie im gerichtlichen Alltag immer häufiger eine wichtige Rolle spielen werden. Der Richter sollte aber ob der spektakulären Erfolge der forensischen DNA-Analyse nicht vergessen, dass die DNA-Analyse nicht unfehlbar ist. Das Bayes-Theorems zeigt, welche Faktoren den abstrakten Beweiswert eines DNA-Gutachtens bestimmen. Kein Richter sollte sich aus falscher Rücksicht auf die Unfehlbarkeit des DNA-Gutachtens dazu gedrängt fühlen, einen Angeklagten zu verurteilen. Wenn keine anderen Beweismittel vorliegen, und der Richter nicht von der Schuld des Angeklagten überzeugt ist, lassen sich Zweifel trotz positivem Gutachten vernünftig begründen.
|