| |
Denken in Repräsentativität
I.Ein Beispiel zum Einstieg
Für Pierre-Simon Laplace
war Wahrscheinlichkeitstheorie „im Grunde nur der Berechnung
unterworfener gesunder Menschenverstand“;
etwas, das vernünftige Menschen instinktiv wissen, ohne
genau erklären zu können, wie. Laplace
hat hier wahrscheinlich etwas vorschnell von sich auf andere
geschlossen. Viele Menschen empfinden die aus der
Wahrscheinlichkeitstheorie folgenden Schlüsse als
kontraintuitiv.
Die folgende Frage, in der psychologischen Literatur als
„Taxi-Problem“ bekannt, veranschaulicht die
Schwierigkeiten des korrekten Denkens in Wahrscheinlichkeiten:
Zwei Taxigesellschaften sind in einer Stadt tätig.
Die Taxis der Gesellschaft A sind grün, die der Gesellschaft
B blau. Die Gesellschaft A stellt 15 % der Taxis, die Gesellschaft B
die verbleibenden 85 %. Eines Nachts kommt es zu einem Unfall mit
Fahrerflucht. Das fliehende Auto war ein Taxi. Ein Zeuge sagt aus, es
habe sich um ein grünes Taxi gehandelt.
Das Gericht lässt den Zeugen auf seine Fähigkeit
untersuchen, grüne und blaue Taxis unter nächtlichen
Sichtbedingungen zu unterscheiden. Das Untersuchungsergebnis ist: In
80 % der Fälle identifiziert der Zeuge die Farbe zutreffend, in
20 % der Fälle irrt er sich.
Wie hoch ist die Wahrscheinlichkeit, dass es sich beim
fliehenden Taxi um ein Taxi der Gesellschaft A gehandelt hat?
Die Mehrheit der befragten Personen antwortet, dass die
Wahrscheinlichkeit 80 % beträgt.
Die richtige Lösung
ergibt sich aus dem so genannten Bayes-Theorem, benannt nach
dem presbyterianischen Pfarrer und Mathematiker Thomas
Bayes (1702-1761) .
II.Der normative Standard: das Bayes-Theorem
Das Bayes-Theorem zeigt, wie die anfängliche subjektive
Überzeugung, dass eine Hypothese zutrifft (a-priori, Vortest-,
Ursprungs- oder Anfangswahrscheinlichkeit) neuen Erkenntnissen
anzupassen ist.
Wenn H eine Hypothese bezeichnet, I ein Indiz und P
„Wahrscheinlichkeit“ (von probability), wobei P
Wert zwischen 0 und 1 annehmen kann, dann gilt
P(H) ∙ P(I | H)
P (H | I) = ─────────
(7)
P(I)
In Worten ausgedrückt, berechnet sich die bedingte
Wahrscheinlichkeit, dass die Hypothese H bei Vorliegen des Indizes I
zutrifft, aus der Wahrscheinlichkeit, dass die Hypothese H zutrifft,
multipliziert mit der bedingten Wahrscheinlichkeit, dass das Indiz I
vorliegt, wenn die Hypothese H zutrifft, geteilt durch die
Wahrscheinlichkeit, dass das Indiz I überhaupt vorliegt
(unabhängig davon, ob H zutrifft oder nicht). In der
Terminologie von Armin Nack
ist P(I | H) die Merkmalswahrscheinlichkeit, während P
(H | I) die Belastungswahrscheinlichkeit ist.
Durch Umformung der Gleichung (7) lässt sich das Bayes-Theorem
als so genannte „ratio rule“
darstellen
P (H | I) P(H)
───── = ─── (8)
P (I | H) P(I)
Mit anderen Worten ist das Verhältnis der bedingten
Wahrscheinlichkeiten P (H | I) und P(I | H) gleich dem Verhältnis
der einfachen Wahrscheinlichkeiten P(H) und P(I).
Für den Fall von zwei sich gegenseitig ausschliessenden
Hypothesen, von denen eine zutreffen muss (Beispiel: „A
ist der Vater von B“, „A ist nicht der Vater von B“)
, lässt sich die bedingte Wahrscheinlichkeit, dass die
Hypothese bei Vorliegen des Indizes I (Beispiel: „A und B
haben die gleiche Blutgruppe, die nur bei zehn Prozent der
Bevölkerung vorkommt“), wie folgt errechnen
P(H) ∙ P(I | H)
P (H | I) = ──────────────────── (9)
P(H) ∙ P(I | H) + P(¬H) ∙ P(I | ¬H)
In dieser Form wird das Bayes-Theorem oft in der juristischen oder
psychologischen Literatur dargestellt.
Der Nenner des Bruches auf der rechten Seite der Gleichung, die
Randwahrscheinlichkeit von Indiz I, errechnet sich aus der
Wahrscheinlichkeit, dass Indiz I vorliegt, wenn Hypothese H zutrifft
und der Wahrscheinlichkeit, dass Indiz I vorliegt, wenn die
Hypothese H nicht zutrifft. Im Zusammenhang mit Diagnoseverfahren
wird das Vorhandensein von Indiz I, obwohl die Hypothese H nicht
zutrifft, als „falsch positiv“ bezeichnet, und die Rate
der falsch positiven Befunde ist ein wichtiges Kriterium für
die Beweiskraft des Tests (Beispiel: Der Gynäkologe ertastet
Knötchen in der Brust einer Patientin, obwohl die Hypothese
„Brustkrebs“ nicht vorliegt).
Leicht verständlicher und praktischer in der Anwendung auf
Fragestellungen, wie sie typischerweise Juristen beschäftigen,
ist das Bayes-Theorem oft in seiner in „Chancen“ („eins
zu zehn“; Englisch: odds) ausgedrückten Form:
P (H1 | I) P(H1) P(I |H1)
───── = ──── ∙
───── (10)
P (H2 | I) P(H2) P(I |H2)
Der letzte Bruch auf der rechten Seite der Gleichung (10) ist der so
genannte “Likelihood-Quotient”,
der den abstrakten Beweiswert eines Indizes angibt.
In Worten daher
Bedingte Chance = Anfangschance ∙ Likelihood-Quotient
Angenommen, die Chance, dass der Angeschuldigte sich am Tatort
befunden hat, beträgt aufgrund der bisher bekannten
Tatsachen 3:4 (dies entspricht einer Wahrscheinlichkeit von 0,42;
eine Chance m:n entspricht der Wahrscheinlichkeit m / (m+n), oder
3/7 in diesem Beispiel). Nun trifft ein Laborbericht ein, gemäss
dem am Tatort Spuren einer Blutgruppe gefunden wurde, die selten ist
und nur in einem Prozent der Bevölkerung vorkommt (Indiz I).
Der Angeschuldigte weist die identische Blutgruppe und eine
Schnittverletzung auf, während das Opfer eine andere Blutgruppe
hat. Wenn H1 die Hypothese bezeichnet, dass sich der
Angeschuldigte am Tatort befunden hat, dann ist die bedingte
Wahrscheinlichkeit P(I | H1) = 1. Die bedingte
Wahrscheinlichkeit P(I | H2), d.h. dass die Blutgruppen
übereinstimmen, obwohl sich der Angeklagte nicht am Tatort
befunden hat (und die Spur daher von jemand anderen verursacht
wurde), beträgt 0,01. Es ist demnach 100 Mal wahrscheinlicher,
dass die Spuren übereinstimmen, wenn sich der Angeschuldigte am
Tatort befunden hat, als wenn er sich nicht am Tatort befunden hat.
Der Likelihood-Quotient beträgt daher 100. Multipliziert man
die Anfangschance mit dem Likelihood-Quotienten (3:4 ∙ 100:1 =
300:4), erhält man eine Wahrscheinlichkeit von 0,986 (300/304),
dass sich der Angeschuldigte am Tatort befunden hat.
A.Die Lösung des Taxi-Problems nach dem Bayes-Theorem
Mit dem Bayes-Theorem lässt sich nun die Wahrscheinlichkeit,
dass der Unfall von einem grünen Taxi verursacht wurde, wenn
der Zeuge aussagt, dass das Taxi grün gewesen sei, leicht
berechnen.
Im Taxi-Problem ist die Anfangswahrscheinlichkeit – ohne
zusätzliche Informationen, und unter der Annahme, dass beide
Taxi-Gesellschaften gleich viele Unfälle verursachen –,
dass ein Taxi der Gesellschaft B den Unfall verursacht hat, 85 %
[P(B) = 0,85]. Die Anfangswahrscheinlichkeit, dass ein Taxi der
Gesellschaft A den Unfall verursacht hat, beträgt 15 %, da
es nur zwei Taxigesellschaften gibt. Die bedingte
Wahrscheinlichkeit, dass der Zeuge das Taxi als grün
identifiziert, wenn das Taxi tatsächlich grün ist (und
folglich der Gesellschaft A gehört), beträgt 80 %
[P(„grün“ | A) = 0,8]; umgekehrt beträgt die
Wahrscheinlichkeit, dass der Zeuge das Taxi fälschlicherweise
als grün identifiziert, wenn es blau ist und der Gesellschaft B
gehört, 20 %.
Aus diesen Wahrscheinlichkeiten lässt sich die a-posteriori
Wahrscheinlichkeit oder Belastungswahrscheinlichkeit, dass das Taxi
der Gesellschaft A gehört, wenn der Zeuge ein grünes Taxi
gesehen, berechnen:
P(A) ∙ P(„grün“ | A)
P(A | „grün“) = ───────────── (11)
P(“grün”)
Der Nenner dieser Formel bedarf wie bereits erwähnt vorgängiger
Berechnung. Er gibt an, wie wahrscheinlich es überhaupt ist,
dass der Zeuge „grün“ sagt, und setzt sich daher
zusammen aus der Wahrscheinlichkeit, dass der Zeuge „grün“
sagt, wenn das Taxi tatsächlich grün ist (also P(A)
(P(„grün“ | A)) und der Wahrscheinlichkeit, dass
der Zeuge ein Taxi als grün identifiziert, das tatsächlich
blau ist (also p(B) P(„grün“ | B)). Folglich lautet
die Formel in ihrer extensiven Form
P(A) ∙ P(„grün“ | A)
P(A | „grün“) = ──────────────────────── (12)
P(A) ∙ (P(„grün“ | A) + P(B) ∙ P(„grün“
| B)
Setzt man die Wahrscheinlichkeiten gemäss dem Beispiel ein,
ergibt sich eine Wahrscheinlichkeit von 41 %, dass ein grünes
Taxi den Unfall verursacht hat, wenn der Zeuge ein grünes Taxi
gesehen hat.
Dieser Wert ist nach der positiven Identifizierung durch den Zeugen
zwar erheblich höher als die Anfangswahrscheinlichkeit von 15
%, aber er darf nicht gleichgesetzt werden mit der
Wahrscheinlichkeit von 80 %, dass der Zeuge ein grünes
Taxi richtig identifiziert. Letzteres, die Gleichsetzung der
bedingten Wahrscheinlichkeit P(A | „grün“) mit
P(„grün“ | A) ist ein häufiger Fehler, der auf
Denken in Assoziationen, oder Repräsentativität,
zurückzuführen ist.
III.Das deskriptive Modell: Denken in Repräsentativität
Dass das Bayes-Theorem nicht beschreibt, wie Menschen tatsächlich
mit probabilistischen Informationen umgehen, wurde bereits in
den 60-er Jahren des letzten Jahrhunderts erkannt. Studien von
Ward Edwards und
Kollegen kamen zum Schluss, dass Menschen ihre subjektive
Einschätzung der Wahrscheinlichkeit nach der Kenntnis neuer
Indizien zwar in die vom Bayes-Theorem vorgegebene Richtung
revidierten, aber zu wenig. Dieses Phänomen wurde daher als
„Konservatismus“ bezeichnet, weil die Versuchspersonen
an ihren ursprünglichen Überzeugungen festhielten.
Die Resultate von Edwards
waren aber nicht immer eindeutig; so verschwand beispielsweise der
Konservatismus, wenn die neue Information nur geringen
diagnostischen Wert hatte (der Likelihood-Quotient also nahe bei 1
liegt). In diesem Fall war die Revision der
Anfangswahrscheinlichkeit sogar zu extrem.
Andere Forscher wiesen darauf hin, dass in der Wirklichkeit viele
Indizien redundant seien und daher ein einzelnes Indiz bei der
Revision der Anfangswahrscheinlichkeit zu Recht nur gering
gewichtet wird. Die Versuchspersonen würden möglicherweise
ihre dem tatsächlichen Leben angepassten
Entscheidungsalgorithmen auf die künstliche Versuchsanlage
übertragen; die Resultate seien daher ein Artefakt der
Versuchsanlage. Auch sei die Diagnostizität der Indizien
unrealistisch hoch; die Versuchspersonen würden
automatisch von realistischeren Werten ausgehen.
Diese Kritik koinzidierte mit der Publikation von „On
the Psychology of Prediction“ von Kahneman
und Tversky, in der
sie nachwiesen, dass ihre Versuchspersonen Basisraten
vernachlässigen oder gar ignorieren.
Die Entdeckung der Vernachlässigung der
Anfangswahrscheinlichkeit (base
rate neglect) – der Antithese zum
Konservatismus – bedeutete zusammen mit der Kritik an der
künstlichen Versuchsanordnung das Ende der Forschung zum
Konservatismus.
Kahneman und Tversky
postulieren, dass Menschen sich einer Repräsentativitätsheuristik
(representative heuristic)
bedienen, wenn sie die Wahrscheinlichkeit des Vorliegens einer
Tatsache einschätzen. Gemäss der
Repräsentativitätsheuristik beurteilt eine Person die
Wahrscheinlichkeit eines ungewissen Ereignisses nach dem Ausmass,
in dem es in wesentlichen Eigenschaften seiner Grundgesamtheit
ähnlich ist.
Mit anderen Worten postuliert die Repräsentativitätsheuristik,
dass der Mensch auch dort assoziativ denkt, wo er komparativ denken
sollte. Beim assoziativen Denken werden wahrgenommene Stimuli mit
den Eigenschaften von im Gedächtnis gespeicherten Schemata
verglichen. Ein Schema ist eine komplexe Wissenseinheit, die die
typischen Eigenschaften von Mitgliedern einer allgemeinen Kategorie
enthält.
Nachdem das Schema aktiviert ist, können daraus weitere,
noch nicht beobachtete Eigenschaften des betreffenden Objekts
abgeleitet werden. Dies ist häufig nützlich; wird
beispielsweise ein Tier mit einer gewissen Grösse, Farbe und
Form wahrgenommen, kann es dem Schema „Stinktier“
zugeordnet werden. Ohne wahrnehmen zu müssen, dass das
Tier tatsächlich stinkt, kann die Flucht ergriffen werden.
Unter gewissen Umständen kann das Denken in Assoziationen zu
Fehlern führen, wie folgendes klassisches Experiment
zeigt. Kahneman und
Tversky legten ihren
Versuchspersonen fünf Beschreibungen von Menschen vor, die
zufällig aus einer Gruppe von 100 Personen gezogen worden
waren. Der einen Hälfte der Versuchspersonen wurde gesagt, dass
die Gruppe aus 70 Ingenieuren und 30 Anwälten, der anderen
Hälfte, dass sie aus 30 Ingenieuren und 70 Anwälten
bestehe. Ansonsten waren die Instruktionen identisch.
Eine solche Beschreibung lautete beispielsweise:
Jack ist ein 45-jähriger Mann. Er ist verheiratet
und hat vier Kinder. Er ist meist konservativ, sorgfältig
und ehrgeizig. Er zeigt kein Interesse an politischen und sozialen
Themen und verbringt seine Freizeit mit seinen zahlreichen Hobbies,
die Heimwerken, Segeln und das Lösen mathematischer Rätsel
umfassen.
Wie gross ist die Wahrscheinlichkeit, dass Jack einer
der 30 Ingenieure aus der Gruppe der 100 Personen ist?
Die Antwort sollte, unabhängig davon, wie diagnostisch die
Information ist,
dadurch beeinflusst werden, wie die gross die
Anfangswahrscheinlichkeit ist, dass Jack ein Ingenieur ist.
Angenommen, eine Versuchsperson ist aufgrund der Beschreibung der
Meinung, dass Männer mit den beschriebenen Eigenschaften unter
Ingenieuren fünf Mal häufiger anzutreffen sind als unter
Anwälten. In diesem Fall ist die a posteriori
Wahrscheinlichkeit, dass Jack ein Ingenieur ist, 69 %,
wenn sich 30 Ingenieure in der Gruppe befinden, wenn sich jedoch 70
Ingenieure in der Gruppe der 100 befinden, beträgt sie 92 %.
Kahneman und Tversky
stellten jedoch keine signifikanten Unterschiede zwischen den
beiden Gruppen fest. Ihre Versuchspersonen hatten die
Anfangswahrscheinlichkeit schlicht ignoriert; beachtet wurde sie nur
dann, wenn überhaupt keine individualisierende Information
vorhanden war („Sie haben keinerlei Information über die
Person, die zufällig aus der Stichprobe gezogen wurde. Wie
gross ist die Wahrscheinlichkeit, dass die Person einer der 30
Ingenieure in der Gruppe der 100 Personen ist?).
Andere Autoren replizierten und erweiterten die Experimente von
Kahneman und Tversky
und bestätigten die Resultate weitgehend.
Der base rate neglect war geboren und führte zu einer
Flut von Publikationen, die bis heute nicht nachlässt (zur
Kritik am base rate neglect siehe hinten, S. ff.).
Die Repräsentativität einer Eigenschaft einer Instanz
einer Kategorie für ihre Zugehörigkeit zu derselben
kann durch die bedingte Wahrscheinlichkeit P(E | S) ausgedrückt
werden;
wobei „E“ die Eigenschaft und „S“ das Schema
bezeichnet. Je repräsentativer, oder typischer, die
Eigenschaften für die betreffende Kategorie sind, desto höher
ist die bedingte Wahrscheinlichkeit P(E | S); sie erreicht 1, wenn
alle Instanzen der Kategorie die entsprechende Eigenschaft
aufweisen. In dem „Jack der Ingenieur“ Experiment haben
möglicherweise viele Versuchspersonen assoziativ gedacht:
„Das ist ein typischer Ingenieur. Mindestens 50 % aller
Ingenieure haben diese Eigenschaften“. Die bedingte
Wahrscheinlichkeit P(E | S) beträgt daher 0,5; d.h. die
Wahrscheinlichkeit, dass die Eigenschaften gegeben sind, wenn
eine Instanz des Schemas „Ingenieur“ vorliegt, ist 50 %.
Falsch ist jedoch der nächste Schritt: „Weil 50 % aller
Ingenieure diese Eigenschaften aufweisen, ist die
Wahrscheinlichkeit, dass Jack ein Ingenieur ist, 50 %“.
P(E | S) darf, siehe ratio rule
(Gleichung 8, S. ), nur dann mit P(S | E) gleichgesetzt werden,
wenn die Wahrscheinlichkeit von S und E identisch sind.
Repräsentatives Ähnlichkeits-Denken unterscheidet jedoch
nicht zwischen P(E | S) und P(S | E) und führt eine Symmetrie
ein, die in Wirklichkeit (meist) nicht existiert.
Die Umkehrung bedingter Wahrscheinlichkeiten (inverse
fallacy)
ist sehr häufig und hat Villejoubert/Mandel
dazu verleitet, anzunehmen, dass sie die Ursache des empirisch
festgestellten base rate neglects
ist.
Während bei der Vernachlässigung der
Anfangswahrscheinlichkeit nur die Basisrate ignoriert wird,
wird bei der Verwechslung der bedingten Wahrscheinlichkeiten auch
P(I | ¬H) vernachlässigt (im Beispiel von „Jack“
also die Wahrscheinlichkeit, dass eine Person mit den beschriebenen
Eigenschaften auch unter Anwälten vorkommt).
Villejoubert/Mandel
machen sich bei ihrem Experiment die Tatsache zunutze, dass es auf
die Basisraten nicht ankommt, wenn die Anfangswahrscheinlichkeit 0,5
ist. Sie legten ihren Versuchspersonen insgesamt zwölf Fragen
im folgenden Format vor: „Auf einem Planeten gibt es eine
Million Glooms und eine Million Fizos. 98 % der Glooms und 58 % der
Fizos spielen Harmonika. Sie treffen eine der Kreaturen, die Ihnen
durch einen Übersetzer mitteilt, dass sie Harmonika
spielt. Wie gross ist die Wahrscheinlichkeit, dass es sich um einen
Gloom handelt?“. Villejoubert/Mandel
stellten fest, dass die Antworten häufig näher bei P (I |
H) (im obigen Beispiel 0,98) als bei der gemäss Bayes-Theorem
korrekten Antwort lagen (im obigen Beispiel 0,63). Rund die Hälfte
ihrer Versuchspersonen setzten in mehr als 80 % der Fragen a
posteriori Wahrscheinlichkeit und bedingte Wahrscheinlichkeit P (I |
H) gleich.
Für Villejoubert/Mandel
ist dies Beleg dafür, dass nicht die Vernachlässigung der
Basisraten, sondern die Verwechslung der bedingten
Wahrscheinlichkeiten die Ursache für die beobachteten
Abweichungen vom Bayes-Theorem ist.
Die Studie von Villejoubert/Mandel
ist ein starkes Indiz für assoziatives Denken, wenn
komparatives Denken angezeigt wäre. Kahneman/Tversky
behaupten allerdings nicht, dass die Vernachlässigung der
Basisraten die Ursache der beobachteten Abweichungen von der gemäss
Bayes-Theorem richtigen Antwort ist; Ursache ist gemäss ihnen
das repräsentative Denken. Die Vernachlässigung der
Basisraten ist nur eine der zahlreichen Folgen dieser
Heuristik.
Allerdings hat sie in den letzten zwanzig Jahren die Diskussion
dominiert, weshalb häufig nur noch von base
rate neglect gesprochen wird, was
Villejoubert/Mandel
möglicherweise zur Annahme verleitet hat, die
Vernachlässigung der Basisrate werde als Ursache der
beschriebenen Fehler gesehen.
A.Typische Fehler, die aus dem repräsentativen Denken
resultieren
1.Ausländer sind kriminell, Marihuana ist eine Einstiegsdroge
und Videospiele machen gewalttätig
Der Anteil ausländischer Staatsangehöriger in den
Strafvollzugsanstalten des Kantons Zürich (ohne
Ausschaffungshaft) betrug 2003 76,5 %.
Praktisch alle jugendlichen Amokläufer – der
Attentäter von Erfurt, die Mörder von Columbine, Colorado
– spielten intensiv gewalttätige Videospiele. Und fast
alle Konsumenten von harten Drogen konsumieren auch, oder
konsumierten früher, Marihuana. Dies hat Leute dazu verleitet,
darauf zu schliessen, dass Ausländer generell kriminell sind,
Videospiele zu Gewalttaten führen
und Marihuana eine Einstiegsdroge ist.
Diese Schlüsse sind falsch, weil sie aus der bedingten
Wahrscheinlichkeit P (I | H) auf die bedingte
Wahrscheinlichkeit P (H | I) schliessen. Um das Verhältnis der
bedingten Wahrscheinlichkeiten bestimmen zu können, muss
man aber auch das Verhältnis Wahrscheinlichkeiten P(H) und
P(I) kennen. Um beim Beispiel der Videospiele zu bleiben: P(H), d.h.
Amokläufer, ist extrem selten. Selbst in den USA, wo solche
Amokläufe häufiger sind als in anderen Ländern,
kommen sie kaum mehr als ein Mal jährlich vor. Der Anteil
Jugendlicher, zumal männlicher, die Videospiele spielen,
ist aber sehr hoch.
Gewalttätige Videospiele gehören dabei zu den
populärsten.
Da das Verhältnis P(„läuft Amok“) zu P(„spielt
Videogames“), sehr gross ist, muss auch das Verhältnis P
(“läuft Amok” | „spielt Videogames“)
zu P(„läuft nicht Amok“ | “spielt
Videogames”) sehr gross sein. Mit anderen Worten wird nur ein
ganz, ganz kleiner Anteil der Videospieler zu Gewalttätern, so
wie nur ein kleiner Anteil der Haschisch-Konsumenten zu harten
Drogen greift.
2.Fallacia Consequentis
Mit den obigen Fehlschlüssen verwandt ist die bereits
Aristoteles bekannte fallacia
consequentis, der bejahende Schluss von der Folge
auf den Grund.
Die fallacia consequentis
hat folgende Form:
Wenn p, dann q. (Wer gewalttätig ist, spielt brutale
Videospiele.)
q. (X spielt brutale Videospiele.)
Ergo, p. (X ist gewalttätig.)
Selbst wenn die Aussage „wenn p, dann q“ wahr ist –
die bedingte Wahrscheinlichkeit P(q | p) also 1 ist – ist der
obige Schluss nicht richtig.
Zutreffend ist der Schluss nur dann, wenn die Prämisse lautet
„Ausschliesslich wenn p, dann q“; d.h. das Indiz
kommt nur bei der Haupttatsache vor, und sonst gar nicht. In
Bayes’scher Terminologie ist der Likelihood-Quotient für
dieses Indiz unendlich, sein abstrakter Beweiswert ist
unermesslich.
Ergo führt es selbst dann zur Bejahung von p, wenn die
Anfangswahrscheinlichkeit von p sehr gering ist.
3.Was typisch ist, ist beweiskräftig
Beweisanzeichen, die typisch sind für eine bestimmte Tat,
müssen nicht notwendigerweise diagnostisch sein. Kinder, die
über sexuelle Übergriffe berichten, zögern oft und
widerrufen bereits gemachte Aussagen.
Die Zurücknahme einer Anschuldigung ist daher nicht untypisch
für ein missbrauchtes Kind und Teil von SUMMITs „Child
Sexual Abuse Accomodation Syndrome“.
Nur, wie gross ist die Wahrscheinlichkeit, dass ein Kind, das nicht
missbraucht wurde und beispielsweise durch suggestive Fragen
dazu gebracht wurde, unrichtige Anschuldigungen zu erheben,
diese Aussagen später widerruft? Der gesunde Menschenverstand
sagt einem, dass die Rate der widerrufenen Anschuldigungen in diesem
Fall höher sein muss. Der Widerruf einer Anschuldigung muss
daher ein entlastendes Indiz sein. Wie entlastend, können nur
empirische Untersuchungen zeigen, die eine Kontrollgruppe verwenden
und den Vergleich der Wahrscheinlichkeit eines Widerrufs bei
tatsächlichem Missbrauch und suggeriertem Missbrauch erlauben.
Auch andere Anzeichen, die oft als „typisch“ für
Kindsmissbrauch angesehen werden, taugen nicht als Indizien für
Missbrauch. So ist eine Rötung der Genitalien bei missbrauchten
Kindern zwar häufig, aber bei nicht missbrauchten ebenso.
Auch psychosomatische Symptome wie Bettnässen, Kopfschmerzen
oder Verstopfung treten bei missbrauchten Kindern nicht häufiger
auf als bei nicht missbrauchten Kindern in vergleichbarer
Situation.
Von der Typizität der Symptome auf die Ursache zu schliessen,
ohne die Häufigkeit der Symptome bei Nicht-Vorliegen der
Ursache zu kennen, ist ein typischer Fehler assoziativen Denkens.
Das Problem ist, dass häufig Experten befragt wurden, die
ausschliesslich mit missbrauchten Kindern zu tun hatten. Ihre
Beobachtungen aber können nie dazu dienen, zwischen den
Hypothesen Missbrauch und Nicht-Missbrauch zu differenzieren, auch
wenn das zu beurteilende Kind alle Stereotypen des typischen
Missbrauchs erfüllt. Robyn
Dawes formuliert dies so:
Unglücklicherweise sagen viele Sachverständige
auf der Basis ihrer „Erfahrung“ zu den Merkmalen
missbrauchter Kinder aus, aber sie geben zu, wenig oder keine
Erfahrungen mit Kindern zu haben, die nicht missbraucht wurden, aber
einmal ausgesagt hatten, missbraucht worden zu sein. Daher ist solche
Erfahrung – nicht bloss „genau gesagt“, sondern
fundamental – irrelevant für die Beurteilung des
Missbrauchs. Ironischerweise versuchen solche Pseudo-Experten häufig,
ihre angeblichen Sachkenntnisse durch die Behauptung zu belegen,
dass fast alle Kinder, die sie behandeln, tatsächlich
missbraucht worden seien. Wird diese Aussage ernst genommen,
sollte sie automatisch dazu führen, ihnen jeden Sachverstand
bezüglich der für das Gericht zentralen Frage, nämlich
ob das Kind missbraucht wurde oder nicht, abzusprechen.
Als Indizien für oder gegen den Missbrauch taugen nur Symptome,
deren Häufigkeit bei nicht missbrauchten Kindern in
vergleichbaren Umständen man ebenfalls kennt. Dies wurde
inzwischen erkannt, und entsprechende Forschungsanstrengungen werden
unternommen.
Der Jurist kann daraus lernen, dass sich der Beweiswert eines
Indizes immer erst aus Beantwortung der drei folgenden Fragen
ergibt:
Wie häufig kommt das Indiz bei der Haupttatsache vor?
Wie häufig kommt das Indiz (auch) bei der Nicht-Haupttatsache
vor?
Wo kommt das Indiz häufiger vor, bei Gruppe 1 oder bei Gruppe
2?
Lässt sich die Frage 2 nicht beantworten, weil keine Daten
vorliegen, so ist das Indiz wissenschaftlich wertlos. Aus den
Antworten zu den drei Fragen errechnet sich der abstrakte
Beweiswert des Indizes – der Likelihood-Quotient gemäss
Bayes-Theorem. Bender/Nack
umschreiben den Beweiswert eines Indizes mit gegebenem
Likelihood-Quotienten wie folgt:
1 : 3 gering belastend
1 : 4-9 belastend
1 : 10-25 stark belastend
1 : 50-100 sehr stark belastend
1 : 1'000 und höher ausserordentlich stark belastend
4.Der Trugschluss des Anklägers
Ein Laden wird überfallen. Der Täter trägt eine
Skimütze mit Sehschlitzen. Bei einer Nahbereichsfahndung wird
ein Mann aufgegriffen, der ungefähr die Grösse des Räubers
hat und ähnliche Kleidung trägt. Weder Beute, Waffe noch
Skimütze werden bei ihm gefunden. Eine ähnliche Skimütze,
wie sie der Täter trug, findet sich jedoch in einem Abfalleimer
unweit des aufgegriffenen Mannes. Nach der Schilderung dieses
Sachverhalts – ohne weitere Indizien – wurden die
Versuchspersonen in einem Experiment von Thompson/Schumann
gebeten, ihre subjektive Überzeugung anzugeben, dass es sich
bei dem aufgegriffenen Mann um den Täter handle.
Anschliessend erhielten die Versuchspersonen folgende zusätzliche
Informationen: In der Skimütze werden Haare gefunden.
Mikroskopische Untersuchungen zeigen, dass sie sich nicht von den
Haaren des Verdächtigen unterscheiden lassen. Ein forensischer
Wissenschafter gibt folgende Aussage zu Protokoll:
wenn der Verdächtige unschuldig wäre, betrüge
die Wahrscheinlichkeit, dass die Haarproben nicht unterschieden
werden können, nur 2 %
Nun wurden die Versuchspersonen erneut gebeten, ihre subjektive
Überzeugung anzugeben, dass der Verdächtige der Räuber
ist. 22 % der Versuchspersonen gaben eine Wahrscheinlichkeit von 98
% an. Sie begingen den Fehler, P(H | I) gleichzusetzen mit 1 –
P(I | H).
Dieser Fehler wird gewöhnlich als „Trugschluss des
Anklägers“ bezeichnet.
Präsentiert der Sachverständige jedoch seine Erkenntnisse
in der Form von Häufigkeiten
nur 2 % aller Menschen haben Haare, die sich
mikroskopisch nicht von den Haaren des Täters unterscheiden
lassen. In einer Stadt mit einer Million Einwohner sind dies rund
20'000 Personen
dann begehen nur 4 % der Befragten den Fehler, P(H | I)
gleichzusetzen mit 1 – P(I | H).
Trugschlüsse des Anklägers sind kein Artefakt von
gesuchten Experimenten. Taroni/Mangin/Bär
weisen darauf hin, dass sich falsche Argumente wie das folgende
häufig in Expertengutachten finden:
Es lassen sich keine Unterschiede zwischen den Merkmalen
in der untersuchten Spur und denjenigen bestimmt beim Verdächtigen
auffinden. Eine solche Befundkonstellation lässt sich bei ca.
0,001 % der Bevölkerung nachweisen. Die Wahrscheinlichkeit, dass
die Spur vom Tatverdächtigen stammt, ist grösser als 99,999
%.
In einem Grundsatzurteil zur DNA-Analyse befasste sich der deutsche
Bundesgerichtshof mit den folgenden Aussagen eines Sachverständigen:
Die Kombination der Merkmale aller drei DNA-Polymorphismen komme nur
bei 0,014 Prozent der Bevölkerung, d.h. bei einer von 6'937
Personen, vor. Deshalb könne mit einer „Wahrscheinlichkeit
von 99,986 Prozent (100 Prozent abzüglich 0,014 Prozent)“
festgestellt werden, dass der Angeklagte der Verursacher des
Spermas aus der Scheide der Geschädigten sei. Zu dieser Aussage
konnte der Gutachter aber nur gelangen, weil er – wie das
Gutachter oft tun,
aber nicht tun sollten
– von einer „neutralen“ Anfangswahrscheinlichkeit
von 0,5 ausging, dass das Sperma vom Angeklagten stammt. Die
Feststellung der Belastungswahrscheinlichkeit aus der
Merkmalswahrscheinlichkeit setzt aber die Berücksichtigung
der Anfangswahrscheinlichkeit voraus. Dass diese 0,5 beträgt,
durfte der Sachverständige annehmen, nicht aber das Gericht.
Der BGH wies ausdrücklich darauf hin, dass die vom
Sachverständigen genannte Merkmalswahrscheinlichkeit von
0,014 bei einer Stadt der Grösse von Hannover mit ungefähr
250'000 Einwohnern immerhin bedeutet, dass 35 männliche
Personen aus Hannover als Täter nicht ausgeschlossen werden
können.
Auch das Bezirksgericht Zürich, so lässt sich aus der
Begründung eines Urteils vom 7. Dezember 1993 schliessen,
ist nicht gefeit gegen den Trugschluss des Anklägers (der
Trugschluss hat in diesem Fall mit an Sicherheit grenzender
Wahrscheinlichkeit nicht zu einem Fehlurteil geführt). Das
Gericht stellt fest, dass gemäss Expertise der am Tatort
gefundene Speichel mit einer Wahrscheinlichkeit von 1 : 150
Millionen vom Angeklagten stamme.
Diese Belastungswahrscheinlichkeit konnte der Experte aber nur
angeben, weil er von der neutralen Anfangswahrscheinlichkeit von 50
% ausgegangen ist, dass der Angeklagte der Verursacher der Spuren
ist.
Die Annahme einer Anfangswahrscheinlichkeit von 50 % für die
Schuld des Angeklagten ist aber einigermassen willkürlich und
kann sich zu Ungunsten des Angeklagten auswirken.
Der Gutachter kann die tatsächliche Anfangswahrscheinlichkeit
gar nicht kennen,
oft kann sie auch nur nach richterlichem Ermessen geschätzt
werden.
Das Gericht selber ging offensichtlich davon aus, dass die
tatsächliche Anfangswahrscheinlichkeit erheblich weniger
als 50 % betrug, und schrieb: „Bereits eine erheblich kleinere
Wahrscheinlichkeit [als die von 1 : 150 Millionen] würde
genügen, um im Angeklagten den Spurengeber zu sehen, wenn man
bedenkt, dass die Schweiz knapp 7 Millionen, Italien rund 58
Millionen Einwohner zählt“.
Damit scheint das Gericht andeuten zu wollen, dass die
Übereinstimmung bei einer Merkmalswahrscheinlichkeit von 1 :
150 Millionen den Angeklagten selbst dann mit hoher
Wahrscheinlichkeit zum Täter macht, wenn jeder der 65 Millionen
Einwohner der Schweiz und Italiens als Täter in Frage kommt.
Dies ist falsch. Geht man von einer Anfangswahrscheinlichkeit von 1
: 65 Millionen aus, dass der Angeklagte der Spurenverursacher ist,
so resultiert aus der Merkmalswahrscheinlichkeit von 1 : 150
Millionen „nur“ eine Wahrscheinlichkeit von 70 %, dass
der Angeklagte der Spurenverursacher ist. Nimmt man weiter an,
dass es beim Vergleich von zwei DNA-Proben mit einer geringen
Wahrscheinlichkeit von 1 : 10'000 zu einem falsch positiven
Resultat
kommt – eine durchaus realistische Annahme
– so reduziert sich die Belastungswahrscheinlichkeit
dramatisch auf weniger als ein Promille (näheres hinten, S.
ff.).
Das Urteil des Bezirksgerichts Zürich ist trotzdem kein
Fehlurteil, weil die Anfangswahrscheinlichkeit, dass der
Angeklagte der Spurenverursacher war, im konkreten Fall erheblich
höher als 1 : 65 Millionen war. Der dem Angeklagten angelastete
Einbruchdiebstahl wurde nach dem gleichen Modus Operandi wie frühere
Einbrüche des Angeklagten ausgeführt, der Mittäter
war ein alter Bekannter des Angeklagten und der Angeklagte konnte
für seinen angeblichen Aufenthalt in Italien keinen einzigen
Zeugen benennen.
Fälle, in denen Gerichte oder Gerichtsgutachter
erwiesenermassen dem Trugschluss des Anklägers unterlagen
– und meist von der Berufungsinstanz korrigiert wurden –
sind Regina v. Andrew Deen, Court of Appeals (Criminal Division) vom
10. Januar 1994; People v. Collins, 66 Cal. Rptr.
497 (1968), U.S. v. Massey, 594 F. 2d 676 (8th Cir. 1979); State of
Arizona v. Michael Steven Gallegos, 870 P.2d 1097 (1994) und
State of Arizona v. Robert Wayne Johnson, 905 P.2d 1002 (1995).
5.Umgekehrter Fehler: was untypisch ist, ist unwahrscheinlich
Alan M. Dershowitz,
Harvard Professor und Berater des Verteidigungsteams im O.J.
Simpson Prozess, sagte im März 1995 am amerikanischen
Fernsehen, dass nur etwa ein Zehntel eines Prozentes aller Männer,
die ihre Frau schlagen, diese auch umbringen. Er brachte dies in
Verteidigung seines Mandanten vor, der die ermordete Nicole Brown
Simpson erwiesenermassen geschlagen hatte. Dies wurde von den
Strafverfolgungsbehörden und den Medien als belastendes Indiz
gegen O.J. Simpson gewertet.
Das Argument von Dershowitz
ist auf den ersten Blick einleuchtend: es ist sehr, sehr selten,
dass ein Mann, der seine Frau schlägt, diese auch umbringt,
daher ist das Indiz, dass O.J. Simpson seine Frau geschlagen hat,
auch nicht belastend. „Ermorden“ ist mit anderen Worten
nicht repräsentativ, oder typisch, für „schlagen“.
Der Statistiker Irving J. Good
wies in einem Leserbrief an die Zeitschrift Nature
nach, dass die Argumentation von Dershowitz
nicht richtig ist.
Angenommen, E bezeichnet „ermordet (egal von wem) in 1994“,
S „schuldig“ (d.h. der Mann der geschlagenen Frau ist
der Mörder), ¬S “unschuldig” und G „geschlagen
von ihrem Mann“. Dann gilt für das Verhältnis der
bedingten Wahrscheinlichkeiten gemäss dem Bayes-Theorem in
seiner Chancen Form (siehe Gleichung (7))
P (S | E und G) P(S | G) P(E | S und G)
──────── = ─────
∙ ───────── (13)
P(¬S | E und G) P(¬S | G) P(E | ¬S und G)
Good nimmt die
Wahrscheinlichkeit von Dershowitz,
dass ein seine Frau schlagender Mann diese umbringt (1/1’000),
und multipliziert sie mit 1/10, um die Wahrscheinlichkeit anzugeben,
dass der Mord in einem bestimmten Jahr geschieht.
Die Anfangswahrscheinlichkeit, dass ein schlagender Mann seine
Frau in einem bestimmten Jahr umbringt, ist daher
P(S | G) = 1/10'000 (0,0001) (14)
Die Wahrscheinlichkeit, dass eine Frau ermordet wurde, dann wenn ihr
Mann sie ermordet hat, ist logischerweise 1, also
P(E | S und G) = P (E | S) = 1 (15)
Good stellt weiter
fest, dass in den USA jährlich rund 25’000 Personen
ermordet werden; bei einer Bevölkerung von rund 250 Millionen
beträgt daher die Wahrscheinlichkeit für eine beliebige
Person,
und somit auch für die Frau eines schlagenden Mannes, in einem
bestimmten Jahr ermordet zu werden
P(E | ¬S und G) = P(E | ¬S) ≈ 1/10'000 (0,0001) (16)
Setzt man nun die Zahlen in die Gleichung (7) ein, so erhält
man
P (S | E und G) 0,0001 1
───────── =
──── ∙ ────
≈ 1 (17)
P(¬S | E und G) 0,9999 0,0001
Mit anderen Worten beträgt die Wahrscheinlichkeit, dass die
getötete Frau eines Mannes, der sie schlägt, von ihrem
Mann ermordet wurde, rund 50 % (P (S | E und G) ≈ 0,5). Es ist
daher nur vernünftig, den Ehemann als Hauptverdächtigen
anzusehen, wenn feststeht, dass er seine Frau geschlagen hat und
diese tot aufgefunden wird. Dass „ermorden“ untypisch
ist für schlagende Männer, ändert nichts daran.
Gerd Gigerenzer weist
darauf hin, dass die obige – gerade für Juristen –
einigermassen komplexe Rechnung erheblich vereinfacht werden kann,
wenn man sie in natürlichen Häufigkeiten darstellt.
Man stelle sich 10'000 geschlagene Frauen vor. Von diesen wird in
einem bestimmten Jahr eine von ihrem Ehemann ermordet. Von den
restlichen 9'999 wird statistisch gesehen eine von jemand anderem
ermordet. Von den zwei ermordeten Frauen wurde also eine von ihrem
schlagenden Ehemann ermordet; mit anderen Worten beträgt die
Wahrscheinlichkeit, dass der schlagende Ehemann der Mörder ist,
50 %.
B.Kritik am deskriptiven Modell in der Psychologie
Die Forschung von Kahneman
und Tversky zur
Repräsentativitätsheuristik, und insbesondere zum base
rate neglect, ist in den neunziger Jahren des
letzten Jahrhunderts zunehmend kritisiert worden. Gerd
Gigerenzer,
Jonathan J. Koehler
und Leda Cosmides/John Tooby
kritisieren, dass die von Kahneman
und Tversky aufgrund
ihrer Experimente gezogenen weitreichenden Schlüsse nicht
zuträfen und nicht generell davon gesprochen werden könne,
dass Menschen intuitiv schlechte Statistiker seien.
Der wohl schärfste Kritiker Gigerenzer
bringt zwei Hauptargumente vor, eines logisch-mathematischer
Art, das andere empirischer Natur. Erstens weist er darauf hin, dass
umstritten ist, was es bedeutet, dass ein Ereignis
„wahrscheinlich“ ist, und dass man sinnvoll gar nicht
von der Wahrscheinlichkeit eines singulären Ereignisses
sprechen könne. Es gebe daher keine normative Basis, mit der
man die von den Versuchspersonen gegebenen Antworten zur
Wahrscheinlichkeit eines singulären Ereignisses vergleichen und
die Abweichungen als „Fehler“ qualifizieren könne.
Zweitens, so das empirische Argument, verschwänden die
beobachteten Phänomene weitgehend, wenn die Information in der
Form natürlicher Häufigkeiten präsentiert würden.
Die Kritik von Gigerenzer
war mächtig genug, um Kahneman
und Tversky zu einer
Antwort
herauszufordern, obwohl sie normalerweise bewusst darauf verzichtet
haben, explizit zur Kritik an ihrer Arbeit Stellung zu nehmen.
Im Folgenden werden die Argumente von Gigerenzer
und die sich daraus ergebenden Schlussfolgerungen dargestellt.
1.Was heisst „ein Ereignis tritt mit einer
Wahrscheinlichkeit von 0,x auf“?
Was bedeutet die Aussage „Eine Frau im gebärfähigen
Alter, die mit einem zeugungsfähigen Mann
Geschlechtsverkehr hat, wird mit einer Wahrscheinlichkeit von 0,05
schwanger“? Um sagen zu können, was eine Aussage
bedeutet, muss man aufzeigen, was der Fall sein muss, damit die
Aussage wahr ist. Im Fall der Wahrscheinlichkeit der
Schwangerschaft lässt sich durch Beobachtung eines
einzelnen Ereignisses nicht feststellen, ob die Aussage zutrifft.
Entweder wird die Frau schwanger, dann ist die Wahrscheinlichkeit 1,
oder sie wird nicht schwanger, dann ist die Wahrscheinlichkeit Null.
Ein bisschen schwanger kann man bekanntlich nicht werden. So
oder anders wird die Aussage, dass sie mit einer „Wahrscheinlichkeit
von 0,05“ schwanger wird, durch die Beobachtung der Folgen des
Geschlechtsverkehrs weder bestätigt noch widerlegt. Ob die
Aussage zutrifft, muss daher an einem anderen Kriterium gemessen
werden.
a.Objektive Wahrscheinlichkeit
Eine Möglichkeit, Wahrscheinlichkeit zu definieren, ist als
Grenzwert der relativen Häufigkeit eines Merkmals in
einem Kollektiv (long run frequency).
Nach dieser Auffassung kann man von Wahrscheinlichkeit nur
sprechen, wenn „es sich um eine in grossen Mengen auftretende
Erscheinung, [...] um eine praktisch unbegrenzte Folge von
gleichartigen Beobachtungen handelt“.
Dieser Wahrscheinlichkeitsbegriff wird wahlweise objektiv,
statistisch, empirisch oder frequentistisch genannt.
Von der Wahrscheinlichkeit eines singulären Ereignisses zu
sprechen ist nach dieser Auffassung sinnlos, weil es für ein
singuläres Ereignis keine Referenzklasse gibt, in der man die
Häufigkeit des Vorkommens des Ereignisses zählen könnte.
Der Anwendungsbereich der objektiven Wahrscheinlichkeitstheorie ist
deshalb auf Gebiete begrenzt, in denen lange Beobachtungsreihen
gemacht werden können, wie in der Physik, bei Glücksspielen
oder im Versicherungswesen. Nach der objektiven
Wahrscheinlichkeitstheorie kann die obige Aussage zur
Schwangerschaft nur so verstanden werden, dass von 1'000 Frauen im
gebärfähigen Alter, die mit tausend zeugungsfähigen
Männern Geschlechtsverkehr haben, 50 schwanger werden.
Daraus abzuleiten, dass die 1'001. Frau mit einer Wahrscheinlichkeit
von 0,05 schwanger wird, ist unzulässig.
b.Subjektive Wahrscheinlichkeit
Nach dem subjektiven oder epistemischen
Wahrscheinlichkeitsbegriff ist Wahrscheinlichkeit Ausdruck
unseres subjektiven Glaubens an das Eintreten oder die Ursache eines
Ereignisses in Anbetracht der derzeit zur Verfügung
stehenden Informationen. Der Nachsatz „in Anbetracht der
derzeit zur Verfügung stehenden Informationen“ ist
wichtig; nach der subjektiven Wahrscheinlichkeitstheorie ist es
sinnlos, von der Wahrscheinlichkeit eines Ereignisses „an
sich“ zu sprechen. Die Wahrscheinlichkeit eines Ereignisses
hängt immer von den bekannten Informationen ab.
Ändern sich diese, muss die Wahrscheinlichkeit unter
Berücksichtigung der neuen Informationen neu berechnet werden.
Die frühere Wahrscheinlichkeit ist deswegen nicht falsch,
sondern ging eben von einem anderen Wissensstand aus. So lässt
sich auch zwanglos erklären, dass ein Wahrscheinlichkeitsurteil
desto besser (begründet) ist, je mehr Informationen es
berücksichtigt: mit der Verbreiterung der Informationsbasis
wird es von einer unsicheren zu einer „sichereren“
Entscheidungsgrundlage.
Im obigen Beispiel mit der Wahrscheinlichkeit der Schwangerschaft
wird sich subjektive Wahrscheinlichkeit beispielsweise ändern,
wenn man erfährt, dass die Frau im Zeitpunkt des
Geschlechtsverkehrs ihren Eisprung hat. Vielleicht würde man
statt von „subjektiver Wahrscheinlichkeit“ besser von
„Gewissheit“ oder „Überzeugungsgrad“
sprechen, weil subjektive Wahrscheinlichkeit letztlich einen Grad
von Gewissheit ausdrückt.
Nach dem subjektiven Wahrscheinlichkeitsbegriff lässt sich die
Aussage, dass es morgen mit einer Wahrscheinlichkeit von 0,3 regnen
wird, in eine Wette mit einer Chance von 3:7 übersetzen. D.h.
die Person, die die Aussage macht, müsste bereit sein, eine
Wette einzugehen, bei der sie bei einem Einsatz von 3 Einheiten
10 Einheiten gewinnen kann (und somit einen Gewinn von 7 macht),
wenn es morgen regnet.
Dieser von Frank P. Ramsey
entwickelte Gedanke erlaubt, Sätze der subjektiven
Wahrscheinlichkeitstheorie auf einleuchtende Weise zu beweisen; ein
Satz ist dann richtig, wenn er keine Wette zulässt, bei der der
Wettgegner in jedem Fall verliert (sog. „Dutch
book“).
Ob die Theorie rationalen Wettens geeignet ist, die Überzeugung
eines Richters festzustellen, bleibe dahingestellt,
sie ist auf jeden Fall nicht notwendig, um den subjektiven
Wahrscheinlichkeitsbegriff anzuwenden.
Der subjektive Wahrscheinlichkeitsbegriff wurde im 20. Jahrhundert
von Frank P. Ramsey,
Bruno de Finetti
und Leonhard Savage
entwickelt.
Die subjektive Wahrscheinlichkeitstheorie befasst sich naturgemäss
in erster Linie mit dem Problem, wie die Wahrscheinlichkeit eines
Ereignisses in Anbetracht neuer Informationen zu revidieren ist. Sie
stellt Regeln auf, wie Überzeugungen rational und kohärent,
d.h. widerspruchsfrei, verknüpft werden können. Da das
Bayes-Theorem genau dies zeigt, wird die subjektive
Wahrscheinlichkeitstheorie oft auch mit „Bayes’scher
Statistik“ (Bayesian
statistics) bezeichnet.
Zwei Menschen, die den gleichen Informationsstand aufweisen, können
einem Ereignis durchaus eine andere subjektive Wahrscheinlichkeit
beimessen, auch wenn es in der Praxis Fälle geben wird, in
denen die meisten Leute sich einig sind.
Genau dies haben Kahneman
und Tversky
stillschweigend angenommen, und hier setzt die (eine) Kritik von
Gigerenzer an:
Kahneman und Tversky
setzen voraus, dass beim Anwalt/Ingenieur Problem (das auf S.
vorgestellt wurde) die Anfangswahrscheinlichkeit, dass es sich
um einen Ingenieur handelt, 0,3 beträgt, wenn die Stichprobe 30
Ingenieure und 70 Anwälte enthält. Aber die subjektive
Wahrscheinlichkeitstheorie verlangt nicht, dass die
relative Häufigkeit der Verteilung mit der
Anfangswahrscheinlichkeit gleichzusetzen ist. Die
Anfangswahrscheinlichkeit lässt sich nach der subjektiven
Wahrscheinlichkeitstheorie nicht bestimmen, sie muss als gegeben
hingenommen werden. Weil aber die Belastungswahrscheinlichkeit
von der Anfangswahrscheinlichkeit abhängt, lassen sich die
Antworten der Versuchspersonen nach der subjektiven
Wahrscheinlichkeitstheorie auch nicht als richtig oder falsch
qualifizieren, wenn man deren subjektive Anfangswahrscheinlichkeit
nicht kennt.
c.Wahrscheinlichkeitsbegriff und Tatsachenfeststellung vor Gericht
Die Diskussion, welcher Wahrscheinlichkeitsbegriff der „richtige“
ist, wird mit Sicherheit auch im 21. Jahrhundert weitergeführt
werden.
In der deutschen juristischen Literatur vertreten Bender/Nack,
Ernst Ludwig Nell,
Eleonora Bourmistrov-Jüttner
und Minna Gräns
einen subjektiven Wahrscheinlichkeitsbegriff, während
Hermann Weitnauer,
Rupert Schreiber,
Hans Joachim Musielak
und Bernhard U. Maassen
den objektiven Wahrscheinlichkeitsbegriff im Sinne der relativen
Häufigkeit vertreten.
Reinhard Greger lehnt
sowohl eine Anwendung des subjektiven wie des objektiven
Wahrscheinlichkeitsbegriffs im Rahmen der Tatsachenfeststellung vor
Gericht ab, da sich seiner Auffassung nach juristische Urteile nicht
mit wahrscheinlichkeitstheoretischen Erwägungen
erfassen lassen.
In der Schweiz hat sich in der Fachliteratur noch niemand dazu
geäussert, ob bei Tatsachenfeststellungen vor Gericht von einem
objektiven oder subjektiven Wahrscheinlichkeitsbegriff
ausgegangen werden muss. Christophe
Champod und Franco
Taroni verwenden einen objektiven
Wahrscheinlichkeitsbegriff, befassen sich aber schwergewichtig
mit Beweismitteln der forensischen Wissenschaften, wo objektive
Wahrscheinlichkeiten empirisch feststellbar sind.
Meines Erachtens gibt es gute Gründe dafür, anzunehmen,
dass das Rechtssystem sich für den subjektiven
Wahrscheinlichkeitsbegriff entschieden hat; schon deshalb, weil es
kaum identische Beweissituationen gibt, die sich beliebig oft
wiederholen liessen.
Der Richter beurteilt immer den Einzelfall, und die
Wahrscheinlichkeit eines Einzelfalls lässt sich nur in
subjektiver Wahrscheinlichkeit ausdrücken.
Die schweizerische Lehre und Rechtsprechung umschreibt das
Beweismass des Vollbeweises mit den folgenden Formulierungen: „Die
richterliche Überzeugung braucht [...] keine Gewissheit zu
sein. Mit Gewissheit lassen sich Tatsachen, insbesondere solche der
Vergangenheit oder der Zukunft, praktisch kaum feststellen. Die
richterliche Überzeugung darf sich auf eine
Wahrscheinlichkeit stützen, die zwar objektiv den Zweifel nicht
ausschliesst, ihn aber subjektiv, nach Ansicht des Gerichts, als
unbegründet erscheinen lässt. [...] Der Richter braucht
nicht überzeugt zu sein, dass seine Annahme unter allen
Umständen richtig sein müsse, es genügt, wenn er zu
dem Ergebnis gelangt, dass sie nach den konkreten Umständen die
am ehesten vertretbare sei“.
„Absolute Gewissheit gibt es nicht und kann es nicht geben,
und der Prozess kann sie nicht fordern. Im Rechtssinn ist daher ein
Beweis bereits erbracht, wenn der Richter sich überzeugt hat,
wenn also ein so hoher Grad von Wahrscheinlichkeit besteht, dass
vernünftigerweise mit der Möglichkeit des Gegenteils nicht
mehr zu rechnen ist“.
„Tatbestandsmerkmale müssen im Allgemeinen bewiesen,
d.h. zur vollen Überzeugung des Richters gebracht werden.
Hiefür kann es aber genügen, dass ein Sachverhalt mit an
Sicherheit grenzender Wahrscheinlichkeit erstellt ist, wenn
völlige Sicherheit nicht zu gewinnen ist“.
„Ein Beweis gilt als erbracht, wenn das Gericht nach
objektiven Gesichtspunkten von der Richtigkeit einer Sachbehauptung
überzeugt ist. Absolute Gewissheit kann dabei nicht verlangt
werden. Es genügt, wenn das Gericht am Vorliegen der
behaupteten Tatsache keine ernsthaften Zweifel mehr hat oder
allenfalls verbleibende Zweifel als leicht erscheinen“ (BGE
130 II 321, 325).
Diese Formulierungen stellen einerseits klar, dass nicht Sicherheit
verlangt wird. Der Richter darf auch dann den Beweis als
erbracht ansehen, wenn eine kleine Wahrscheinlichkeit bleibt, dass
seine Überzeugung nicht zutrifft. Obwohl in den Beispielen
meist von „subjektiver Gewissheit“ und „objektiver
Wahrscheinlichkeit“ gesprochen wird, darf man dies nicht
dahingehend verstehen, dass damit einem objektiven
Wahrscheinlichkeitsbegriff das Wort geredet würde. Die
Juristen, die die obigen Regeln formuliert haben, haben sich nicht
mit Wahrscheinlichkeitstheorie befasst und waren sich der
unterschiedlichen Wahrscheinlichkeitsbegriffe kaum bewusst. Man
kann natürlich argumentieren, dass der Begriff der
Wahrscheinlichkeit, der in der Jurisprudenz verwendet wird, weder
dem objektiven noch dem subjektiven Wahrscheinlichkeitsbegriff
entspricht, sondern etwas Eigenes ist. Damit entzieht man
juristische Urteile weitestgehend der rationalen Kontrolle.
Die Umschreibungen der herrschenden Lehre lassen sich aber zwanglos
als Umschreibungen der subjektiven Wahrscheinlichkeit, d.h. des
verlangten Grades der Überzeugung des Richters, verstehen
(dies im Übrigen auch dann, wenn man der so genannten
„objektiven Beweismasstheorie“ folgt; auch diese begnügt
sich mit Wahrscheinlichkeit).
Bourmistrov-Jüttner
betont:
So verstanden drücken die präzisierten
juristischen Wahrscheinlichkeitsurteile nichts anderes aus als die
rationale Überzeugung des Richters vom (oder den rationalen
Glauben des Richters an das) Bestehen bestimmter Sachverhalte
aufgrund der zur Verfügung stehenden Informationen und
Erfahrungen.
Das Verständnis des juristischen Wahrscheinlichkeitsbegriffs
als subjektive Wahrscheinlichkeit hat den Vorteil, dass die
Kohärenz und Rationalität juristischer Urteile am
normativen Standard der subjektiven Wahrscheinlichkeitstheorie
gemessen und intersubjektiv diskutiert werden können.
Aussagen wie „Je unwahrscheinlicher die Tatsachenbehauptung
einer Partei ist, desto höhere Anforderungen darf das
Gericht an den Beweis der behaupteten Tatsachen stellen“
lassen sich durch das Bayes-Theorem leicht erklären. Für
das Bundesgericht gehört diese Überlegung in den Bereich
der Beweiswürdigung und darf nicht zu einem erhöhten
Beweismass führen (BGE 130 II 321, 325). Dort gehört
sie nach dem Bayes-Theorem auch hin. Sie besagt nichts anderes, als
dass, wenn eine geringe Anfangswahrscheinlichkeit des Vorliegens
einer Tatsache besteht, die abstrakte Beweiskraft der Beweismittel
höher sein muss, ehe das feststehende Beweismass, die
subjektive Überzeugung des Richters vom Vorliegen der Tatsache,
erreicht wird.
Das Recht verlangt auch, dass das Gericht seine freie
Beweiswürdigung nachvollziehbar begründet. Freie
Beweiswürdigung „bedeutet nicht Willkür, sondern
Pflicht zu gewissenhafter Schlussfolgerung aufgrund des
Ergebnisses des Beweisverfahrens. Das Gericht muss seine Ansicht
begründen können, es genügt nicht, wenn es sich
einfach für überzeugt erklärt“.
Die Beweiswürdigung „darf die Gesetze der Logik nicht
verletzen“,
der Richter muss „das Beweismaterial sorgfältig prüfend
bewerten und begründen können, weswegen er hier den Beweis
als erbracht und dort als fehlgeschlagen erachtet“.
Die richterliche Überzeugung ist in den Urteilserwägungen
zu begründen, damit die richterliche Überzeugungsbildung
verstandesmässig kontrolliert werden kann.
Dort, wo objektive Wahrscheinlichkeiten empirisch feststellbar sind,
darf der Richter daher meines Erachtens nur diese objektiven
Wahrscheinlichkeiten zu seiner subjektiven
Anfangswahrscheinlichkeit machen.
Dies ist letztlich auch die Auffassung von Weitnauer
und (ihm folgend) Musielak,
die die Anwendung des objektiven Wahrscheinlichkeitsbegriffs
mit dem Argument verteidigen, beim Einzelfall handle es sich um eine
„Stichprobe“ aus dem Kollektiv. Die Aussage, dass in
einer Gesamtmenge von 100 Personen 90 ein bestimmtes Merkmal
aufweisen, lässt sich nach ihrer Auffassung auf den Einzelfall
übertragen, indem die Richtigkeit der Hypothese, dass die
konkrete Person das betreffende Merkmal aufweist, mit einer
Wahrscheinlichkeit von 90 % zutreffe, wenn die Person zufällig
aus dem Kollektiv ausgewählt wurde.
Dies ist keine Folgerung aus der Wahrscheinlichkeitstheorie,
sondern ein Werturteil des Rechtssystems, das intersubjektiv
diskutierbare Entscheidungsbegründungen verlangt. Beim
Anwalt/Ingenieur Problem muss der Richter daher von der empirischen
Wahrscheinlichkeit von 0,3 ausgehen, dass es sich bei der
beschriebenen Person um einen Ingenieur handelt. Dies ist zwar nicht
logisch zwingend, aber jede Abweichung davon ist zumindest
erklärungsbedürftig. Das Rechtssystem hat sich daher, wenn
man so will, für die pragmatische, wenn auch logisch nicht
begründbare, Auffassung von Kahneman
und Tversky
entschieden, dass man bei empirisch feststellbaren
Wahrscheinlichkeiten diese als subjektive a priori
Wahrscheinlichkeiten annehmen und unbegründete
Abweichungen von der so angenommenen Anfangswahrscheinlichkeit
als Fehler betrachten muss.
2.Häufigkeiten statt Wahrscheinlichkeiten
Gigerenzer und
Cosmides/Tooby
behaupten, dass die beobachteten Verletzungen des Bayes-Theorem
weitgehend verschwinden, wenn man den Versuchspersonen die
Informationen in der Form von natürlichen Häufigkeiten
(„5 von 20“) statt als Wahrscheinlichkeiten (0,25)
präsentiert.
|
Information
|
Darstellung
der Information
|
|
|
Natürliche
Häufigkeiten
|
|
P(H)
|
100
von 10’000 getesteten Autofahrern sind betrunken.
|
|
P(I
| H)
|
Bei
95 von 100 betrunkenen Autofahrern verfärbt sich das
Teströhrchen.
|
|
P(I
| ¬H)
|
Bei
495 von 9'900 nüchternen Autofahrern verfärbt sich das
Teströhrchen auch.
|
|
|
Normalisierte
Häufigkeiten
|
|
P
(H)
|
100
von 10’000 getesteten Autofahrern sind betrunken.
|
|
P(I
| H)
|
Bei
9’500 von 10’000 betrunkenen Autofahrern verfärbt
sich das Teströhrchen.
|
|
P(I
| ¬H)
|
Bei
500 von 10’000 nüchternen Autofahrern verfärbt
sich das Teströhrchen auch.
|
|
|
Relative
Häufigkeiten
|
|
P(H)
|
1
% aller getesteten Autofahrer ist betrunken.
|
|
P(I
| H)
|
Bei
95 % aller betrunkenen Autofahrer verfärbt sich das
Teströhrchen.
|
|
P(I
| ¬H)
|
Bei
5 % aller nüchternen Autofahrer verfärbt sich das
Teströhrchen auch.
|
|
|
Wahrscheinlichkeiten
|
|
P(H)
|
Die
Wahrscheinlichkeit, dass ein getesteter Autofahrer betrunken ist,
beträgt 0,1.
|
|
P(I
| H)
|
Die
Wahrscheinlichkeit, dass sich das Teströhrchen bei einem
betrunkenen Autofahrer verfärbt, beträgt 0,95.
|
|
P(I
| ¬H)
|
Die
Wahrscheinlichkeit, dass sich das Teströhrchen bei einem
nüchternen Autofahrer auch verfärbt, beträgt 0,05.
|
Tabelle
10: Verschiedene Darstellungsformen der Information im „Alkotest“
Problem (S. )
Gigerenzer stellt
fest, dass sich die heuristics
and biases Literatur fast ausschliesslich auf die
Algorithmen der Informationsverarbeitung konzentriert und dabei die
Darstellung der Information und deren Einfluss auf die
Informationsverarbeitung vernachlässigt hat.
Information braucht Repräsentation. Wenn unser Gehirn für
eine Art der Darstellung von Wahrscheinlichkeits-Informationen
besser gerüstet ist, dann für die Darstellung der
Information in der Form natürlicher Häufigkeiten.
Prozente und Brüche waren erst nach der Entwicklung komplexer
mathematischer Systeme verständlich. Natürliche
Häufigkeiten aber konnten schon vor der Erfindung von Schrift
und Mathematik beobachtet werden.
Unsere prähistorischen Vorfahren konnten feststellen, dass sie
bei der Jagd im nördlichen Wald fünf von den letzten
zwanzig Malen erfolgreich waren; sie haben sich kaum ausgerechnet,
dass dies einer Wahrscheinlichkeit von 0,25 entspricht, zumal bei
der Umrechnung von natürlichen Häufigkeiten in
Wahrscheinlichkeiten wichtige Informationen, beispielsweise
über die Anzahl der Beobachtungen, auf der eine
Wahrscheinlichkeit beruht, verloren gehen.
Am besten sollte nach dieser Theorie unsere
Wahrscheinlichkeitsverarbeitung sein, wenn sie auf der durch
eigene Beobachtung festgestellten natürlichen Häufigkeit
eines Ereignisses (natural
sampling) beruht.
Gigerenzer und
Cosmides/Tooby
berichten übereinstimmend, dass die beobachteten Abweichungen
vom Bayes-Theorem weitgehend verschwinden, wenn man die klassischen
Fragen aus der heuristics and
biases Literatur umformuliert und natürliche
Häufigkeiten statt Wahrscheinlichkeiten verwendet. So steigt
die Anzahl der richtigen Antworten im „medizinischen
Diagnose-Problem“
(sehr ähnlich zum hinten dargestellten Alko-Test Problem) von
12 % bei der Darstellung der Information in Wahrscheinlichkeiten auf
46 %,
56 %
oder 73 %
bei der Darstellung in natürlichen Häufigkeiten.
Kahneman und Tversky
weisen in ihrer Antwort auf die Kritik erstens darauf hin, dass sie
nie behauptet hätten, die Repräsentativitätsheuristik
trete unter allen Umständen auf. Natürlich gebe es
Umstände, in denen Menschen eher den Regeln der
Wahrscheinlichkeitstheorie folgen würden. Wenn Gigerenzer
nun nachweise, dass Menschen nicht immer die von ihnen
prognostizierten Fehler machten, habe er sie keineswegs widerlegt.
Die Schlussfolgerungen von Gigerenzer
seien zudem empirisch ungenügend belegt. Verschiedene Studien
zeigten, dass die Vernachlässigung der
Anfangswahrscheinlichkeit selbst dann nicht verschwände, wenn
die Versuchspersonen die natürlichen Häufigkeiten aufgrund
eigener Beobachtungen feststellten.
Auch Gigerenzers
eigene Resultate belegten keineswegs, dass die Vernachlässigung
der Anfangswahrscheinlichkeit verschwände,
sondern nur, dass sie sich bei der Darstellung der Information als
Häufigkeiten verringere.
Die Kontroverse zwischen Vertretern der heuristics
and biases Schule und den Vertretern der
„evolutionären“ Sicht – worunter ich hier
alle verstehe, die sich Gigerenzers
und Cosmides/Toobys
Schlussfolgerungen anschliessen – tobt heftig, wie nicht
anders zu erwarten ist, wenn zwei ausserordentlich erfolgsverwöhnte
Akademiker von einem äusserst eloquenten und fundierten
Kritiker angegriffen werden.
Als Aussenseiter ist es immer einigermassen schwierig, zu
entscheiden, wer bei einem solchen intellektuellen
Schlagabtausch die besseren Argumente hat. Einerseits haben Kahneman
und Tversky sicher
Recht, wenn sie darauf hinweisen, dass es nicht weiter erstaunlich
ist, dass 92 % der Versuchspersonen die richtige Antwort geben, wenn
man sie dazu zwingt, eine grafische Darstellung des Problems zu
zeichnen.
Wenn man den Leuten die richtige Lösung erklärt, verstehen
sie sie in der Regel; deswegen kann man die intuitive, abweichende
Antwort auch als Fehler bezeichnen. Auch gibt es Studien, die
zeigen, dass base rate neglect
auch bei nicht verbalen Problemen und natural
sampling auftritt
und Versuchspersonen nicht zwischen relevanten und irrelevanten base
rates unterscheiden können,
was dagegen spricht, dass Menschen evolutionär gewachsene
Denkprozesse zur Verarbeitung natürlicher Häufigkeiten
haben, die weitgehend fehlerfrei funktionieren.
Andererseits sind die Belege dafür zahlreich, dass die
Vernachlässigung der Basisrate bei Darstellung in natürlichen
Häufigkeiten weitgehend verschwindet, und die theoretische
Erklärung leuchtet ein. Der Ansatz von Gigerenzer
und Cosmides/Tooby
wird sofort plausibel, wenn man sich die Lösung eines konkretes
Problem in Form eines Häufigkeitsbaums und in Form des
Bayes-Theorem vor Augen hält (dazu hinten, S. ff.). Eine faire
Zusammenfassung des derzeitigen Diskussionsstandes besteht daher
darin, zu sagen, dass die Anfangswahrscheinlichkeit bei der
Darstellung der Information in natürlichen Häufigkeiten
sehr viel weniger oft ignoriert wird als bei der Darstellung der
Information in Wahrscheinlichkeiten.
Daraus ergeben sich konkrete Empfehlungen für die gerichtliche
Praxis.
IV.Das Bayes-Theorem und richterliche Beweiswürdigung
A.US-amerikanische Lehre
Das Für und Wider der Anwendung des Bayes-Theorems auf die
richterliche Beweiswürdigung wird in den USA seit 30
Jahren intensiv diskutiert.
Einige Aspekte dieser Debatte betreffen spezifisch amerikanische
Probleme, wie die Frage, ob Geschworene überhaupt fähig
sind, einer Erläuterung des Bayes-Theorems zu folgen, oder ob
sie dadurch nicht mehr verwirrt als aufgeklärt werden. Andere
Befürchtungen sind, dass Geschworene die Bedeutung
explizit statistischer Informationen übergewichten und andere,
„weiche“ Faktoren ausser Acht lassen.
Ein guter Teil der Kontroverse dreht sich um die Frage, ob eine
Verurteilung ausschliesslich aufgrund eines statistischen
Beweismittels zulässig sei, oder ob es individualisierender
Beweismittel bedürfe. Unter dem Titel naked
statistical evidence werden hypothetische Fälle
wie das „gatecrasher
paradox“ und die Gefangenen-Verschwörung
erörtert. Bei der letzteren verabreden sich 24 Gefangene, einen
Wärter zu ermorden. Nach dem Mord befinden sich im
abgeschlossenen Gefängnishof 25 Gefangene, die als Täter
in Frage kommen. Jeder einzelne von ihnen ist daher mit einer
Wahrscheinlichkeit von 96 % der Täter; einer aber mit
Sicherheit unschuldig. Genügt dies, um alle von ihnen zu
verurteilen?
Beim „gatecrasher paradox“
besuchen 1'000 namentlich bekannte Personen ein Rodeo, zu dem
erwiesenermassen nur 490 Eintrittsbillette verkauft wurden. Darf
man, wenn keinerlei weitere Beweismittel vorliegen, alle 1'000
Personen zur Nachzahlung des Eintrittspreises verurteilen, weil die
Wahrscheinlichkeit, dass jeder Einzelne die Veranstaltung ohne zu
bezahlen besucht hat, 0,51 beträgt (und nach amerikanischen
Zivilrecht „preponderance
of the evidence“, was gemeinhin als eine
Wahrscheinlichkeit von mehr als 0,5 verstanden wird, für
eine Gutheissung der Klage genügt)?
Während also ein Teil dieser Debatte getrost ignoriert werden
kann, sind andere Aspekte der amerikanischen Diskussion auch für
Europa relevant. Zu Recht wird das Problem der a priori
Wahrscheinlichkeiten thematisiert, auf das die subjektive
Wahrscheinlichkeitstheorie bekanntlich keine Antwort hat, und die
Komplexität der Berechnungen herausgestrichen, die notwendig
sind, wenn man mit der wahrscheinlichkeitstheoretischen
Beweiswürdigung ernst macht. Auf diese beiden Aspekte wird
nachgehend eingegangen, nachdem kurz der Standpunkt der
schweizerischen (soweit vorhanden) und deutschen Lehre zur Anwendung
explizit Bayes’scher Induktion in Gerichtsverfahren beleuchtet
wurde. Abschliessend wird darauf hingewiesen, dass die subjektive
Wahrscheinlichkeitstheorie, unabhängig von ihrer Anwendung in
der gerichtlichen Praxis, die Dogmatik des Beweisrechts bereichern
kann – anerkanntermassen nicht gerade ein Gebiet, in dem in
den letzten Jahren grosse Fortschritte gemacht wurden.
B.Schweizer Lehre
In der Schweiz haben sich ersichtlich nur
Champod/Taroni – beides keine Juristen, sondern
forensische Wissenschafter – zur Anwendung des Bayes-Theorem
bei der richterlichen Beweiswürdigung geäussert:
Das Bayes-Theorem findet im Strafprozess eine ideale
Anwendung. Es erlaubt, auf verlässliche Weise die Häufigkeiten
und Wahrscheinlichkeiten zu berücksichtigen und die flagranten
Fehler, die auf die Intuition zurückzuführen sind, zu
vermeiden.
Schweizer Juristen, die sich zur Beweiswürdigung äussern,
begnügen sich damit, festzuhalten, dass die richterliche
Beweiswürdigung frei sei, es keine schematischen Regeln
gebe und die Beweiswürdigung das Ergebnis einer Gesamtschau
sei, wobei sich der Beweiswert eines Beweismittels aus den konkreten
Umständen des Einzelfalls ergebe.
Stets wird jedoch verlangt, dass die Beweiswürdigung rational
und nachvollziehbar zu begründen sei.
C.Deutsche Lehre
Abgelehnt wird die Anwendung des Bayes-Theorems von Vertretern der
skandinavischen Beweiswertmethode wie Per
Olof Ekelöf. Für ihn hat die
Anfangswahrscheinlichkeit „kein kognitives Verhältnis zu
dem Beweisthema“, sie hat „auch keinen Beweiswert an
sich und [kann] nicht in demselben Sinn angewandt werden wie nach
dem Bayes-Theorem“.
Die meisten deutschsprachigen Autoren, die sich mit dem Thema
auseinandergesetzt haben, befürworten die Anwendung des
Bayes-Theorem, wenn auch meist nicht als starre Regel, gemäss
der alle Beweise mathematisch zu gewichten und das Beweisergebnis
gleichsam zu errechnen ist, sondern als Modell, um rational und
intersubjektiv überprüfbar argumentieren zu können.
Bender/Nack
formulieren dies so:
Sinn und Zweck der Anwendung des Theorem von Bayes auf
den Indizienbeweis ist nicht die Berechnung von
Wahrscheinlichkeiten im Prozess; sondern seine Anwendung als Modell,
um den Denkprozess beim Indizienbeweis zu beschreiben, um
rationaler argumentieren zu können.
Für Gräns
sind die
Formeln [...] als heuristische Hilfsmittel deutlich
einer blossen Intuition vorzuziehen. [...] Zu behaupten, dass
die Formeln irgendeine unberechtigte Kontrolle über die
Beweiswürdigung nehmen würden, heisst zu behaupten, dass
man nicht bereit ist, die Rationalität und die logische
Haltbarkeit seiner Würdigung zu überprüfen.
Nell weist darauf hin,
dass selbst die Kritiker der „Mathematisierung“
insbesondere des Strafprozesses in den USA die Gültigkeit des
Bayes-Theorems als eines theoretischen Modells für eine
folgerichtige Bildung von Wahrscheinlichkeitsurteilen nicht in Frage
stellen.
Am weitesten geht Bourmistrov-Jüttner,
die die Zuordnung von Wahrscheinlichkeitswerten zu
intuitiven Urteilen fordert, weil sie zu einer vorsichtigeren
Entscheidungspraxis führe,
die Präzisierung des intuitiven Urteils und eine bessere
intersubjektive Nachvollziehbarkeit der einzelnen
Urteilsbildung erlaube sowie die rationale Lösung eines
juristischen Falles ermögliche.
D.Stellungnahme
Mit der Mehrheit der deutschen und amerikanischen Lehre würde
ich so weit wie Bourmistrov-Jüttner
nicht gehen. Zu verlangen, dass Gerichte ihre Urteile gleichsam
errechnen, ist nicht nur unrealistisch, es würde auch eine
mathematische Scheingenauigkeit vortäuschen, die nicht
existiert. Aber das Bayes-Theorem als Urteilsheuristik ist
auf jeden Fall der ungestützten Intuition vorzuziehen, die, wie
die oben dargestellte psychologische Forschung zeigt, oft in die
Irre führt. Wenn man verlangt, dass die Beweiswürdigung
„die Gesetze der Logik nicht verletzen [darf]“
und der Richter zu „gewissenhafter Schlussfolgerung
aufgrund des Ergebnisses des Beweisverfahrens“
verpflichtet ist, kann man sich der Folge kaum entziehen, dass das
Bayes-Theorem der normative Standard ist, an dem die Kohärenz
der Beweiswürdigung gemessen werden muss. Ausschliesslich das
Bayes-Theorem erlaubt es, eine bestehende Überzeugung und neue
Erkenntnisse widerspruchsfrei zu integrieren.
E.Das Problem der a priori Wahrscheinlichkeiten
Wenn das Bayes-Theorem die widerspruchsfreie Kombination von
Anfangswahrscheinlichkeit und
Merkmalswahrscheinlichkeit erlaubt und wir daher, wenn wir beide
kennen, auf sicherem Boden sind, richtet sich die Aufmerksamkeit
naturgemäss darauf, wie man zu Anfangswahrscheinlichkeit und
Merkmalswahrscheinlichkeit gelangt. Das Bayes-Theorem gibt
darauf bekanntlich keine Antwort. Nicht ganz zu Unrecht ist bemerkt
worden, dass eine Theorie der Beweiswürdigung, die nur die
Kombination bekannter Wahrscheinlichkeiten erlaubt, aber
keine Hinweise darauf gibt, wie man zu diesen Wahrscheinlichkeiten
gelangt, unvollständig und für die Praxis wenig nützlich
ist.
1.Die massgebliche Referenzklasse
Cohen argumentiert,
dass die Versuchspersonen in Kahneman/Tverskys
Taxi-Problem die base rate
von 85 % grünen Taxis zu Recht ignoriert haben:
Warum nur soll man annehmen, dass Versuchspersonen, die
gebeten werden, die unbedingte Wahrscheinlichkeit zu schätzen,
dass das Taxi, das den Unfall verursacht hat, Blau gewesen
ist, die stadtweite Verteilung von grünen und blauen Taxis
beachten, die bestenfalls dann relevant ist, wenn die zu
entscheidende Frage ist, ob der Zeuge, der irgendwo ein Taxi gesehen
hat, nicht notwendigerweise in einen Unfall verwickelt, ein
blaues Taxi gesehen hat?
Für Cohen ist die
stadtweite Verteilung von grünen und blauen Taxis ein sehr
schwaches Fundament, um die relevante Häufigkeit zu schätzen.
Aber welches ist die „relevante Häufigkeit“? Gibt
es nur eine relevante Häufigkeit? Sicher ist „grüne
und blaue Taxis, die in Unfälle verwickelt waren“ eine
relevantere Häufigkeit als die stadtweite Verteilung grüner
und blauer Taxis, weil sie auf mehr Informationen beruht und
insbesondere die Neigung der verschiedenfarbigen Taxis, in Unfälle
verwickelt zu sein, berücksichtigt. Interessanterweise wird die
Basisrate der Taxis, die in Unfälle verwickelt sind, bei der
Lösung des Taxi-Problems von der Mehrheit der Versuchspersonen
beachtet, nicht aber die stadtweite Verteilung der Taxis an sich.
Es gibt selbstverständlich weitere Referenzklassen, die
noch mehr relevante Informationen berücksichtigen,
beispielsweise „Taxis, die nachts in Unfälle verwickelt
waren“ oder „Taxis, die nachts in diesem Stadtteil in
Unfälle verwickelt waren“, oder gar „Taxis, die
nachts in dieser Strasse in Unfälle verwickelt waren“.
Während diese Referenzklassen immer mehr Eigenschaften mit dem
zu beurteilenden Ereignis teilen und insofern die Umstände
des Einzelfalles besser berücksichtigen, werden sie auch immer
kleiner, weshalb die Verlässlichkeit der Häufigkeitsschätzung
abnimmt.
Die relevante Referenzklasse gibt es demnach nicht. Eine
spezifischere Häufigkeit reduziert die Unsicherheit zweiten
Grades (ob die relative Häufigkeit auch auf den Einzelfall
zutrifft), weil sie die Menge der Informationen reduziert, die die
Schätzung beeinflussen kann.
Andererseits erhöht sich die Gefahr, dass die beobachtete
Häufigkeit nicht dem Grenzwert der relativen Häufigkeit
entspricht, umso mehr, je kleiner die Stichprobe ist, in der die
Häufigkeit beobachtet wird. Paul
E. Meehl schlägt daher als Faustregel vor, als
beste Referenzklasse immer die kleinste Klasse zu berücksichtigen,
der das zu beurteilende Ereignis zugeordnet werden kann und
deren Anzahl Mitglieder gross genug ist, um verlässliche
Schätzungen der relativen Häufigkeit zu erlauben.
Was aber, wenn es keine Angaben darüber gibt, wie viele grüne
im Verhältnis zu blauen Taxis in nächtliche Unfälle
verwickelt waren? Darf man dann die bekannte, aber unspezifische
Referenzklasse „alle in der Stadt zugelassenen Taxis“
einfach ignorieren? Wenn das Ziel ist, ein möglichst genaues,
d.h. dem tatsächlich Vorgefallenen entsprechendes, Urteil zu
treffen, lautet die Antwort nein. Denn wenn man die stadtweite
Verteilung nicht beachtet, muss man – mangels anderer
Indizien – davon ausgehen, dass grüne und blaue Taxis
gleich häufig in Unfälle verwickelt sind und somit die
Anfangswahrscheinlichkeit, dass es sich um ein grünes Taxi
gehandelt hat, 0,5 beträgt. Die Häufigkeit von grünen
und blauen Taxis in der ganzen Stadt ist aber ein Indiz dafür,
dass dies nicht zutrifft. Wenn 85 % der Taxis in der Stadt blau
sind, ist die beste Schätzung – ohne zusätzliche
Informationen – dass auch 85 % der in nächtliche Unfälle
verwickelten Taxis blau sind.
Jede Abweichung von dieser Basisrate ist zu begründen –
die Gesellschaft mit den blauen Taxis könnte beispielsweise
mittels der Einsatzpläne ihrer Fahrer nachweisen, dass sie
nachts kaum Taxis in Betrieb hat, etc.
Darüber, ob eine Referenzklasse die richtige ist, d.h. ob deren
Randbedingungen auch auf den zu beurteilenden Fall zutreffen, lässt
sich trefflich streiten. Wenn man sich aber bewusst ist, warum
und worüber man streitet, kann man wenigstens die richtigen
Fragen stellen und die konkreten Randbedingungen der Referenzklasse,
die die Entscheidung begründen, werden transparent gemacht und
können diskutiert werden.
2.Geschätzte Anfangswahrscheinlichkeiten, oder „garbage
in, garbage out“?
Bei den obigen Ausführungen zur massgeblichen Referenzklasse
wurde vorausgesetzt, dass man die relativen Häufigkeiten in den
verschiedenen Referenzklassen kennt. In der Praxis wird man sich
aber häufig mit der Situation konfrontiert sehen, dass man die
relativen Häufigkeiten nicht kennt, weil keine Daten dazu
erhoben wurden. Der Richter kann daher nicht vermeiden, die
relativen Häufigkeiten zu schätzen, weil er – anders
als der Wissenschafter – mangels Daten nicht einfach auf ein
Urteil verzichten kann. Er ist gezwungen, auch dann zu
urteilen, wenn die empirische Datenbasis ungenügend ist.
Oft wird nun der Vorwurf erhoben, dass damit die ganze auf der
Wahrscheinlichkeitstheorie beruhende Beweislehre wertlos ist,
weil ihr Ausgangspunkt auf subjektiven, nicht empirisch erhärteten
Schätzungen beruht. Bender/Nack
bemerken dazu Folgendes:
Wenn man die Forderung aufstellt, dass der Richter die
drei Fragen der Fragen-Trias [es handelt sich um die vorne, S. ,
wiedergegebenen Fragen] stellen – und beantworten! –
muss, wird einem oft entgegengehalten, dass man über die
Häufigkeitsverteilungen in der Regel keine Aussagen– und
schon gar keine empirisch abgesicherten Aussagen – machen kann.
Nur: Deswegen werden die richtigen Fragen nicht falsch. Denn
allein das wäre die Alternative: Wenn man nichts über
Häufigkeiten weiss und sie noch nicht einmal abschätzen
kann, dann kann man logischerweise auch nicht entscheiden, ob
ein Indiz belastend ist oder nicht. Daran, dass man oft sehr wenig
über die Häufigkeitsverteilungen weiss, kann auch die
Beweislehre nichts ändern. Es führt aber kein Weg daran
vorbei, dass der Richter sich wenigstens auf Plausibilitätsniveau
Vorstellungen über Häufigkeitsverteilungen machen muss,
wenn er die Beweiskraft eines Indizes abschätzen will.
Musielak sieht das
ganz ähnlich:
Mögen Schätzungen der Wahrscheinlichkeit
aufgrund von Erfahrungssätzen des täglichen Lebens noch so
unzulänglich erscheinen, insbesondere wenn man sie mit den beim
forensischen Beweis die Ausnahme bildenden wissenschaftlich
fundierten Wahrscheinlichkeitsberechnungen mit mathematischer
Genauigkeit vergleicht, sie sind einer völlig unkontrollierten
Ermessensentscheidung auf jeden Fall vorzuziehen.
Empirische Studien belegen, dass die Zerlegung eines Beweisthemas in
einzelne Beweisfakten und die Abschätzung des abstrakten
Beweiswertes (Likelihood-Quotienten) von einzelnen Indizien die
Qualität der Entscheide selbst dann erhöht, wenn die
Likelihood-Quotienten ohne empirische Grundlage geschätzt
werden.
David A. Schum und
Anne W. Martin baten
ihre Versuchspersonen, die Zeugenaussagen in zwölf
erfundenen Straffällen auf ihren Beweiswert hin zu beurteilen.
In der gesamtheitlichen Bedingung (zero
task-decomposition, ZTD) wurden die
Versuchspersonen gebeten, nach der sorgfältigen
Lektüre aller vorhandenen Zeugenaussagen den abstrakten
Beweiswert aller Zeugenaussagen in ihrer Gesamtheit zu beurteilen,
d.h. anzugeben, ob die Aussagen wahrscheinlicher sind, wenn der
Angeklagte schuldig oder wenn er unschuldig ist. Eine Angabe von
„Guilt-10“
bedeutet beispielsweise, dass die Zeugenaussagen zehn Mal
wahrscheinlicher sind, wenn der Angeklagte schuldig ist, als wenn er
unschuldig ist.
In der teilweise aufgeschlüsselten Bedingung (partial
task-decomposition, PTD) wurden die
Versuchspersonen gebeten, die gleichen Likelihood-Quotienten wie in
der ZTD-Bedingung anzugeben, aber dieses Mal nicht für die
Gesamtheit aller Aussagen, sondern für jede Zeugenaussage
separat. Das Bayes-Theorem erlaubt es, diese Beurteilungen der
abstrakten Beweiskraft einzelner Zeugenaussagen zu einem
Likelihood-Quotienten der Beweiskraft der gesamten Aussagen zu
kombinieren.
In der komplett aufgeschlüsselten Bedingung (complete
task-decomposition, CTD) wurden die
Versuchspersonen gebeten, nicht nur jede Zeugenaussage für
sich, sondern einzelne Elemente jeder Zeugenaussage zu bewerten. Das
gesamte Beweismaterial wurde also in einzelne Aussagen zerlegt, die
dann je einzeln danach bewertet werden mussten, ob sie
wahrscheinlicher sind, wenn der Angeklagte unschuldig ist oder wenn
er schuldig ist. Beispielsweise wurden die Versuchspersonen gefragt,
(i) wie wahrscheinlich eine Zeugenaussage ist, wenn der
Angeklagte am Tatort und schuldig ist; (ii) wie
wahrscheinlich die Aussage ist, wenn er am Tatort und unschuldig
ist; u. s. w. Auch diese Likelihood-Quotienten lassen sich
wieder mittels des Bayes-Theorem zu einem einzigen
Likelihood-Quotienten für das gesamte Beweisergebnis
kombinieren – der Leser geht recht in der Annahme, dass
sowohl die Aufteilung der Zeugenaussagen in einzelne Elemente wie
auch die Rekombination mittels Bayes-Theorem ausserordentlich
komplex sind.
Schum/Martin haben die
von ihnen erhobenen Daten auf verschiedene Art und Weise
analysiert. Stark vereinfacht lassen sich ihre Ergebnisse wie
folgt zusammenfassen: je feiner die zu fällenden Urteile über
den Sachverhalt in einzelne Elemente aufgeteilt werden, desto
eher waren sich die Versuchspersonen über die Beurteilung der
Fälle einig.
D.h., je mehr den Versuchspersonen die Aufgabe der Aggregation und
Integration der Daten abgenommen wurde und sie im Gegenzug dafür
mehr Likelihood-Quotienten einzelner Aussageelemente abschätzen
mussten, desto eher stimmte ihre (durch das Modell errechnete)
Gesamtbeurteilung der Fälle überein. Wenn man davon
ausgeht, dass grössere Übereinstimmung in der Beurteilung
der Fälle ein Qualitätskriterium ist – d.h. wenn man
annimmt, dass ein Fall eher „richtig“ entschieden wurde,
wenn sich die meisten Urteiler über das Urteil einig sind –
lässt dies den Schluss zu, dass Menschen weniger mit der
Beurteilung einzelner Likelihood-Quotienten Mühe haben, sondern
vielmehr mit der Integration grosser Mengen von teilweise
widersprüchlichen Informationen. Diese Integration kann ihnen
das Bayes-Theorem abnehmen. Über Beurteilung der
Likelihood-Quotienten, die vom Bayes-Theorem als gegeben
vorausgesetzt werden, scheinen sich Menschen eher einig zu werden
als über die korrekte Integration der einzelnen Beweismittel zu
einem Gesamtbild.
Schum/Martin können
auch nachweisen, dass ihre Versuchspersonen bei einer
Gesamtbeurteilung von teilweise widersprüchlichen Aussagen,
Aussagen, die der ersten Aussage widersprachen, schlicht ignorieren
oder gar als Bestätigung der ersten Aussage auffassen.
Erst wenn die widersprüchliche Aussage in ihre einzelnen
Elemente aufgeteilt und diese beurteilt werden, zeigt der abstrakte
Beweiswert der zweiten, widersprüchlichen Aussage in die
entgegengesetzte Richtung der ersten Aussage. Schum/Martin
fanden also einen lokalen Primateffekt (primacy),
d.h. das zuerst gehörte Argument beeinflusste die
Interpretation späterer Argumente (mehr dazu hinten, S. ff.).
Andererseits wurden redundante Informationen in der ZTD-Bedingung
doppelt gewichtet, wodurch ihnen ein unzulässig hohes Gewicht
beigemessen wird,
was eine entsprechende Befürchtung von Lempert
bestätigt.
Redundante Indizien sind solche, deren Informationsgehalt ganz oder
teilweise in bereits berücksichtigten Indizien enthalten
ist.
Den Einfluss untereinander unabhängiger Indizien
auf die Wahrscheinlichkeit der Hypothese kann man einfach berechnen,
indem man die anfänglichen Chancen der Hypothese mit dem
Likelihood-Quotienten des Indizes multipliziert und das Ergebnis als
anfängliche Chance für die Multiplikation mit dem
Likelihood-Quotienten des nächsten Indizes verwendet.
Man wendet das Bayes-Theorem einfach mehrmals an und verwendet
jeweils das Resultat der vorangehenden Anwendung als
Anfangswahrscheinlichkeit für die nächste Anwendung.
Die Merkmalswahrscheinlichkeit zweier untereinander unabhängiger
Indizien ergibt sich aus der Produktregel:
P (I1
und I2)
= P (I1)
∙ P (I2) (18)
Die Anwendung der Produktregel ist aber unzulässig, wenn die
beiden Indizien untereinander abhängig sind, d.h. wenn die
Wahrscheinlichkeit, dass das zweite Indiz vorliegt, sich ändert,
wenn das erste Indiz feststeht. Bei abhängigen Indizien ist die
Merkmalswahrscheinlichkeit
P (I1
und I2)
= P (I1)
∙ P (I2 |
I1). (19)
Wenn P (I2 | I1) ≈ 1 verringert sich die
Merkmalswahrscheinlichkeit bei Vorliegen des zweiten Indizes
praktisch nicht mehr. Ein Beispiel von Bender/Nack
veranschaulicht diese Überlegung:
angenommen, es steht fest, dass der Täter grosse Hände
(I1) und Füsse (I2) hatte. Der
Verdächtige hat ebenfalls grosse Füsse, und man weiss,
dass derart grosse Füsse nur bei 10 % oder weniger der
Gesamtbevölkerung vorkommen. Das Indiz „grosse Füsse“
tritt daher bei der Annahme, dass der Verdächtige der Täter
ist, zehn Mal häufiger auf als bei der Annahme seiner Unschuld.
Der Verdächtige hat, wie der Täter, auch grosse Hände,
und man weiss, dass nur 5 % der Bevölkerung derart grosse Hände
haben. Wären die beiden Indizien unabhängig, könnte
man 0,1 ∙ 0,05 = 0,005 (0,5 %) rechnen; mit anderen Worten ist
die Wahrscheinlichkeit, dass die Indizienkombination bei Unschuld
des Täters vorkommt, 200 Mal geringer als die
Wahrscheinlichkeit, dass sie bei Schuld vorliegt.
Die Anwendung der Produktregel ist aber in diesem Fall
offensichtlich unzulässig, denn die Indizien „grosse
Füsse“ und „grosse Hände“ sind nicht
unabhängig; wer grosse Füsse hat, hat in der Regel auch
grosse Hände, und umgekehrt. Wenn nun 90 % der Menschen, die
grosse Füsse haben, auch grosse Hände haben, dann ist die
Wahrscheinlichkeit (I2 | I1) = 0,9. Die
Merkmalswahrscheinlichkeit von 0,1, die sich aus dem Indiz „grosse
Füsse“ ergibt, verringert sich daher nur auf 0,1 ∙
0,9 = 0,09 (von 10 % auf 9 %), wenn der Verdächtige auch
grosse Hände hat.
Abhängige Indizien sollten daher zu „Indizienfamilien“
zusammengefasst werden, deren Merkmalswahrscheinlichkeit gesamthaft
beurteilt wird.
Die Abhängigkeit zweier Indizien ist aber nicht immer so
offensichtlich wie im obigen Beispiel mit den Händen und
Füssen und wird bei der „Gesamtwürdigung“ der
Beweise häufig übersehen, wie Ergebnisse von Schum/Martin
belegen.
Schnell passiert es, dass man Indizien, die die
Anfangswahrscheinlichkeit begründet und zur Verhaftung des
Verdächtigen geführt haben, bei der Beweiswürdigung
nochmals berücksichtigt.
Wenn die Polizei Falschgeld findet, dass sehr ähnlich ist wie
dasjenige, das ein bekannter, vorbestrafter Fälscher
jeweils herstellte, hat sie guten Grund, dem Mann einen Besuch
abzustatten, denn es besteht ein begründeter
Anfangsverdacht. Angenommen es finden sich keine weiteren Indizien
für eine Täterschaft des Verdächtigen, aber der
Staatsanwalt erhebt trotzdem Anklage. Aufgrund der Vorstrafe des
Verdächtigen und des Falschgelds, das seine „Handschrift“
trägt, darf das Gericht vielleicht von einer
Anfangswahrscheinlichkeit von 0,1 ausgehen, dass der Verdächtige
schuldig ist. Es darf dann aber einen Schuldspruch nicht damit
begründen, dass die Wahrscheinlichkeit, dass die Ähnlichkeit
der Noten vorliegt, 100 Mal grösser ist, wenn der
Angeklagte schuldig ist als wenn er unschuldig ist, woraus sich bei
einer Anfangswahrscheinlichkeit von 0,1 eine Wahrscheinlichkeit der
Schuld von 0,92 (92 %) ergibt, was möglicherweise für
einen Schuldspruch genügen würde. Da die Ähnlichkeit
der Noten bereits berücksichtigt wurde, um die
Anfangswahrscheinlichkeit zu begründen, ist es unzulässig,
sie nochmals zu berücksichtigen. Bei der Gesamtwürdigung
der Beweismittel geschehen aber genau solche Fehler offenbar häufig.
Die Studien von Schum/Martin
lassen daher den Schluss zu, dass die Qualität richterlicher
Urteile auch dann verbessert werden kann, wenn die
Likelihood-Quotienten für die einzelnen Beweiselemente ohne
empirische Basis geschätzt werden, aber die Integration
der Information der Regel Bayes’ folgt.
F.Dogmatische Erkenntnisse
Die wahrscheinlichkeitstheoretische Analyse der Beweiswürdigung
hat auch unabhängig davon, dass sie Fehler zu vermeiden
hilft, Vorteile für die dogmatische Durchdringung des
Beweisrechts. Welches Beweismass gefordert ist, was
„Unschuldsvermutung“ eigentlich bedeutet und wann ein
Beweismittel „erheblich“ im Sinne des Gesetzes (§
133 ZPO-ZH u.a.) ist, lässt sich klarer analysieren, wenn man
sich der Strukturen der Wahrscheinlichkeitstheorie bedient.
Was bedeutet beispielsweise die in der schweizerischen Literatur
herrschende Umschreibung des vollen Beweismasses, dass ein
Sachverhalt „mit an Sicherheit grenzender
Wahrscheinlichkeit“
erstellt sein muss, damit der Richter von seiner Richtigkeit
überzeugt sein darf? Wird die erforderliche Gewissheit nicht
numerisch in einer subjektiven Wahrscheinlichkeit ausgedrückt,
ist es möglich, dass zwei Personen zwar meinen, vom gleichen zu
reden, aber eigentlich ein ganz anderes Verständnis vom
verlangten Beweismass haben.
Dass diese Befürchtung nicht nur theoretischer Natur ist,
zeigen zahlreiche amerikanische Studien, in denen Richter,
Studenten und Normalbürger den Begriffen „preponderance
of the evidence“ und „beyond
reasonable doubt“ sehr unterschiedliche
Bedeutungen zumassen (siehe , siehe Gräns,
FN , 187 f. für weitere Studien auch aus Skandinavien).
|
Direkte
Abfrage des numerischen Wahrscheinlichkeitswerts
|
|
Study
|
Subjects
|
Preponderance
of evidence
|
Beyond reasonable doubt
|
|
Simon
(1969)
|
Judges
|
.61
|
.89
|
|
Simon
& Mahan (1971)
|
Citizens
|
.77
|
.79
|
|
|
Students
|
.76
|
.89
|
|
Davis
(1976)
|
Students
|
|
|
|
Stringent criterion
instruction
|
|
-
|
.87
|
|
Lax criterion instruction
|
|
-
|
.82
|
|
Undefined criterion
instruction
|
|
-
|
.82
|
|
US
v. Fatico (1978, Weinstein memorandum)
|
Judges
|
.51
|
.86
|
|
Kassin
& Wrightsman (1979)
|
Students
|
-
|
.87
|
|
McCauliff
(1982) (also "Clear and convincing".75)
|
Judges
|
.55
|
.90
|
|
Hastie,
Penrod, & Pennington (1983)
|
Citizens
|
-
|
.92
|
|
Cowan,
Thompson, & Ellsworth (1984)
|
Citizens
|
-
|
.86
|
|
MacCoun
(1984)
|
Students
|
|
|
|
Continuous scale
|
|
.68
|
.67
|
|
Interval (0, 1, ..., 10)
scale
|
|
.68
|
.69
|
|
Odds ratio scale
|
|
.49
|
.51
|
|
Dane
(1985)
|
Students
|
-
|
.66
|
|
Kerr,
Bull, MacCoun, & Rathbum (1985)
|
Students
|
-
|
.79
|
|
Kagehiro
(1986)
|
Students
|
.82
|
.91
|
|
Martin
& Schum (1987) Odds ratio scale
|
Students
|
|
.91
|
|
MacCoun
& Kerr (1988) (reported in MacCoun, 1987)
|
Students
|
-
|
.87
|
|
|
Citizens
|
-
|
.83
|
|
|
Students
|
.69
|
.81
|
|
Kagehiro
(1990)
|
Students
|
-
|
.81-.91
|
Tabelle
11: mathematische Bedeutung unterschiedlicher Beweismasse
Noch interessanter sind Studien, in denen die entsprechenden Werte
indirekt erhoben wurden. Rita
James Simon hat zwei unabhängige Gruppen von
Studenten gebeten, nach der Anhörung der Plädoyers in
einem Straffall ihr Urteil über die Schuld des Angeklagten
abzugeben. Das verlangte Beweismass war „guilty
beyond reasonable doubt“; die
Versuchspersonen in der einen Gruppe wurden gebeten, anzugeben,
ob der Angeklagte schuldig im Sinne der Anklage sei oder nicht.
Die Versuchspersonen der anderen Gruppe wurden gebeten, die
Wahrscheinlichkeit anzugeben, dass der Angeklagte sich so verhalten
hat, wie die Anklage ihm vorwirft. Die Wahrscheinlichkeitswertungen
wurden der Grösse nach geordnet und die dem Kriterium „guilty
beyond reasonable doubt“ entsprechende
Wahrscheinlichkeit ermittelt, indem die
Wahrscheinlichkeitswertungen um die Anzahl der Schuldsprüche in
der anderen Gruppe heruntergezählt wurden. Der so erhaltene
Wert lag bei 0,7, also erheblich tiefer als bei der direkten
Abfrage.
Die Resultate von Simon
konnten von MacCoun
(0,56), Dane (0,72) und
zahlreichen weiteren (siehe ) repliziert werden.
|
Indirekte
Abfrage des numerischen Wahrscheinlichkeitswerts
|
|
Study
|
Subjects
|
Preponderance
of evidence
|
Beyond
reasonable doubt
|
|
Nagel,
Lamm, & Neef (1981)
|
Students
|
-
|
.55
|
|
Nagel
(1979)
|
|
|
|
|
No instruction
|
Students
|
-
|
.60
|
|
Beyond reasonable doubt
instruction
|
|
-
|
.68
|
|
.90 probability instruction
|
|
-
|
.80
|
|
"10-to-l
Blackstone error ratio" instruction
|
|
-
|
.90
|
|
MacCoun
(1984)
|
Students
|
.52
|
.56
|
|
MacCoun
(1994) ('Blackstone ratio")
|
Students
|
.48
|
.51
|
|
Thompson,
Cowan, Ellsworth & Harrington (1984)
|
Citizens
|
|
|
|
Prodeath penalty citizens
|
|
-
|
.50
|
|
Antideath penalty citizens
|
|
-
|
.58
|
|
Dane
(1985)
|
Students
|
-
|
.52
|
|
MacCoun
& Kerr (reported in MacCoun,
1987)
|
Citizens
|
-
|
.55
|
|
|
Students
|
-
|
.52
|
|
|
Students
|
.52
|
.54
|
|
MacCoun
& Tyler (reported in
MacCoun, 1987)
|
Citizens
|
-
|
.54
|
|
|
Students
|
-
|
.51
|
Tabelle
12: Numerische Wahrscheinlichkeitswerte bei indirekter Abfrage
(parallel counting)
Diese Ergebnisse lassen nur den Schluss zu, dass Formulierungen wie
„mit an Sicherheit grenzender Wahrscheinlichkeit“ von
verschiedenen Personen gänzlich unterschiedlich verstanden
werden und schon deshalb kein geeignetes Kriterium zur Festlegung
des Beweismasses sind. Die Resultate der Studien mit indirekten
Abfragemethoden bestätigen zudem den subjektiven Eindruck, dass
es für eine Verurteilung häufig weniger braucht, als man
gemeinhin annimmt – und insbesondere auch weniger, als die
urteilenden Personen auf direkte Nachfrage hin zuzugeben bereit
wären.
Was bedeutet es, dass jede Person, die einer Straftat angeklagt ist,
bis zum gesetzlichen Beweis ihrer Schuld als unschuldig gilt
(Art. 6 Ziff. 2 EMRK)? Wird damit nur die Beweislastverteilung
geregelt?
Oder wird damit auch etwas über die zulässige
Anfangswahrscheinlichkeit gesagt, die der Richter seiner
Beweiswürdigung zu Grunde legen darf? Darf die Richterin mit
anderen Worten von einer Anfangswahrscheinlichkeit der Schuld des
Angeklagten von 0,9 ausgehen, wenn sie weiss – wie es
empirisch zweifellos zutrifft – dass 90 % aller Anklagen
in einem Schuldspruch enden?
Sagt die Unschuldsvermutung möglicherweise auch etwas über
die Anfangswahrscheinlichkeit, die ein Gericht der Schuld des
Angeklagten beimessen darf? Darf man den Kreis der möglichen
Täter durch das Indiz des Anfangsverdachts eingrenzen, d.h.
darf man davon ausgehen, dass der Angeklagte durch das Los aus dem
Kreis aller Personen, auf die der Anfangsverdacht zutreffen
kann, bestimmt wurde?
Oder muss das Gericht vor Beginn der Beweiswürdigung von
einer Chance der Schuld von 1 zur Gesamtbevölkerung ausgehen,
um den Angeklagten nicht für schuldiger als jeden anderen zu
halten; m. a. W. muss das Gericht den Angeklagten so behandeln, als
wäre er zufällig per Los zum Angeklagten bestimmt worden
(wobei die gesamte Bevölkerung an der Verlosung teilgenommen
hat)?
Wenn ausschliesslich die Richtigkeit des Urteils das massgebliche
Kriterium ist, weckt diese Betrachtungsweise allerdings Bedenken –
es werden möglicherweise zu viele Angeklagte freigesprochen.
Oder sind diese Überlegungen ohnehin verfehlt, weil man aus dem
Sollen, das das Recht vorschreibt, kein Sein der tatsächlichen
Anfangswahrscheinlichkeit ableiten darf?
Diese Fragen können hier nicht vertieft werden. Sie zeigen
aber, welchen Erkenntnisgewinn die Anwendung der
Wahrscheinlichkeitstheorie auf die Beweiswürdigung bieten kann;
ganz abgesehen davon, dass sie die Urteilsqualität verbessern
kann.
V.Eigene Studie zur Repräsentativitätsheuristik
A.Frage zur Repräsentativitätsheuristik
Den Richtern der Zivil- und Strafgerichte der Kantone Aargau, St.
Gallen und Zürich wurde folgender Sachverhalt zur Beurteilung
vorgelegt (2003):
Nachdem auch ohne Anlass Alkoholtests durchgeführt
werden dürfen, lässt die Kantonspolizei Zürich alle
Autofahrer, die eine Kontrollstelle am Stadtrand von Zürich
passieren, ins Teströhrchen blasen. Erfahrungsgemäss
ist einer von hundert getesteten Autofahrern betrunken.
Dieser Alcotest zeigt nicht ganz zuverlässig an, ob
ein Autofahrer mehr als die zulässige Blutalkoholkonzentration
aufweist. Es kommt vor, dass ein alkoholisierter Autofahrer nicht
erwischt wird, weil sich das Röhrchen (leider) nicht verfärbt.
Bedauerlicherweise verfärbt sich das Röhrchen aber auch
gelegentlich bei nüchternen Autofahrern.
Angenommen, einer von den vielen kontrollierten
Autofahrern bläst ins Röhrchen, und dieses verfärbt
sich.
Wie hoch ist die Wahrscheinlichkeit, dass die Polizei
einen Blaufahrer erwischt hat?
Der Sachverhalt entspricht einem Beispiel von Bender/Nack,
ergänzt um die Anfangswahrscheinlichkeit
(„Erfahrungsgemäss ist einer von hundert getesteten
Autofahrern betrunken“). Die Richter hatten vier
Antwortmöglichkeiten (0-25 %, 26-50 %, 51-75 %, 76-100 %) und
wurden gebeten, einen Prozentbereich zu wählen.
Die bedingte Wahrscheinlichkeit, dass der Test verfärbt, wenn
der Autofahrer betrunken ist, beträgt 0,95. Die
Anfangswahrscheinlichkeit, dass der Autofahrer betrunken ist,
beträgt 0,01. Die bedingte Wahrscheinlichkeit, dass der Test
positiv anzeigt, wenn der Autofahrer nüchtern ist, beträgt
0,05. Die bedingte Wahrscheinlichkeit, dass der Autofahrer betrunken
ist, wenn der Test verfärbt beträgt daher (0,95 ∙
0,01) / ((0,95 ∙ 0,01) + (0,05 ∙ 0,99) = 0,16 oder 16 %.
Die Hypothese ist, dass die Richter sehr viel häufiger die
Antwort „76-100 %“ als die korrekte Antwort „0-25
%“ geben, da erstere die Antwort ist, die bei Verwechslung der
bedingten Wahrscheinlichkeiten P(Test pos. | betrunken) = 0,95
und P(betrunken | Test pos.) = 0,16 zu erwarten ist.
B.Resultate
173 der 181 Richter, die den Fragebogen zurückschickten,
beantworteten die Frage nach der Belastungswahrscheinlichkeit. 8,8 %
(16) beantworteten die Frage richtig, indem sie 0-25 % wählten,
10,5 % (19) kreuzten 26-50 % an, 7,7% (14) wählten 51-75 % und
68,5 % (124) entschieden sich 76-100 %. Viele Richter gaben daher
die Antwort, die bei der Verwechslung der bedingten
Wahrscheinlichkeiten zu erwarten ist.
Die Richter schnitten damit besser ab als die Ärzte in der
Studie von David M. Eddy,
die zu 95 % den Fehler begingen, die bedingten Wahrscheinlichkeiten
zu verwechseln.
Verglichen mit den amerikanischen Richtern in der Studie von
Guthrie/Rachlinski/Wistrich
schnitten die schweizerischen Richter etwas schlechter
ab. 40 % der
amerikanischen Richter beantworteten die Frage richtig, ebenfalls 40
% gaben eine Antwort, die auf die Verwechslung der bedingten
Wahrscheinlichkeiten hindeutet.
Drei der Richter, die die Frage richtig beantworteten, zeichneten
einen Häufigkeitsbaum nach und bewiesen damit, dass sie das
Problem erkannt und verstanden hatten.
C.Diskussion
Die Resultate zeigen, dass eine grosse Mehrheit der befragten
Richterinnen die (geringe) Anfangswahrscheinlichkeit nicht
genügend gewichteten und – sei es als Folge davon oder
aufgrund der semantischen Ähnlichkeit der inversen
Wahrscheinlichkeiten – die bedingten Wahrscheinlichkeiten
P(Test pos. | betrunken) und P(betrunken | Test pos.) verwechselten.
Nicht völlig ausgeschlossen werden kann, dass einige der
Richter unbewusst eine höhere Anfangswahrscheinlichkeit
annahmen. Obwohl die Aufgabenstellung klar stellt, dass die Polizei
die Alkoholproben ohne Anlass durchführte, haben die Richter
ihrer Entscheidung möglicherweise das 2003 geltende Recht
zugrunde gelegt, das Alkoholproben nur bei Anzeichen von
Angetrunkenheit zuliess.
„Anzeichen von Angetrunkenheit“ kann geradezu als
Umschreibung für erhöhte Anfangswahrscheinlichkeit
verstanden werden. Bereits bei einer Anfangswahrscheinlichkeit von
20 % erhöht sich die Belastungswahrscheinlichkeit bei
positivem Atemalkoholtest auf über 76 %.
Das etwas bessere Abschneiden der amerikanischen Richter kann
möglicherweise dadurch erklärt werden, dass an
amerikanischen Rechtsfakultäten schon seit den späten
siebziger, frühen achtziger Jahren die Anwendung des
Bayes-Theorems in der Beweiswürdigung gelehrt wird. Die
Generation der Richter, die befragt wurde, war sich daher der
Bedeutung der Anfangswahrscheinlichkeit möglicherweise
bewusster als der durchschnittliche schweizerische Richter, der im
Rahmen seiner Ausbildung kaum mit dem Bayes-Theorem konfrontiert
wird.
An der Repräsentation der Basisrate in natürlichen
Häufigkeiten oder Wahrscheinlichkeiten – die
bekanntlich einen Einfluss auf die korrekte Integration der
Anfangswahrscheinlichkeit haben kann – kann es auf jeden
Fall nicht gelegen haben. Es wurde darauf geachtet, dass die
Repräsentation der Information derjenigen bei
Guthrie/Rachlinski/Wistrich
entsprach, nämlich natürliche Häufigkeit
bei der base rate
(„einer von hundert“) und Prozentzahlen bei den
bedingten Wahrscheinlichkeiten P(Test pos. | betrunken) und
P(betrunken | Test pos.).
VI.Wie kann man Fehler des repräsentativen Denkens vermeiden?
A.Gutachter sollten nie die Belastungswahrscheinlichkeit angeben
Gerichtsgutachter in der Schweiz, die sich zur Wahrscheinlichkeit
äussern, dass eine bestimmte Spur – sei es eine Faser,
Glas oder DNA-Spur – dem Angeschuldigten zugeordnet
werden kann, äussern sich oft zur Belastungswahrscheinlichkeit
(„die Wahrscheinlichkeit der Vaterschaft nach
Essen-Möller ist
sehr viel grösser als 99,99 %. Die Bewertung nach Hummel
daher: Vaterschaft praktisch erwiesen“).
Aussagen zur Belastungswahrscheinlichkeit setzen aber wie gesagt
Annahmen über die Anfangswahrscheinlichkeit voraus. Der
Gutachter kann diese Annahmen in der Regel nicht treffen, weil er
nicht den gesamten Sachverhalt kennt.
Gutachter rechnen daher häufig mit einer „neutralen“
Anfangswahrscheinlichkeit von 50 %;
diese Anfangswahrscheinlichkeit setzt auch die Formel nach
Essen-Möller
voraus.
Die „neutrale“ Anfangswahrscheinlichkeit von 50 % wirkt
sich aber häufig stark zu Lasten des Angeschuldigten aus. Bei
einem Abstammungsgutachten mag sie, in Anbetracht der
Ausschlussleistung moderner DNA-Gutachten (insbesondere, wenn die
Proben, wie bei Vaterschaftsgutachten, gut sind), angemessen sein.
Die Mutter des Kindes wird während der möglichen
Empfängniszeit, die relativ klar eingegrenzt werden kann, nicht
mit einer beliebigen Vielzahl von Männern geschlafen haben. Die
Anfangswahrscheinlichkeit ist daher bereits relativ gross, wenn man
weiss, dass der mögliche Vater einer der Männer ist, die
zum Empfängniszeitpunkt Geschlechtsverkehr mit der Mutter
hatten.
Anders liegt der Fall aber bei Spuren, die am Tatort eines
Verbrechens gesichert werden. Der Kreis der möglichen Täter
ist dort erst einmal sehr gross, so dass man nicht einfach von einer
Wahrscheinlichkeit von 50 %, dass der Verdächtige der Täter
ist, ausgehen darf.
Der Gutachter sollte daher richtigerweise nur die
Merkmalswahrscheinlichkeit angeben, d.h. die Häufigkeit, mit
der ein bestimmtes Merkmal in der Gesamtbevölkerung vorkommt.
Wenn der Gutachter in solchen Fällen die
Belastungswahrscheinlichkeit – Bär
spricht von „Identitätswahrscheinlichkeit“
– angibt, wird der Richter auf den Holzweg geführt. Die
ohnehin schon bestehende Gefahr, dass die Anfangswahrscheinlichkeit
vernachlässigt wird, steigert sich praktisch zur Gewissheit, da
der Richter kaum die Berechnungen des Gutachters nachprüfen und
feststellen wird, dass diese von einer Anfangswahrscheinlichkeit
von 50 % ausgegangen ist.
Bär rechtfertigt
die Annahme einer Anfangswahrscheinlichkeit von 50 % mit der
folgenden Überlegung:
Bei diesem Ansatz [Berechnung nach Essen-Möller]
geht – stillschweigend – ein neutrales a-priori (0,5) mit
ein, d.h. man geht von der fiktiven Annahme aus, dass in jedem
zweiten (!) Fall tatsächlich Identität vorläge. In
Wirklichkeit überwiegen aber die Fälle mit Identität
diejenigen mit Nichtidentität. Mit Bestimmtheit gilt dies bei
Berücksichtigung der extrem hohen Ausschlussleistung der
DNA-Analyse, da die Nichtverursacher der Spur ja durch Ausschluss
„abgereichert“ werden.
Diese Argumentation ist nicht schlüssig, und Bär
ist zwischenzeitlich auch von ihr abgerückt.
Bär hält
selber fest, dass der Gutachter die tatsächliche
Anfangswahrscheinlichkeit nicht kennen kann.
Der Gutachter kann daher auch nicht wissen, dass die Fälle mit
Identität überwiegen, die Anfangswahrscheinlichkeit also
über 0,5 liegt. Die Argumentation von Bär,
dass sich die hohe Anfangswahrscheinlichkeit daraus ergebe, dass ein
Grossteil der Bevölkerung durch die DNA-Analyse als
Spurenverursacher ausgeschlossen werden kann („extrem hohe
Ausschlussleistung der DNA-Analyse“), beruht auf einem
Versehen. Das Argument von Bär
berücksichtigt die Merkmalswahrscheinlichkeit zwei Mal;
einerseits, um die Anfangswahrscheinlichkeit festzulegen, und dann
nochmals, um den – durch die Berücksichtigung der
Merkmalswahrscheinlichkeit bereits stark verkleinerten Kreis
der Verdächtigen – weiter einzugrenzen.
Ein Beispiel mag veranschaulichen, was passiert. Angenommen, als
Täter kommen alle Männer in der Schweiz zwischen 20
und 64 in Frage, also rund 2,3 Millionen Menschen.
Am Tatort wird ein Haar gefunden, das nicht dem Opfer gehört.
Eine DNA-Analyse des Haares ergibt einen „genetischen
Fingerabdruck“, der nur bei 0,1 Promille der männlichen
Bevölkerung vorkommt. Die DNA eines zufällig aus der
Gesamtheit der Männer in der Schweiz ausgewählten Mannes
stimmt also mit einer Wahrscheinlichkeit von 0,0001 mit der am
Tatort gefundenen DNA-Spur überein.
Wie gross ist die Wahrscheinlichkeit, dass ein x-beliebiger Mann der
Täter ist? Die Chance beträgt rund 1:2,3 Millionen. Wie
gross ist die Chance, dass ein Mann der Täter ist, wenn sein
genetischer Fingerabdruck mit dem am Tatort gefundenen
übereinstimmt? Nach dem Bayes-Theorem in seiner Chancen-Form
P (Täter | DNA matches) P(Täter) P (DNA matches | Täter)
──────────────
= ────── ∙ ───────────────
(20)
P(¬Täter | DNA matches ) P (¬Täter) P (DNA
matches | ¬Täter)
numerisch (1/2'300'000) / (2'300’000/2'300'001) x 1/0,0001 ≈
1: 230.
Die Wahrscheinlichkeit, dass ein zufällig ausgewählter
Mann, dessen DNA mit der Tatortspur übereinstimmt, der
Spurengeber ist, beträgt also rund 0,004.
Mit anderen Worten hat sich die Chance von 1:2,3 Millionen
verringert auf 1:230. Dies ist die – in der Tat beachtliche –
„Ausschlussleistung“ des DNA-Fingerabdrucks: 99,99 % der
männlichen Bevölkerung scheiden als Täter aus, weil
ihre Allele keine identische DNA-Sequenz aufweisen. Bär
will nun diesen durch die Ausschlussleistung „abgereicherten“
Pool als Anfangswahrscheinlichkeit festlegen und die Übereinstimmung
des DNA-Fingerabdrucks erneut berücksichtigen, um den Pool
weiter zu verringern. Im Beispiel käme man damit auf eine
Chance von 10'000:230, dass es sich bei dem zufällig
ausgewählten Mann, dessen DNA-Fingerabdruck mit demjenigen der
Tatortspur übereinstimmt, um den Täter handelt (was einer
Belastungswahrscheinlichkeit von rund 98% entspricht und
möglicherweise zur Verurteilung eines Mannes führt,
der in Wirklichkeit nur mit einer Wahrscheinlichkeit von
weniger als einem halben Prozent der Täter ist). Bär
berücksichtigt das den Anfangsverdacht begründende Indiz
zwei Mal, wovor Bender/Nack
zu Recht warnen.
Bär hat in einem
1995 publizierten Aufsatz noch bedauert, dass sich die Angabe von
Identitätswahrscheinlichkeiten international in der
forensischen Spurenkunde noch nicht durchgesetzt hat.
Inzwischen vertritt auch er die Meinung, dass die Angabe der
Belastungswahrscheinlichkeit Gerichte leicht in die Irre führen
kann.
Taroni, Mangin und Bär
plädieren in einem 1999 in der Schweizerischen Zeitschrift für
Strafrecht veröffentlichten „Brief an die
Rechtsprechenden“ dafür, dass Sachverständige nicht
ausschliesslich die Merkmalswahrscheinlichkeit angeben sollten. Die
Merkmalswahrscheinlichkeit beantworte im Prinzip die Frage des
Gerichts nicht und stifte Verwirrung; sie weisen insbesondere
darauf hin, dass Ankläger und Verteidiger die
Merkmalswahrscheinlichkeit für irreführende Argumente
verwenden können.
Taroni et al.
plädieren dafür, dass der Gutachter den
Likelihood-Quotienten, die abstrakte Beweiskraft, der Spur (sei es
nun eine Faser, DNA oder andere Spur) angibt.
Grundsätzlich kann ich mich diesem Vorschlag nur anschliessen;
er ist definitiv eine Verbesserung gegenüber dem Status quo. Um
den Zähler des Likelihood-Quotienten zu berechnen, d.h. die
Wahrscheinlichkeit, dass die Spur übereinstimmt, wenn der
Verdächtige der Täter ist (P (I | Schuldig)), muss
der Sachverständige die Wahrscheinlichkeit abschätzen,
mit welcher diese Spur vom Spurengeber am Tatort zurückgelassen
worden ist, wenn er der Täter ist. Dazu muss der
Sachverständige beispielsweise wissen, ob der Verdächtige
Zugang zum Tatort hatte, ohne dass ihn dies belasten würde, wie
heftig die Aggression war, die zur Spur führte oder wie
viel Zeit verstrich zwischen der Tat und der Sicherung der Spur.
Um den Nenner des Likelihood-Quotienten zu berechnen (P (I |
Unschuldig)), muss der Gutachter neben der Häufigkeit des
DNA-Profils in der Gruppe der möglichen Aggressoren auch die
Häufigkeit des Auftretens von Spuren dieser Art am Tatort, aber
ohne Bezug zur Tat, kennen.
Nimmt man den Vorschlag der Angabe des Likelihood-Quotienten ernst,
so übernimmt der Sachverständige daher einen Grossteil der
Beweiswürdigung. Die Frage, ob Spuren der gefundenen Art am
Tatort auch ohne Bezug zur Tat vorgefunden werden können, lässt
sich beispielsweise nicht beantworten, ohne dass man die Aussagen
des Verdächtigen kennt. Der Vorschlag von Taroni/Mangin/Bär
bedingt daher, dass der Gutachter das gesamte oder annähernd
das gesamte Untersuchungsergebnis kennt. Meines Erachtens ist es
zweifelhaft, ob es (i) effizient ist, wenn der Gutachter diesen
Aufwand betreiben muss und (ii) sich mit der Aufgabenteilung
zwischen Gericht und Sachverständigen vereinbaren lässt.
Es besteht die Gefahr, dass damit die Beweiswürdigung delegiert
wird, was aus prozessrechtlichen Gründen bedenklich ist.
Genauso wenig, wie sich ein Gutachter zu Rechtsfragen äussern
soll (BGE 125 II 541, 549), sollte er dem Gericht die Aufgabe der
Beweiswürdigung abnehmen. Der Gutachter muss der Richterin
das Beweismittel, d.h. die Merkmalswahrscheinlichkeit, liefern.
Die Würdigung dieses Beweismittels ist die ureigene Aufgabe der
Richterin.
Gibt der Sachverständige gemäss dem Vorschlag von
Taroni/Mangin/Bär
einen Likelihood-Quotienten an, so muss er auf jeden Fall begründen,
wie er zu den Wahrscheinlichkeiten in Nenner und Zähler
gelangt ist. Diese Begründung wird in komplexen Fällen
schnell einmal Ähnlichkeiten mit der Begründung der Schuld
in einem gerichtlichen Urteil haben, was die Überlegung stützt,
dass der Gutachter damit Aufgaben des Gerichts übernimmt.
B.Statistische Informationen sollten in natürlichen
Häufigkeiten präsentiert werden
Gutachter präsentieren die Merkmalswahrscheinlichkeit oft in
der Form der bedingten Wahrscheinlichkeit P(Übereinstimmung
| Unschuldig); d.h. sie geben an, mit welcher Wahrscheinlichkeit
eine Übereinstimmung vorliegt, wenn der Verdächtige
unschuldig ist.
Für das Gericht wichtiger aber ist die Wahrscheinlichkeit, dass
der Angeklagte unschuldig ist, obwohl die Spur übereinstimmt,
also P(Unschuldig | Übereinstimmung).
Bei der Präsentation von statistischen Daten in der Form von
bedingten Wahrscheinlichkeiten besteht wie erwähnt die
Gefahr, dass die beiden – semantisch ähnlichen –
bedingten Wahrscheinlichkeiten verwechselt werden (inverse
fallacy).
Diese Gefahr lässt sich reduzieren, wenn die statistischen
Informationen nicht in der Form von Wahrscheinlichkeiten oder
Prozentwerten präsentiert werden, sondern in der Form
natürlicher Häufigkeiten (z.B. „3 von 20 Taxis
gehören der Gesellschaft B“ statt „15 % der Taxis
gehören der Gesellschaft B“).
Die Lösung der „Alkotest-Frage“ in der Form, wie
sie von Gigerenzer und
Kollegen vorgeschlagen wird, zeigt, wie viel einfacher es wird,
die richtigen Schlüsse aus den statistischen Angaben zu
ziehen, wenn diese in der Form von natürlichen Häufigkeiten
angegeben werden.
Bei der Angabe der natürlichen Häufigkeiten lassen sich
einfach Häufigkeitsbäume gemäss der zeichnen, die
den Zusammenhang zwischen Anfangswahrscheinlichkeiten, falsch
positiven Resultaten und Belastungswahrscheinlichkeit
unmittelbar klar machen.
Von 10'000 kontrollierten Fahrern sind 100 (1 %) betrunken. Bei 95
davon ist der Alkoholtest positiv. Bei 5 %, oder 495, der 9'900
nüchternen Fahrer ist der Test aber ebenfalls positiv. Der
Anteil betrunkener Fahrer an der Gesamtzahl der positiv getesteten
Fahrer ergibt sich, wenn man die Anzahl richtig positiver
Testresultate durch die Anzahl richtiger positiver und falsch
positiver Testresultate teilt. Entscheidend sind also letztlich nur
die Zahlen in den fett umrandeten Boxen. Die Gefahr von
Trugschlüssen lässt es angezeigt erscheinen, insbesondere
statistische Informationen in Häufigkeiten darzustellen.

Abbildung
10: Häufigkeitsbaum des Alkotest-Problems
Lindsey et al. haben
in einem Experiment mit 127 Jurastudierenden und 27
wissenschaftlichen Angestellten der juristischen Fakultät
der Freien Universität Berlin empirisch untersucht, wie
sich die unterschiedliche Darstellung der statistischen Information
in einem DNA-Gutachten auf die Beurteilung der Schuld des
Angeklagten auswirkt.
Jeder Teilnehmer der Studie erhielt detaillierte
Fallbeschreibungen zweier Mordfälle, die jeweils ein
DNA-Gutachten umfassten. Die Juristen hatten eine Stunde Zeit, sich
in die zwei Fälle einzulesen, und sollten danach verschiedene
Fragen zu den DNA-Gutachten beantworten (z.B. „Mit welcher
Wahrscheinlichkeit ist der Angeklagte der Verursacher der am Tatort
sichergestellten DNA-Spur?“). Auf Grundlage der verfügbaren
Beweismittel (im Wesentlichen nur das DNA-Gutachten) sollten
die Versuchspersonen anschliessend ihr Urteil über Schuld oder
Unschuld des Angeklagten abgeben.
Wurden die Informationen in Wahrscheinlichkeiten dargestellt,
konnten nur ca. 8 % der Versuchspersonen die gefragten
Wahrscheinlichkeiten korrekt angeben, gegenüber 40 % richtigen
Antworten bei der Darstellung in natürlichen Häufigkeiten.
Die wissenschaftlichen Mitarbeiter schnitten klar besser ab als
die Studierenden; rund 70 % von ihnen gaben bei der Darstellung der
Information in natürlichen Häufigkeiten die korrekte
Antwort.
Monetäre Anreize, d.h. ein Geldpreis für die richtige
Antwort, hatten dabei keinen Einfluss auf die Anzahl der richtigen
Antworten auf die Fragen nach der Wahrscheinlichkeit.
Die natürlichen Häufigkeiten beeinflussten auch das Urteil
über die Schuld: bei der Darstellung in Wahrscheinlichkeiten
waren mehr als die Hälfte (55 %) der Versuchspersonen von der
Schuld des Angeklagten überzeugt,
bei der Darstellung in natürlichen Häufigkeiten bei
ansonsten gleicher Sachlage nur 33 %.
Gutachter sollten ihre Angaben zur Merkmalswahrscheinlichkeit in
DNA-, Faser- und ähnlichen Gutachten daher in der Form von
natürlichen Häufigkeiten machen; also beispielsweise
„Es kommen grundsätzlich zehn Millionen Männer als
Täter in Frage. Ungefähr zehn von ihnen haben ein
DNA-Profil, das mit der Tatortspur übereinstimmt. Wenn jemand
dieses Profil aufweist, ist es praktisch sicher, dass die
DNA-Analyse eine Übereinstimmung anzeigt. Unter den
9'999'990 Männern, deren DNA-Profil nicht mit der Tatortspur
übereinstimmt, wird die DNA-Analyse in 100 Fällen
ebenfalls eine Übereinstimmung feststellen“.
Durch diese Art der Präsentation statistischer Informationen
lassen sich viele unnötige Fehler vermeiden.
VII.Beweiswürdigung und DNA-Analysen
A.Die Technik der DNA-Analyse
Die Technik der DNA-Analyse
für forensische Zwecke ist, obwohl heute Routine, sehr komplex.
Da für das im Folgenden entwickelte statistische Argument kein
vertieftes Verständnis des Ablaufs einer DNA-Analyse
notwendig ist, wird die Technik hier nur kurz erläutert, ohne
auf Details einzugehen. Vertiefte Darstellungen finden sich bei Marc
Hother, Bär/Kratzer und
Brodersen/Anslinger/Rolf.
Die Erbsubstanz DNA ist der chemische Stoff, der die menschliche
Erbinformation enthält. Die DNA befindet sich als fadenförmiges
Molekül im Kern jeder Zelle des menschlichen Körpers. Nur
einige wenige Prozente des DNA-Moleküls enthalten die heute
bekannten Erbfaktoren, die Gene. Die DNA verschiedener Menschen
stimmt zu rund 99 % überein. Abweichungen gibt es nur an
relativ wenigen, bekannten Stellen („Loci“).
Die DNA-Analyse zu Identifizierungszwecken untersucht bestimmte
solcher Loci. Jeder dieser Abschnitte kann mehrere
Kombinationen der Bauelemente der DANN aufweisen, so dass für
einen bestimmten Abschnitt nur zehn Prozent der Menschen die gleiche
Kombination aufweisen. In allen Staaten, welche die DNA-Analyse
zur Identifikation einsetzen, wird von denselben untersuchten
Abschnitten ausgegangen. Die Wahrscheinlichkeit, dass sich zufällig
zweimal das gleiche DNA-Profil vorfindet, ist umso kleiner ist, je
grösser die Anzahl untersuchter Abschnitte ist, wenn man davon
ausgeht, dass die Wahrscheinlichkeit der Übereinstimmung in
einem bestimmten Abschnitt unabhängig von der Übereinstimmung
in einem anderen Abschnitt ist (und daher die Produktregel Anwendung
findet). Bei einem DNA-Profil, welches aufgrund der Analyse von 11
DNA-Abschnitten erstellt wurde, ist die Wahrscheinlichkeit kleiner
als eins zu 10 Milliarden, dass ein zufällig ausgewähltes
Individuum, das mit dem Probengeber der ersten Probe nicht verwandt
ist, ein gleiches Profil aufweist.
B.Der Beweiswert von DNA-Analysen und falsch positive Resultate
Der Beweiswert einer DNA-Analyse lässt sich mittels des
Bayes-Theorems analysieren. Das Gericht oder die
Strafverfolgungsbehörde möchte wissen, welche der beiden
folgenden Hypothesen zutrifft:
U = die untersuchte Probe stammt vom Verdächtigen;
¬U = die untersuchte Probe stammt nicht vom Verdächtigen.
Es sei B der Bericht des Gutachters, der eine Übereinstimmung
des DNA-Profils des Verdächtigen und der Probe, die am Tatort
erhoben wurde, feststellt. Immer dann, wenn eine Übereinstimmung
tatsächlich vorliegt, stellt der Gutachter sie auch fest, es
gilt also P(B | U) = 1. Der Gutachter wird aber auch dann eine
Übereinstimmung feststellen, wenn die Probe nicht vom
Verdächtigen stammt, aber der Verdächtige und der
Spurenverursacher zufälligerweise genau den gleichen
genetischen Fingerabdruck aufweisen. Diese Wahrscheinlichkeit einer
zufälligen Übereinstimmung (random
match probability, RMP) ist, wie oben gesehen,
sehr gering. Es ist also P (B | ¬U) = RMP. Der Gutachter wird
schliesslich auch dann von einer Übereinstimmung berichten,
wenn er irrtümlicherweise eine Übereinstimmung feststellt,
obwohl diese gar nicht vorliegt. Dieser Fehler wird „falsch
positiv“ genannt, d.h. der Gutachter bejaht eine Hypothese,
obwohl die Daten sie nicht belegen (false
positive probability, FPP). Der Gutachter begeht
dann keinen Fehler, wenn er eine Übereinstimmung feststellt,
obwohl Verdächtiger und Spurengeber nicht identisch sind, wenn
die zu vergleichenden DNA-Profile zufällig übereinstimmen.
Die Wahrscheinlichkeit eines falsch positiven Befundes ist daher FPP
∙ (1 - RMP). Die Gesamtwahrscheinlichkeit, dass der
Gutachter eine Übereinstimmung feststellt, obwohl keine
Übereinstimmung vorliegt, ist folglich P (B | ¬U) = RMP +
(FPP ∙ (1 - RMP)).
Die Wahrscheinlichkeit, dass das DNA-Profil vom Verdächtigen
stammt, wenn der Gutachter von einer Übereinstimmung berichtet
ist P(U| B). P(U| B) errechnet sich gemäss dem Bayes-Theorem in
seiner extensiven Form für zwei sich gegenseitig
ausschliessende Hypothesen U und ¬U gemäss Gleichung 9, S.
P(U) ∙ P(B | U)
P (U | B) = ──────────────────── (21)
P(U) ∙ P(B | U) + P(¬U) ∙ P(B | ¬U)
Ersetzt man in dieser Gleichung P (B | ¬U) durch RMP + (FPP ∙
(1-RMP)), so erhält man
P(U) ∙ P(B | U)
P (U | B) = ───────────────────────────── (22)
P(U) ∙ P(B| U) + P(¬U) ∙ (RMP + (FPP ∙ (1 -
RMP)))
Als Likelihood-Quotient lässt sich die abstrakte Beweiskraft
eines DNA-Gutachtens wie folgt darstellen:
P (B | U) 1
────── = ────────────── (23)
P (B | ¬U) RMP + (FPP ∙ (1 - RMP))
In dieser Form der Darstellung sieht man besonders klar, dass der
Likelihood-Quotient bei sehr kleiner RMP fast ausschliesslich von
der FPP bestimmt wird; es gilt also bei sehr kleiner RMP
approximativ: abstrakte Beweiskraft ≈ 1/FPP.
Die Diskussion der Zuverlässigkeit von DNA-Fingerabdrücken
als Beweismittel hat sich bisher hauptsächlich darum
gedreht, wie hoch die Wahrscheinlichkeit einer zufälligen
Übereinstimmung vom DNA-Profil des Verdächtigen und dem
Profil der Tatortspur ist. Es wurde befürchtet, dass diese sehr
viel grösser ist, wenn Verdächtiger und Spurengeber der
gleichen Ethnie angehören, weil die Verteilung der
DNA-Polymorphismen möglicherweise nicht homogen ist.
Auch wurde anfänglich bezweifelt, dass die Übereinstimmungen
in verschiedenen Loci unabhängig sind und man die Produktregel
anwenden darf, um die Wahrscheinlichkeit der gleichzeitigen
Übereinstimmung mehrerer Abschnitte zu berechnen.
Diese Befürchtungen haben sich jedoch nicht bestätigt. Die
Frage, welche Rolle die Wahrscheinlichkeit eines falsch positiven
Befundes für den Beweiswert eines DNA-Gutachtens spielt,
wurde bisher kaum diskutiert.
Dabei kann deren Einfluss sehr gross sein, wie nachfolgendes
Beispiel zeigt.
Angenommen, die Strafverfolgungsbehörde geht von einer
Wahrscheinlichkeit von 10 % aus, dass die untersuchte Probe vom
Verdächtigen stammt, die Wahrscheinlichkeit einer zufälligen
Übereinstimmung (RMP) sei 1:1 Milliarde (die Wahrscheinlichkeit
entsprechend 10-9) und die Behörde hält es
für ausgeschlossen, dass der Gutachter einen Fehler macht und
eine Übereinstimmung meldet, obwohl keine vorliegt (FPP = 0).
Dann gilt numerisch
1 ∙ 0,1
P (U | B) = ──────────────────
= 0.999999991
1 ∙ 0,1 + 0,9 ∙ 10-9 + (0 ∙ (1-10-9)
Die Chance, dass die untersuchte Probe vom Verdächtigen stammt,
beträgt demnach 100'000'000:1, es ist mit anderen Worten
praktisch sicher, dass der Verdächtige der Spurengeber ist
(ob er der Täter ist, ist wieder eine andere Frage –
möglicherweise ist seine DNA an den Tatort gelangt, ohne dass
er der Täter ist).
Was aber, wenn eine geringe Wahrscheinlichkeit von einem Tausendstel
besteht, dass der Gutachter ein falsch positives Resultat meldet?
Es gilt dann numerisch
1 ∙ 0,1
P (U | B) = ─────────────────────
= 0.99
1 ∙ 0,1 + 0,9 ∙ 10-9 + (0,001 ∙
(1-10-9))
Die Chance, dass der Verdächtige der Spurengeber ist, beträgt
demnach nur noch 100 zu 1 und ist um Grössenordnungen kleiner
als bei einer FPP von 0. Man darf daher die Gefahr, dass ein falsch
positives Resultat gemeldet wird, bei der Beurteilung des
Beweiswerts von DNA-Gutachten auf keinen Fall vernachlässigen.
Die nachstehend abgebildete aus Thompson/Taroni/Aitken
zeigt, wie sich die nachträgliche Chance (posterior
odds) im Verhältnis zur anfänglichen
Chance, Wahrscheinlichkeit zufälliger Übereinstimmung und
nachträglicher Wahrscheinlichkeit ändert. Wie leicht
ersichtlich, ist die hohe Ausschlussleistung der DNA-Analyse
(„Chance einer zufälligen Übereinstimmung von eins
zu zehn Milliarden“) irreführend, denn die
Belastungswahrscheinlichkeit hängt weitgehend von der
Wahrscheinlichkeit eines falsch positiven Fehlers ab.
-
|
Anfängliche
Chance
(Prior Odds)
|
Wahrscheinlichkeit
zufälliger Übereinstimmung (RMP)
|
Wahrscheinlichkeit eines
falsch positiven Resultates (FPP)
|
Nachträgliche
Wahrscheinlichkeit (Posterior Odds)
|
|
2:1
|
10-9
|
0
|
2’000’000’000
|
|
2:1
|
10-9
|
0.0001
|
20’000
|
|
2:1
|
10-9
|
0.001
|
2’000
|
|
2:1
|
10-9
|
0.01
|
200
|
|
2:1
|
10-6
|
0
|
2’000’000
|
|
2:1
|
10-6
|
0.0001
|
19’802
|
|
2:1
|
10-6
|
0.001
|
1’998
|
|
2:1
|
10-6
|
0.01
|
200
|
|
2:1
|
10-3
|
0
|
2’000
|
|
2:1
|
10-3
|
0.0001
|
1’818
|
|
2:1
|
10-3
|
0.001
|
1’001
|
|
2:1
|
10-3
|
0.01
|
182
|
|
1:10
|
10-9
|
0
|
100’000’000
|
|
1:10
|
10-9
|
0.0001
|
1’000
|
|
1:10
|
10-9
|
0.001
|
100
|
|
1:10
|
10-9
|
0.01
|
10
|
|
1:10
|
10-6
|
0
|
100’000
|
|
1:10
|
10-6
|
0.0001
|
990
|
|
1:10
|
10-6
|
0.001
|
100
|
|
1:10
|
10-6
|
0.01
|
10
|
|
1:10
|
10-3
|
0
|
100
|
|
1:10
|
10-3
|
0.0001
|
91
|
|
1:10
|
10-3
|
0.001
|
50
|
|
1:10
|
10-3
|
0.01
|
9
|
|
1:100
|
10-9
|
0
|
10’000’000
|
|
1:100
|
10-9
|
0.0001
|
100
|
|
1:100
|
10-9
|
0.001
|
10
|
|
1:100
|
10-9
|
0.01
|
1
|
|
1:100
|
10-6
|
0
|
10’000
|
|
1:100
|
10-6
|
0.0001
|
99
|
|
1:100
|
10-6
|
0.001
|
10
|
|
1:100
|
10-6
|
0.01
|
1
|
|
1:100
|
10-3
|
0
|
10
|
|
1:100
|
10-3
|
0.0001
|
9
|
|
1:100
|
10-3
|
0.001
|
5
|
|
1:100
|
10-3
|
0.01
|
1
|
|
1:1’000
|
10-9
|
0
|
1’000’000
|
|
1:1’000
|
10-9
|
0.0001
|
10
|
|
1:1’000
|
10-9
|
0.001
|
1
|
|
1:1’000
|
10-9
|
0.01
|
0,1
|
|
1:1’000
|
10-6
|
0
|
1’000
|
|
1:1’000
|
10-6
|
0.0001
|
9,9
|
|
1:1’000
|
10-6
|
0.001
|
1
|
|
1:1’000
|
10-6
|
0.01
|
0,1
|
|
1:1’000
|
10-3
|
0
|
1
|
|
1:1’000
|
10-3
|
0.0001
|
0,91
|
|
1:1’000
|
10-3
|
0.001
|
0,50
|
|
1:1’000
|
10-3
|
0.01
|
0,09
|
Tabelle 13: Beweiswert eines DNA-Gutachtens in Abhängigkeit
von Fehlerwahrscheinlichkeit
Die geringe Anfangschance von 1:1'000 kann sich ergeben, wenn es
keine belastenden Indizien ausser der Übereinstimmung der
DNA-Proben gibt, wie dies beispielsweise der Fall sein kann, wenn
der Treffer durch die Suche in einer Datenbank mit den DNA-Profilen
von tausenden von Personen gefunden wurde.
Thompson/Taroni/Aitken
weisen darauf hin, dass die Vorstellung, die falsch
positive Rate sei unerheblich, auf einem ähnlichen Denkfehler
wie der Trugschluss des Anklägers beruht; sie sprechen von
false positive fallacy.
Man nimmt irrtümlicherweise an, dass, wenn die falsch positive
Rate gering ist, die Wahrscheinlichkeit einer zu Unrecht gefundenen
Übereinstimmung ebenfalls gering ist. Mit anderen Worten, wenn
die Wahrscheinlichkeit, dass die Übereinstimmung zu
Unrecht gefunden wurde, 1 % beträgt, dann „muss“
folglich die Wahrscheinlichkeit, dass die Übereinstimmung zu
Recht gefunden wurde, 99 % betragen. Diese Überlegung ist, wie
vorne bereits diskutiert, falsch, denn die Wahrscheinlichkeit
eines falsch positiven Resultats in einem Einzelfall kann nicht ohne
Berücksichtigung der Anfangswahrscheinlichkeit, dass die
Proben übereinstimmen, berechnet werden.
Auch hier mag ein Häufigkeitsbaum die Analyse veranschaulichen.

Abbildung
11: Häufigkeitsbaum bei DNA-Analyse
Das Abbildung 11 dargestellte Beispiel geht davon aus, dass die
Anfangswahrscheinlichkeit bei 1:1 Million liegt und die RMP
ebenfalls 1:1 Million beträgt. Beim Spurengeber – es kann
nur einen geben – wird das Gutachten eine Übereinstimmung
finden. Bei den 999'999 Verdächtigen, die nicht Spurengeber
sind, wird das Gutachten aber bei einer falsch positiven Rate von
1:10'000, wie im Beispiel angenommen, ebenfalls bei 99 Personen
fälschlicherweise eine Übereinstimmung feststellen, obwohl
keine vorliegt. Die Wahrscheinlichkeit, dass eine Person, deren
DNA-Profil mit der Tatortspur übereinstimmt, tatsächlich
der Täter ist, ist daher 1/(99 + 1) = 0,01.
Die vorgehenden Überlegungen werfen natürlich die Frage
auf, wie hoch denn die falsch positiv Rate in Wirklichkeit ist.
Dies ist eine empirisch nur unzulänglich erforschte Frage. Als
forensische DNA-Analysen erstmals vor Gericht zugelassen wurden, gab
es eine Reihe von Experten, die behaupteten, Fehler kämen bei
der DNA-Analyse gar nie vor.
Diese Behauptung wurde inzwischen in Theorie und Praxis widerlegt.
Fehler können bei der Entnahme und der Handhabung von Proben
vorkommen oder auf eine Fehlinterpretation oder Fehlübermittlung
der Testresultate zurückzuführen sein. Besonders bei
Proben, die am Tatort erhoben werden und Spuren verschiedener DNA
enthalten, ist die Separation der einzelnen DNA-Stränge
mitunter schwierig. Das Abschneiden eines Labors bei der Analyse
von reinen Proben, wie sie in Probeläufen und bei
Abstammungsgutachten verwendet werden, sagt daher wenig darüber
aus, wie hoch die Wahrscheinlichkeit eines falsch positiven
Befundes bei einer verunreinigten Spur ist. Dennoch wurden in
proficiency tests,
wie sie bei amerikanischen Labors regelmässig vorgenommen
werden, wiederholt falsch positive Resultate gemeldet.
In mindestens einem Fall hat ein Laborfehler zur Verurteilung eines
Unschuldigen geführt.
Für die frühen 90-er Jahre des letzten Jahrhunderts wurden
Fehlerraten von 0,0008 bis 0,04 geschätzt.
Cellmark Ltd, der führende Anbieter von forensischen DNA-Tests
in den USA, musste auf Druck der Verteidigung im O.J. Simpson
Prozess zugeben, dass seine eigene Fehlerrate bei rund 1:200 lag.
Die beste Methode, um die falsch positiv Rate empirisch
festzustellen, sind Blindtests durch unabhängige Stellen.
In der Schweiz sieht die DNA-Profil-Verordnung (SR 363.1) vor, dass
sich Labors, die forensische DNA-Gutachten erstellen, akkreditieren
müssen (Art. 2 Abs. 1 DNA-Profil-Verordnung). Um akkreditiert
zu werden, muss ein Labor Qualitätsanforderungen erfüllen,
die vom Bund vorgegeben und in einer Vereinbarung festgehalten
werden, sowie unter der Leitung einer qualifizierten Fachperson
stehen (Art. 2 Abs. 2 lit. b und c DNA-Profil-Verordnung).
Akkreditiert werden forensische DNA-Labors durch die Schweizerische
Akkreditierungsstelle (SAS).
Die Labors nehmen an Eignungsprüfungen teil, bei denen
eine unabhängige Stelle, z.B. die Schweizerische Gesellschaft
für Rechtsmedizin, den Labors biologisches Material zur Analyse
zustellt und das Resultat überprüft.
Bevor ein DNA-Profil in die DNA-Datenbank des Bundes aufgenommen
wird, muss es in zwei unabhängigen durchgeführten
Analyseprozessen dasselbe Resultat zeitigen (Doppelanalyse);
diese Anforderung ergibt sich aus den durch das EJPD im Rahmen von
Art. 2 Abs. 2 lit. b DNA-Profil-Verordnungen festgelegten Leistungs-
und Qualitätsanforderungen.
Blindtests sind in der Schweiz jedoch im Rahmen des Akkreditierungs-
und Qualitätssicherungsverfahrens nicht vorgesehen; d.h.
die akkreditierten Labors wissen immer, wann sie geprüft
werden.
Die Proben, die analysiert werden, um das in die
DNA-Profil-Datenbank aufzunehmende DNA-Profil zu bestimmen, sind von
guter Qualität. Sie werden unter optimalen Bedingungen mit
Wangenschleimhautabstrich vom Probengeber entnommen. Die Gefahr
einer Fehlanalyse ist daher geringer als bei Tatortspuren, die oft
mit fremd-DNA verunreinigt sind. Ein falsch positives Resultat kann
nicht nur dadurch entstehen, dass das in der DNA-Profil-Datenbank
aufgenommene Profil falsch bestimmt wurde, sondern auch dadurch dass
das Profil der Tatortspur falsch bestimmt wird. Die Doppelanalyse
aller DNA-Proben, deren Profile in die DNA-Profil-Datenbanken
aufgenommen werden, löst daher nur das geringere Problem.
Mit einer gewissen Regelmässigkeit durchgeführte
Blindtests aller DNA-Labors sind zugegebenermassen aufwendig
und teuer.
Wiederholt wurde deshalb vorgeschlagen, dass die Gefahr von falsch
positiven Treffern mit weniger Aufwand durch Doppelanalysen
vermieden werden könne.
Dies scheint auch die Auffassung des Bundesamtes für Polizei zu
sein.
Doppelanalysen sind aber nicht immer durchführbar, weil die am
Tatort erhobenen Proben unter Umständen beim ersten Test
verbraucht wurden. Eine Doppelanalyse kann auch nicht jeden Fehler
korrigieren – wenn eine Kontaminierung der Probe erfolgte, ehe
sie geteilt wurde, nützt auch eine zweite Analyse derselben
Probe nichts.
Die Fehlerreduktion durch Doppelanalyse ist schliesslich nur dann
optimal, wenn die Ergebnisse der beiden Analysen untereinander
unabhängig sind. Dies muss aber durchaus nicht der Fall sein –
wenn der Fehler beim ersten Mal darauf zurückzuführen ist,
dass die Probe besonders schwierig zu analysieren oder das Profil
besonders schwierig zu interpretieren war, dann wird der gleiche
Fehler mit erhöhter Wahrscheinlichkeit auch bei der zweiten
Analyse gemacht werden. Doppelanalysen können die
Wahrscheinlichkeit eines falsch positiven Ergebnisses wohl
reduzieren, aber niemand behauptet, dass sie es ausschliessen
können.
Gerichte sollten sich bewusst sein, dass DNA-Proben zweifellos sehr
beweiskräftige Indizien sind. Sie sollten aber ob der
spektakulären Erfolge der forensischen DNA-Analyse – z.B.
im Falle des Mordes des deutschen Modeschöpfers Rudolf
Mooshammer im Januar 2005 – nicht vergessen, dass die
DNA-Analyse nicht unfehlbar ist. Das Verständnis des
Bayes-Theorems hilft aufzeigen, welche Faktoren den abstrakten
Beweiswert eines DNA-Gutachtens bestimmen. Kein Richter sollte sich
aus falscher Rücksicht auf die Unfehlbarkeit der
DNA-Analyse dazu gedrängt fühlen, einen Angeklagten, gegen
den als einziges Beweismittel ein DNA-Gutachten vorliegt, zu
verurteilen. Vernünftige Zweifel an der Schuld des Angeklagten
sind in solchen Fällen durchaus rational zu begründen.
|
|