Bedingte Wahrscheinlichkeit

Bedingte Wahrscheinlichkeit (auch konditionale Wahrscheinlichkeit) ist die Wahrscheinlichkeit des Eintretens eines Ereignisses A unter der Bedingung, dass das Eintreten eines anderen Ereignisses B bereits bekannt ist. Sie wird als P(A\mid B) geschrieben. Der senkrechte Strich ist als „unter der Bedingung“ zu lesen und wie folgt zu verstehen: Wenn das Ereignis B eingetreten ist, beschränken sich die Möglichkeiten auf die Ergebnisse in B. Damit ändert sich auch die Wahrscheinlichkeit; diese neue Wahrscheinlichkeit für das Ereignis A ist gegeben durch P(A\mid B). Die bedingte Wahrscheinlichkeit kann also als Neueinschätzung der Wahrscheinlichkeit von A interpretiert werden, wenn die Information vorliegt, dass das Ereignis B bereits eingetreten ist. Manchmal wird auch die Schreibweise P_B(A) verwendet, die jedoch auch andere Bedeutungen haben kann.

Für einen verallgemeinerten, abstrakten Begriff von bedingten Wahrscheinlichkeiten siehe bedingter Erwartungswert.

Motivation und Definition

Mitunter möchte man untersuchen, wie stark der statistische Einfluss einer Größe auf eine andere ist. Beispielsweise möchte man wissen, ob Rauchen (R) krebserregend (K) ist. Die logische Implikation würde fordern, dass der Schluss {\textstyle R\Rightarrow K} für alle Instanzen gilt, dass also jeder Raucher an Krebs erkrankt. Ein einziger Raucher, der keinen Krebs bekommt, würde die Aussage „Rauchen ruft mit logischer Sicherheit Krebs hervor“ beziehungsweise „Jeder Raucher bekommt Krebs“ falsifizieren. Dennoch, obwohl es Raucher ohne Krebs gibt, besteht ein statistischer Zusammenhang zwischen diesen beiden Ereignissen: Die Wahrscheinlichkeit, an Krebs zu erkranken, ist bei Rauchern erhöht. Diese Wahrscheinlichkeit ist die bedingte Wahrscheinlichkeit P(K\mid R), dass jemand Krebs bekommt, unter der Bedingung, dass er Raucher ist.

Stochastisch kann nun ebenso die Wahrscheinlichkeit untersucht werden, dass jemand raucht, unter der Bedingung, dass er Krebs hat. In der Wahrscheinlichkeitsrechnung ist somit zu beachten, dass der Begriff der Bedingung nicht an einen kausalen oder zeitlichen Zusammenhang gebunden ist. Die bedingte Wahrscheinlichkeit gibt ein Maß dafür an, wie stark der statistische Einfluss von R auf K ist. Sie kann als stochastisches Maß dafür angesehen werden, wie wahrscheinlich der Schluss R\Rightarrow K ist. Sie sagt aber, wie alle statistischen Größen, nichts über die etwaige Kausalität des Zusammenhangs aus.

Mit dieser Motivation kommt man zu folgender Definition:

Wenn A und B beliebige Ereignisse sind und P(B)>0 ist, dann ist die bedingte Wahrscheinlichkeit von {\textstyle A}, vorausgesetzt B (auch die Wahrscheinlichkeit von {\textstyle A} unter der Bedingung {\textstyle B}), notiert als P(A\mid B) (mit senkrechtem Strich zwischen A und B), definiert durch:

P(A\mid B)={\frac  {P(A\cap B)}{P(B)}}

Darin ist P(A \cap B) die Wahrscheinlichkeit, dass A und B gemeinsam auftreten. P(A \cap B) wird gemeinsame Wahrscheinlichkeit, Verbundwahrscheinlichkeit oder Schnittwahrscheinlichkeit genannt. A\cap B bezeichnet dabei den mengentheoretischen Schnitt der Ereignisse A und B.

Multiplikationssatz

Der Entscheidungsbaum illustriert P(A \cap B){\displaystyle =P\left(A\mid B\right)P(B)}.

Durch Umformen der Definitionsformel entsteht der Multiplikationssatz für zwei Ereignisse:

P(A\cap B)=P(A\mid B)\cdot P(B).

Verallgemeinert man den obigen Ausdruck des Multiplikationssatzes, der für zwei Ereignisse gilt, erhält man den allgemeinen Multiplikationssatz. Man betrachte dazu den Fall mit n Zufallsereignissen A_{1},A_{2},\dotsc ,A_{n}.

{\displaystyle P\left(A_{1}\cap A_{2}\cap \dotsb \cap A_{n}\right)}
=P\left(A_{1}\right)\cdot {\frac  {P\left(A_{1}\cap A_{2}\right)}{P\left(A_{1}\right)}}\cdot {\frac  {P\left(A_{1}\cap A_{2}\cap A_{3}\right)}{P\left(A_{1}\cap A_{2}\right)}}\dotsm {\frac  {P\left(A_{1}\cap \dotsb \cap A_{n}\right)}{P\left(A_{1}\cap \dotsb \cap A_{{n-1}}\right)}}
=P(A_{1})\cdot P\left(A_{2}\mid A_{1}\right)\cdot P\left(A_{3}\mid A_{1}\cap A_{2}\right)\dotsm P\left(A_{n}\mid A_{1}\cap \dotsb \cap A_{{n-1}}\right)

Besonders anschaulich ist hier das Rechnen mit einem Entscheidungsbaum, da hier das Diagramm gleichsam „mitrechnet“: Die Daten sind leicht einzusetzen und führen sequenziell an den richtigen Rechengang heran.

Gesetz der totalen Wahrscheinlichkeit

Sind nur bedingte Wahrscheinlichkeiten und die Wahrscheinlichkeiten des bedingenden Ereignisses bekannt, ergibt sich die totale Wahrscheinlichkeit von A aus

P(A)=P\left(A\mid B\right)\cdot P(B)+P\left(A\mid B^{c}\right)\cdot P\left(B^{c}\right),

wobei B^{c} das Gegenereignis zu B bezeichnet.

Auch hier gibt es eine Verallgemeinerung. Gegeben seien Ereignisse B_{1},B_{2},\dotsc mit P(B_{j})>0 für alle j, die eine Partition des Wahrscheinlichkeitsraums \Omega bilden, d.h., sie sind paarweise disjunkt und \bigcup \limits _{{j=1}}^{{\infty }}B_{j}=\Omega . Dann gilt:

P(A)=\sum _{{j=1}}^{{\infty }}P\left(A\mid B_{j}\right)\cdot P\left(B_{j}\right).

Stochastische Unabhängigkeit

Wenn A und B stochastisch unabhängig sind, gilt:

P(A\cap B)=P(A)\cdot P(B),

was dann zu Folgendem führt:

P(A\mid B)={\frac  {P(A)\cdot P(B)}{P(B)}}=P(A)  bzw. P(A\mid B)=P(A\mid B^{c}).

Anders gesagt: Egal, ob das Ereignis B stattgefunden oder nicht stattgefunden hat, ist die Wahrscheinlichkeit des Ereignisses A stets dieselbe.

Satz von Bayes

Für den Zusammenhang zwischen P(A \mid B) und P(B \mid A) ergibt sich direkt aus der Definition und dem Multiplikationssatz der Satz von Bayes:

{\displaystyle P(A\mid B)={\frac {P(A\cap B)}{P(B)}}={\frac {P(B\cap A)}{P(B)}}={\frac {P(B\mid A)\cdot P(A)}{P(B)}}}.

Dabei kann P(B) im Nenner mit Hilfe des Gesetzes der totalen Wahrscheinlichkeit berechnet werden.

Stetige Zufallsvariable

Für zwei Zufallsvariablen X, Y mit gemeinsamer Dichte f_{{X,Y}} ist eine Dichte f_{Y} von Y gegeben durch

f_{Y}(y)=\int f_{{X,Y}}(x,y)\,dx.

Falls f_{Y}(y)>0, kann man eine bedingte Dichte f_{X}(\,\cdot \,|Y=y) von X, gegeben (oder vorausgesetzt) das Ereignis \{Y=y\}, definieren durch

f_{X}(x|Y=y)\,=\,{\frac  {f_{{X,Y}}(x,y)}{f_{Y}(y)}}.

Statt f_{X}(x|Y=y) schreibt man auch f_{{X|Y}}(x,y), für die bedingte Dichte. Die letztere Formel soll aber nicht verstanden werden wie die Dichte einer Zufallsvariable X|Y.

Die (eine) simultane Dichte von X und Y erhält man dann aus der Formel

\,\!f_{{X,Y}}(x,y)=f_{Y}(y)f_{X}(x|Y=y).

Daraus lässt sich eine Form des Gesetzes der totalen Wahrscheinlichkeit herleiten:

f_{X}(x)=\int f_{{X,Y}}(x,y)\,dy=\int f_{Y}(y)f_{X}(x|Y=y)\,dy.

Dieser Vorgang wird als Marginalisierung bezeichnet.

Hierbei ist zu beachten, dass standardmäßig Dichten, die die gleichen Integralwerte liefern, dieselbe Wahrscheinlichkeitsverteilung repräsentieren. Dichten sind daher nicht eindeutig festgelegt. Eine zulässige Wahl für f_{{X,Y}}, f_X, und f_{Y} ist jede messbare Funktion, die im Integral die korrekten Wahrscheinlichkeiten für P(X\in A,Y\in B), P(X\in A) bzw. P(Y\in B) für beliebige A, B ergibt. Die Funktion f_{X}(\cdot |Y=\cdot ) muss

P(X\in A,Y\in B)=\int _{B}f_{Y}(y)\int _{A}f_{X}(x|Y=y)\,dx\,dy

erfüllen. Die oben angegebenen Formeln gelten somit nur bei passender Wahl der verschiedenen Dichten.

Beispiele

Je nach dem Grad der Überlappung von zwei Ereignissen A und B, also der Größe der Schnittmenge A\cap B, kann der Eintritt von Ereignis B die Wahrscheinlichkeit, dass auch Ereignis A eingetreten ist, erhöhen oder verringern, und zwar bis auf 1 (A ist fast sicher eingetreten) oder bis auf 0 (A ist fast sicher nicht eingetreten).

Beispiele mit Würfeln

Die nachstehenden Beispiele beziehen sich immer auf Würfe mit einem fairen Standardwürfel. Dabei bezeichnet die Schreibweise A=\{1,2,3\} ein Ereignis A, dass bei einem Wurf eine Eins, eine Zwei oder eine Drei gewürfelt wurde.

Sonderfälle

A und B haben keine gemeinsamen Elemente. Wenn B eintritt, kann A daher nicht mehr eintreten und umgekehrt.
Beispiel:
Ereignis A=\{1,2,3\}, Ereignis B=\{4,5,6\}. Wenn B eintritt (also eine Vier, eine Fünf oder eine Sechs gewürfelt wird), ist A sicher nicht mehr möglich.
P(A\mid B)={\frac  {P(A\cap B)}{P(B)}}={\frac  0{P(B)}}=0.
Das Ereignis A ist eine Teilmenge des Ereignisses B.
Beispiel:
Ereignis A=\{1,2\}, Ereignis B=\{1,2,3\}.
P(A\mid B)={\frac  {P(A\cap B)}{P(B)}}={\frac  {P(A)}{P(B)}}={\frac  {2/6}{3/6}}={\frac  {2}{3}}.
Die Wahrscheinlichkeit von A (hier a priori P(A)={\tfrac  {1}{3}}) erhöht sich in diesem Fall umgekehrt proportional zur Wahrscheinlichkeit von B (hier P(B)={\tfrac  {1}{2}}, die Wahrscheinlichkeit erhöht sich hier also um den Faktor 2).
Zur Berechnung der bedingten Wahrscheinlichkeit von A unter der Bedingung B genügt in diesem Fall also die Kenntnis der absoluten Wahrscheinlichkeiten P(A) und P(B). Die exakte Größe der Schnittmenge A\cap B muss nicht bekannt sein.
Das Ereignis A ist eine Obermenge des Ereignisses B bzw. das Ereignis B ist eine Teilmenge des Ereignisses A.
Beispiel: A=\{1,2,3\},B=\{1,2\}. Wenn B eingetreten ist, muss daher A auch eingetreten sein.
P(A\mid B)={\frac  {P(A\cap B)}{P(B)}}={\frac  {P(B)}{P(B)}}=1.

Allgemeiner Fall

Allgemeiner benötigt man im Laplace-Experiment zur Berechnung der bedingten Wahrscheinlichkeit von A unter der Bedingung B die Anzahl der Elemente der Schnittmenge A\cap B.

Das Ereignis A=\{4,5,6\}, mindestens eine Vier (d.h. 4 oder höher) zu werfen, hat a priori die Wahrscheinlichkeit P(A)={\tfrac {1}{2}}.

Wenn nun bekannt ist, dass eine gerade Zahl gewürfelt wurde, dass also das Ereignis B=\{2,4,6\} eingetreten ist, dann ergibt sich die bedingte Wahrscheinlichkeit für A unter der Bedingung B wegen A\cap B=\{4,6\} zu

P(A\mid B)={\frac  {P(A\cap B)}{P(B)}}={\frac  {2/6}{3/6}}={\frac  {2}{3}}.

Die bedingte Wahrscheinlichkeit ist in diesem Fall höher als die Ausgangswahrscheinlichkeit.

Wenn eine ungerade Zahl gewürfelt wurde, also das Ereignis B=\{1,3,5\} eingetreten ist, ist die bedingte Wahrscheinlichkeit für A unter der Bedingung B wegen A\cap B=\{5\} gleich

P(A\mid B)={\frac  {P(A\cap B)}{P(B)}}={\frac  {1/6}{3/6}}={\frac  {1}{3}}.

Die bedingte Wahrscheinlichkeit ist in diesem Fall kleiner als die A-priori-Wahrscheinlichkeit.

Das Ereignis A=\{1,2,3,4\} hat a priori die Wahrscheinlichkeit P(A)={\tfrac  {2}{3}}. Wenn wir wissen, dass das Ereignis B=\{3,4,5,6\} eingetreten ist, verändert sich die Wahrscheinlichkeit für A wegen A\cap B=\{3,4\} auf

P(A\mid B)={\frac  {P(A\cap B)}{P(B)}}={\frac  {2/6}{4/6}}={\frac  {1}{2}}.

Auch in diesem Beispiel wird das Ereignis A durch das Eintreten des Ereignisses B unwahrscheinlicher, d.h., die Wahrscheinlichkeit, dass durch den Wurf das Ereignis A eingetreten ist, ist gegenüber der A-priori-Wahrscheinlichkeit kleiner geworden, weil durch den Wurf das Ereignis B jedenfalls eingetreten ist.

Wurfmaschine[Bearbeiten | Quelltext bearbeiten]

Bedingte Wahrscheinlichkeit als Teilflächen

Ein anschauliches Beispiel erlaubt es, bedingte Wahrscheinlichkeiten anhand von Mengendiagrammen unmittelbar zu verstehen. Betrachtet wird eine Wurfmaschine, die in zufälliger Weise irgendwelche Objekte (z.B. Bälle, Dartpfeile) auf eine bestimmte Fläche M (z.B. eine Wand) wirft, so dass jeder Ort der Wand mit gleicher Wahrscheinlichkeit getroffen wird. Die Funktion F ordnet der Fläche M bzw. einer bestimmten Teilfläche A der Wand (z.B. einem beliebigen mit einem Stift markierten Kreis) ihren Flächeninhalt F(M) bzw. F(A) zu. Dann ist die Wahrscheinlichkeit P(A), dass das Wurfgeschoss in A auftrifft, proportional dem Verhältnis der Teilfläche zur Gesamtfläche, also P(A)=F(A)/F(M).

Nun sei zusätzlich vorausgesetzt, dass das Wurfgeschoss innerhalb einer anderen Teilfläche B aufgetroffen ist, die mit der Teilfläche A überlappt. Dann ist die Wahrscheinlichkeit P(B), dass das Wurfgeschoss in B auftrifft, P(B)=F(B)/F(M). Die bedingte Wahrscheinlichkeit P(A\mid B), dass das Geschoss unter der zusätzlichen Voraussetzung auch gleichzeitig innerhalb der überlappenden Teilfläche A auftrifft, ist proportional dem Flächeninhalt desjenigen Teils der Fläche A, der auch in B liegt, also dem Flächeninhalt F(A\cap B) der Schnittmenge A\cap B. Umgekehrt ist für eine gleich groß ausfallende Schnittmenge A\cap B umso weniger wahrscheinlich, dass ein in B auftreffendes Wurfgeschoss auch in A\cap B auftrifft, je größer F(B) vorausgesetzt war. Also ist P(A\mid B) umgekehrt proportional zu P(B).

Somit ergibt sich die Wahrscheinlichkeit eines Auftreffens in A bei zusätzlich vorausgesetztem Auftreffen in B als bedingte Wahrscheinlichkeit P(A\mid B)=F(A\cap B)/F(B)=P(A\cap B)/P(B), also definitionsgemäß.

Weitere Beispiele

Dieser einfache Fall ist auch elementar ohne bedingte Wahrscheinlichkeit lösbar: Jede der vier Mannschaften bekommt mit gleicher Wahrscheinlichkeit eine der drei anderen Mannschaften zugelost. Nur eine dieser drei Mannschaften kommt aus dem gleichen Land. Also beträgt die gesuchte Wahrscheinlichkeit 13.

Siehe auch

Trenner
Basierend auf einem Artikel in: Wikipedia.de
Seitenende
Seite zurück
©  biancahoegel.de
Datum der letzten Änderung:  Jena, den: 21.10. 2019