Beta-Verteilung

Beta-Verteilung für verschiedene Parameterwerte
Kumulative Verteilungsfunktion für verschiedene Parameterwerte

Die Beta-Verteilung ist eine Familie stetiger Wahrscheinlichkeitsverteilungen über dem Intervall (0,1), parametrisiert durch zwei Parameter, die häufig als p und q – oder auch als α und β – bezeichnet werden. In der bayesschen Statistik ist die Beta-Verteilung die konjugierte a-priori-Wahrscheinlichkeitsverteilung für die Bernoulli-, Binomial-, der negativen Binomial- und der geometrischen Verteilung.

Definition

Die Beta-Verteilung {\displaystyle \operatorname {Beta} (p,q)} ist definiert durch die Wahrscheinlichkeitsdichte

{\displaystyle f(x)={\frac {1}{\mathrm {B} (p,q)}}x^{p-1}(1-x)^{q-1}.}

Außerhalb des Intervalls (0,1) wird sie durch f(x)=0 fortgesetzt. Für p,q\geq 1 lässt sich (0,1) durch [0,1] ersetzen. Die Beta-Verteilung besitzt die reellen Parameter p und q (in den nebenstehenden Grafiken \alpha und \beta ). Um ihre Normierbarkeit zu garantieren, wird p,q>0 (bzw. {\displaystyle \alpha ,\beta >0}) gefordert.

Der Vorfaktor {\displaystyle 1/\mathrm {B} (p,q)} dient der korrekten Normierung. Der Ausdruck

{\displaystyle \mathrm {B} (p,q)={\frac {\Gamma (p)\Gamma (q)}{\Gamma (p+q)}}=\int _{0}^{1}u^{p-1}(1-u)^{q-1}\,\mathrm {d} u}

steht für die Betafunktion, nach der die Verteilung benannt ist. Dabei bezeichnet \Gamma die Gammafunktion.

Die Verteilungsfunktion ist entsprechend

{\displaystyle F(x)={\begin{cases}0&{\text{für}}\;x\leq 0,\\I_{x}(p,q)&{\text{für}}\;0<x\leq 1,\\1&{\text{für}}\;x>1\\\end{cases}}}

mit

{\displaystyle I_{x}(p,q):={\frac {1}{\mathrm {B} (p,q)}}\int _{0}^{x}u^{p-1}(1-u)^{q-1}\mathrm {d} u.}

Die Funktion {\displaystyle I_{x}(p,q)} heißt auch regularisierte unvollständige Betafunktion.

Eigenschaften

Erwartungswert

Der Erwartungswert berechnet sich zu

{\displaystyle \operatorname {E} (X)={\frac {p}{p+q}}}.

Modus

Der Modus, also die Maximalstelle der Dichtefunktion f, ist für p>1, {\displaystyle q>1}

{\displaystyle \left(1+{\frac {q-1}{p-1}}\right)^{-1}={\frac {p-1}{p+q-2}}}.

Varianz

Die Varianz ergibt sich zu

{\displaystyle \operatorname {Var} (X)={\frac {pq}{(p+q+1)(p+q)^{2}}}}.

Standardabweichung

Für die Standardabweichung ergibt sich

\sigma ={\sqrt  {{\frac  {pq}{(p+q+1)(p+q)^{2}}}}}.

Variationskoeffizient

Aus Erwartungswert und Varianz erhält man unmittelbar den Variationskoeffizienten

\operatorname {VarK}(X)={\sqrt  {{\frac  {q}{p(p+q+1)}}}}.

Schiefe

Die Schiefe ergibt sich zu

\operatorname {v}(X)={\frac  {2(q-p){\sqrt  {p+q+1}}}{(p+q+2){\sqrt  {pq}}}}.

Höhere Momente

Aus der momenterzeugenden Funktion ergibt sich für die k-ten Momente

{\displaystyle \operatorname {E} (X^{k})=\prod _{r=0}^{k-1}{\frac {p+r}{p+q+r}}}.

Symmetrie

Die Beta-Verteilung ist für p=q symmetrisch um x={\frac  {1}{2}} mit der Schiefe \operatorname {v}(X)=0.

Momenterzeugende Funktion

Die momenterzeugende Funktion einer betaverteilten Zufallsgröße lautet

{\displaystyle M_{X}(t)=1+\sum _{n=1}^{\infty }\left(\prod _{k=0}^{n-1}{\frac {p+k}{p+q+k}}\right){\frac {t^{n}}{n!}}}.

Mit der hypergeometrischen Funktion {\displaystyle _{1}F_{1}} erhält man die Darstellung

{\displaystyle M_{X}(t)={}_{1}F_{1}(p;q;t)}.

Charakteristische Funktion

Analog zur momenterzeugenden Funktion erhält man die charakteristische Funktion

{\displaystyle \varphi _{X}(t)={}_{1}F_{1}(p;q;it)}.

Beziehungen zu anderen Verteilungen

Spezialfälle

Beziehung zur Gammaverteilung

Wenn X\sim \gamma (p_{1},b) und Y\sim \gamma (p_{2},b) unabhängige gammaverteilte Zufallsvariablen sind mit den Parametern p_{1},b bzw. p_{2},b, dann ist die Größe {\tfrac  {X}{X+Y}} betaverteilt mit Parametern p_{1} und p_{2}, kurz

{\displaystyle \operatorname {Beta} (p_{1},p_{2})\sim {\frac {\gamma (p_{1},b)}{\gamma (p_{1},b)+\gamma (p_{2},b)}}.}

Beziehung zur stetigen Gleichverteilung

Sind X_1, X_2, \dotsc, X_n unabhängige auf [0,1] stetig gleichverteilte Zufallsvariable, dann sind die Ordnungsstatistiken X_{{(1)}},X_{{(2)}},\dotsc ,X_{{(n)}} betaverteilt. Genauer gilt

{\displaystyle X_{(k)}\sim \operatorname {Beta} (k,n-k+1)}

für k=1,\dotsc ,n.

Mischverteilungen

Eine Binomialverteilung, deren Parameter p betaverteilt ist, nennt man Beta-Binomialverteilung. Dies ist ein spezieller Fall einer Mischverteilung.

Beispiel

Hauptartikel: Bestimmtheitsmaß

Die Beta-Verteilung kann aus zwei Gammaverteilungen bestimmt werden: Der Quotient X=U/(U+V) aus den stochastisch unabhängigen Zufallsvariablen U und V, die beide gammaverteilt sind mit den Parametern b und p_{u} bzw. p_{v}, ist betaverteilt mit den Parametern p_{u} und p_{v}. U und V lassen sich als Chi-Quadrat-Verteilungen mit 2p_{u} bzw. 2p_{v} Freiheitsgraden interpretieren.

Mit Hilfe der linearen Regression wird eine geschätzte Regressionsgerade {\displaystyle {\hat {y}}={\hat {\beta }}_{0}+{\hat {\beta }}_{1}x_{i}} durch eine „Punktwolke“ mit n Wertepaaren {\displaystyle \{x_{i};y_{i}\}_{i=1,\dots ,n}} zweier statistischer Merkmale X und Y gelegt, und zwar so, dass die Quadratsumme der senkrechten Abstände der y_{i}-Werte von der Geraden {\displaystyle {\hat {y}}_{i}} minimiert wird.

Die Streuung der Schätzwerte \hat{y}_i um ihren Mittelwert {\displaystyle {\overline {\hat {y}}}={\overline {y}}} kann durch {\displaystyle \textstyle {\text{SSE}}\equiv \sum \nolimits _{i=1}^{n}({\hat {y}}_{i}-{\overline {y}})^{2}} gemessen werden und die Streuung der Messwerte y_{i} um ihren Mittelwert kann durch {\displaystyle \textstyle {\text{SST}}\equiv \sum \nolimits _{i=1}^{n}(y_{i}-{\overline {y}})^{2}} gemessen werden. Erstere stellt die „(durch die Regression) erklärte Quadratsumme“ (sum of squares explained, kurz: SSE) und letztere stellt die „totale Quadratsumme“ (sum of squares total, kurz: SST) dar. Der Quotient dieser beiden Größen ist das Bestimmtheitsmaß:

{\displaystyle {\mathit {R}}^{2}\equiv {\frac {\text{SSE}}{\text{SST}}}}.

Die „(durch die Regression) nicht erklärte Quadratsumme“ bzw. die „Residuenquadratsumme“ (residual sum of squares, kurz SSR) ist durch {\displaystyle \textstyle {\text{SSR}}\equiv \sum \nolimits _{i=1}^{n}(y_{i}-{\hat {y}}_{i})^{2}} gegeben. Durch die Quadratsummenzerlegung {\displaystyle {\text{TSS}}={\text{ESS}}+{\text{RSS}}} lässt sich das Bestimmtheitsmaß auch darstellen als

{\displaystyle {\mathit {R}}^{2}={\frac {\text{SSE}}{{\text{SSE}}+{\text{SSR}}}}}.

Es ist also betaverteilt. Da das Bestimmtheitsmaß das Quadrat des Korrelationskoeffizienten von y darstellt ({\displaystyle R^{2}=r^{2}}), ist auch das Quadrat des Korrelationskoeffizienten betaverteilt. Allerdings kann die Verteilung des Bestimmtheitsmaßes beim globalen F-Test durch die F-Verteilung angegeben werden, die tabelliert vorliegt.

Verallgemeinerung: Beta-Verteilung auf (a,b)

Definition

Die allgemeine Beta-Verteilung ist definiert durch die Wahrscheinlichkeitsdichte

{\displaystyle f(x)={\frac {1}{B(a,b,p,q)}}(x-a)^{p-1}(b-x)^{q-1},}

wobei a und b die obere und untere Grenze des Intervalls sind. Entsprechend ergibt sich die Berechnung von B zu

{\displaystyle B(a,b,p,q)=\int _{a}^{b}(u-a)^{p-1}(b-u)^{q-1}\mathrm {d} u={\frac {\Gamma (p)\Gamma (q)}{\Gamma (p+q)}}(b-a)^{p+q-1}.}

Eigenschaften

Ist X betaverteilt auf dem Intervall (0,1) mit Parametern p, q, dann ist

{\displaystyle Y=(b-a)X+a}

betaverteilt auf dem Intervall (a,b) mit den gleichen Parametern p, q. Ist umgekehrt Y betaverteilt auf (a,b), dann ist

{\displaystyle X={\frac {Y-a}{b-a}}}

betaverteilt auf (0,1).

Beispiel

Im Dreieckstest werden drei Proben im gleichseitigen Dreieck angeordnet, wobei eine Ecke des gedachten Dreiecks nach oben zeigt. Zwei der drei Proben gehören zum Produkt A und eine Probe gehört zum Produkt B oder umgekehrt. Die Aufgabe des Probanden besteht nun darin, dasjenige Produkt zu finden, das nur einmal vorkommt. Die Wahrscheinlichkeit durch bloßes Raten die richtige Antwort zu geben beträgt {\tfrac {1}{3}}.

Verteilung der Erfolgswahrscheinlichkeiten einer Stichprobe im Dreieckstest (schwarze Linie) bei einer Rate-Erfolgswahrscheinlichkeit von 1/3 (blaue Linie)

Die Erfolgswahrscheinlichkeiten variieren je nach sensorischen Fähigkeiten. Unter der Annahme, dass kein Proband absichtlich eine falsche Antwort gibt, liegt die Erfolgswahrscheinlichkeit bei niemandem unter {\tfrac {1}{3}}. Bei Feinschmeckern oder großen Geschmacksunterschieden kann diese theoretisch bis auf 100 % ansteigen. Im Folgenden wird für beliebige Rate-Erfolgswahrscheinlichkeiten c mit 0<c<1 die Beta-Verteilung auf {\displaystyle (c,1)} hergeleitet. Aus den eben genannten Gründen modelliert diese Wahrscheinlichkeitsdichte die Erfolgswahrscheinlichkeiten der Probanden realistischer als eine Beta-Verteilung auf (0,1).

Die Erfolgswahrscheinlichkeiten \pi_{i} der einzelnen Probanden i=1, \dots, n seien zunächst betaverteilt auf (0,1) mit Parametern \alpha und \beta . Die korrigierten Erfolgswahrscheinlichkeiten auf {\displaystyle (c,1)} ergeben sich aus {\displaystyle p_{i}=c+(1-c)\pi _{i}}. Die Wahrscheinlichkeitsdichte von p_{{i}} lässt sich über den Transformationssatz für Dichten bestimmen. Die Beta-Verteilung von \pi_{i} hat eine positive Dichte im Intervall (0,1). Die Transformation {\displaystyle u\colon (0,1)\rightarrow (c,1)} mit {\displaystyle u(\pi )=c+(1-c)\pi =p} ist ein Diffeomorphismus. Daraus erhält man die Umkehrfunktion {\displaystyle u^{-1}(p)={\frac {p-c}{1-c}}}. Für die gesuchte Dichtefunktion von p erhält man

{\displaystyle f_{p}(p)=f_{\pi }(u^{-1}(p))\left|{\frac {\partial }{\partial p}}u^{-1}(p)\right|=f_{\pi }\left({\frac {p-c}{1-c}}\right)\left|{\frac {1}{1-c}}\right|={\frac {1}{1-c}}f_{\pi }\left({\frac {p-c}{1-c}}|\alpha ,\beta \right)}.

Diese Wahrscheinlichkeitsdichte von p auf {\displaystyle (c,1)} wird in Abhängigkeit von der Wahrscheinlichkeitsdichte von \pi auf (0,1) dargestellt. In der nebenstehenden Grafik ist beispielhaft eine Beta-Verteilung auf {\displaystyle ({\tfrac {1}{3}},1)} mit Parametern {\displaystyle \alpha =0{,}5} und {\displaystyle \beta =4} eingezeichnet. Der Erwartungswert beträgt {\displaystyle 40{,}7\,\%}. Die durchschnittliche Erfolgswahrscheinlichkeit liegt damit {\displaystyle 7{,}4\,\%} über der Rate-Erfolgswahrscheinlichkeit von {\displaystyle 33{,}3\,\%}.

Trenner
Basierend auf einem Artikel in: Wikipedia.de
Seitenende
Seite zurück
© biancahoegel.de
Datum der letzten Änderung: Jena, den: 11.11. 2022