Normalverteilung

Normalverteilung
Dichtefunktion
Normal Distribution PDF.svg Dichtefunktionen der Normalverteilung {\mathcal {N}}(\mu ,\sigma ^{2}):
{\displaystyle {\mathcal {N}}(0;0{,}2)} (blau), {\displaystyle {\mathcal {N}}(0;1)} (rot), {\displaystyle {\mathcal {N}}(0;5)} (gelb) und {\displaystyle {\mathcal {N}}(-2;\,0{,}5)} (grün)
Verteilungsfunktion
Normal-distribution-cumulative-density-function-many.svg Verteilungsfunktionen der Normalverteilungen:
{\displaystyle {\mathcal {N}}(0;0{,}2)} (blau), \mathcal N(0,1) (rot), {\displaystyle {\mathcal {N}}(0,5)} (gelb) und {\displaystyle {\mathcal {N}}(-2,\,0{,}5)} (grün)
Parameter \mu \in \mathbb {R} – Erwartungswert (Lageparameter)
\sigma ^{2}>0 – Varianz (Skalenparameter)
Träger {\displaystyle {\mathcal {T}}_{X}=\mathbb {R} }
Dichtefunktion {\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\operatorname {exp} \left(-{\frac {\left(x-\mu \right)^{2}}{2\sigma ^{2}}}\right)
Verteilungsfunktion {\frac {1}{2}}\left(1+\operatorname {erf} \left({\frac {x-\mu }{\sqrt {2\sigma ^{2}}}}\right)\right)
– mit Fehlerfunktion {\displaystyle \operatorname {erf} (x)}
Erwartungswert \mu
Median \mu
Modus \mu
Varianz \sigma ^{2}\,
Schiefe {\displaystyle 0}
Wölbung 3
Entropie {\frac {1}{2}}\ln(2\pi e\,\sigma ^{2})
Momenterzeugende Funktion {\displaystyle \exp \left(\mu t+{\tfrac {1}{2}}\sigma ^{2}t^{2}\right)}
Charakteristische Funktion {\displaystyle \exp \left(i\mu t-{\tfrac {1}{2}}\sigma ^{2}t^{2}\right)}
Fisher-Information \begin{pmatrix}1/\sigma^2&0\\0&1/(2\sigma^4)\end{pmatrix}

Die Normal- oder Gauß-Verteilung (nach Carl Friedrich Gauß) ist in der Stochastik ein wichtiger Typ stetiger Wahrscheinlichkeitsverteilungen. Ihre Wahrscheinlichkeitsdichtefunktion wird auch Gauß-Funktion, Gaußsche Normalverteilung, Gaußsche Verteilungskurve, Gauß-Kurve, Gaußsche Glockenkurve, Gaußsche Glockenfunktion, Gauß-Glocke oder schlicht Glockenkurve genannt.

Die besondere Bedeutung der Normalverteilung beruht unter anderem auf dem zentralen Grenzwertsatz, dem zufolge Verteilungen, die durch additive Überlagerung einer großen Zahl von unabhängigen Einflüssen entstehen, unter schwachen Voraussetzungen annähernd normalverteilt sind. Die Familie der Normalverteilungen bildet eine Lage- und Skalenfamilie.

Die Abweichungen der Messwerte vieler natur-, wirtschafts- und ingenieurwissenschaftlicher Vorgänge vom Erwartungswert lassen sich durch die Normalverteilung (bei biologischen Prozessen oft logarithmische Normalverteilung) entweder exakt oder wenigstens in sehr guter Näherung beschreiben (vor allem Prozesse, die in mehreren Faktoren unabhängig voneinander in verschiedene Richtungen wirken).

Zufallsvariablen mit Normalverteilung benutzt man zur Beschreibung zufälliger Vorgänge wie:

In der Versicherungsmathematik ist die Normalverteilung geeignet zur Modellierung von Schadensdaten im Bereich mittlerer Schadenshöhen.

In der Messtechnik wird häufig eine Normalverteilung angesetzt, die die Streuung der Messfehler beschreibt. Hierbei ist von Bedeutung, wie viele Messpunkte innerhalb einer gewissen Streubreite liegen.

Die Standardabweichung \sigma beschreibt die Breite der Normalverteilung. Die Halbwertsbreite einer Normalverteilung ist das ungefähr {\displaystyle 2{,}4}-Fache (genau {\displaystyle 2{\sqrt {2\ln 2}}}) der Standardabweichung. Es gilt näherungsweise:

Und ebenso lassen sich umgekehrt für gegebene Wahrscheinlichkeiten die maximalen Abweichungen vom Erwartungswert finden:

Somit kann neben dem Erwartungswert, der als Schwerpunkt der Verteilung interpretiert werden kann, auch der Standardabweichung eine einfache Bedeutung im Hinblick auf die Größenordnungen der auftretenden Wahrscheinlichkeiten bzw. Häufigkeiten zugeordnet werden.

Geschichte

Gaußsche Glockenkurve auf einem deutschen Zehn-Mark-Schein der 1990er Jahre

Im Jahre 1733 zeigte Abraham de Moivre in seiner Schrift The Doctrine of Chances im Zusammenhang mit seinen Arbeiten am Grenzwertsatz für Binomialverteilungen eine Abschätzung des Binomialkoeffizienten, die als Vorform der Normalverteilung gedeutet werden kann. Die für die Normierung der Normalverteilungsdichte zur Wahrscheinlichkeitsdichte notwendige Berechnung des nichtelementaren Integrals

\int _{-\infty }^{\infty }e^{-{\frac {1}{2}}t^{2}}\mathrm {d} t={\sqrt {2\pi }}

gelang Pierre-Simon Laplace im Jahr 1782 (nach anderen Quellen Poisson). Im Jahr 1809 publizierte Gauß sein Werk Theoria motus corporum coelestium in sectionibus conicis solem ambientium (deutsch Theorie der Bewegung der in Kegelschnitten sich um die Sonne bewegenden Himmelskörper), das neben der Methode der kleinsten Quadrate und der Maximum-Likelihood-Schätzung die Normalverteilung definiert. Ebenfalls Laplace war es, der 1810 den Satz vom zentralen Grenzwert bewies, der die Grundlage der theoretischen Bedeutung der Normalverteilung darstellt und de Moivres Arbeit am Grenzwertsatz für Binomialverteilungen abschloss. Adolphe Quetelet erkannte schließlich bei Untersuchungen des Brustumfangs von mehreren tausend Soldaten im Jahr 1844 eine verblüffende Übereinstimmung mit der Normalverteilung und brachte die Normalverteilung in die angewandte Statistik. Er hat vermutlich die Bezeichnung „Normalverteilung“ geprägt.

Definition

Eine stetige Zufallsvariable X hat eine (Gauß- oder) Normalverteilung mit Erwartungswert \mu und Varianz \sigma ^{2} ({\displaystyle -\infty <\mu <\infty ,\sigma ^{2}>0}), oft geschrieben als {\displaystyle X\sim {\mathcal {N}}\left(\mu ,\sigma ^{2}\right)}, wenn X die folgende Wahrscheinlichkeitsdichte hat:[1]

{\displaystyle f(x\mid \mu ,\sigma ^{2})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\operatorname {exp} \left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}\quad -\infty <x<\infty }.

Der Graph dieser Dichtefunktion hat eine „glockenförmige Gestalt“ und ist symmetrisch mit dem Parameter \mu als Symmetriezentrum, der auch den Erwartungswert, den Median und den Modus der Verteilung darstellt. Die Varianz von X ist der Parameter \sigma ^{2}. Weiterhin hat die Wahrscheinlichkeitsdichte Wendepunkte bei x=\mu \pm \sigma .

Die Wahrscheinlichkeitsdichte einer normalverteilten Zufallsvariable hat kein definites Integral, das in geschlossener Form lösbar ist, sodass Wahrscheinlichkeiten numerisch berechnet werden müssen. Die Wahrscheinlichkeiten können mithilfe einer Standardnormalverteilungstabelle berechnet werden, die eine Standardform verwendet. Um das zu sehen, benutzt man die Tatsache, dass eine lineare Funktion einer normalverteilten Zufallsvariablen selbst wieder normalverteilt ist. Konkret heißt das, wenn {\displaystyle X\sim {\mathcal {N}}\left(\mu ,\sigma ^{2}\right)} und Y=aX+b, wobei a und b Konstanten sind mit a\neq 0, dann gilt {\displaystyle Y\sim {\mathcal {N}}\left(a\mu +b,a^{2}\sigma ^{2}\right)}. Als Folgerung daraus ergibt sich die Zufallsvariable

Dichtefunktion {\displaystyle \varphi (x)={\tfrac {1}{\sqrt {2\pi }}}e^{-{\frac {1}{2}}x^{2}}} einer normalverteilten Zufallsvariable
{\displaystyle Z={\frac {1}{\sigma }}(X-\mu )\sim {\mathcal {N}}(0,1)},

die auch standardnormalverteilte Zufallsvariable Z genannt wird. Die Standardnormalverteilung ist also die Normalverteilung mit Parametern \mu =0 und \sigma ^{2}=1. Die Dichtefunktion der Standardnormalverteilung ist gegeben durch

{\displaystyle \varphi (x)={\frac {1}{\sqrt {2\pi }}}e^{-{\frac {1}{2}}x^{2}}\quad -\infty <x<\infty }.

Ihr Verlauf ist nebenstehend graphisch dargestellt.

Die mehrdimensionale Verallgemeinerung ist im Artikel mehrdimensionale Normalverteilung zu finden.

Eigenschaften

Verteilungsfunktion

Die Verteilungsfunktion der Normalverteilung ist durch

F(x)={\frac {1}{\sigma {\sqrt {2\pi }}}}\int _{-\infty }^{x}e^{-{\frac {1}{2}}\left({\frac {t-\mu }{\sigma }}\right)^{2}}\mathrm {d} t

gegeben. Wenn man durch die Substitution {\displaystyle t=\sigma z+\mu } statt t eine neue Integrationsvariable {\displaystyle z:={\tfrac {t-\mu }{\sigma }}} einführt, ergibt sich

{\displaystyle F(x)={\frac {1}{\sqrt {2\pi }}}\int \limits _{-\infty }^{(x-\mu )/\sigma }e^{-{\frac {1}{2}}z^{2}}\mathrm {d} z=\Phi \left({\frac {x-\mu }{\sigma }}\right).}

Dabei ist \Phi die Verteilungsfunktion der Standardnormalverteilung

\Phi (x)={\frac {1}{\sqrt {2\pi }}}\int _{-\infty }^{x}e^{-{\frac {1}{2}}t^{2}}\mathrm {d} t.

Mit der Fehlerfunktion \operatorname {erf} lässt sich \Phi darstellen als

\Phi (x)={\frac {1}{2}}\left(1+\operatorname {erf} \left({\frac {x}{\sqrt {2}}}\right)\right).

Symmetrie

Der Graph der Wahrscheinlichkeitsdichte f\colon \ \mathbb {R} \to \mathbb {R} ist eine Gaußsche Glockenkurve, deren Höhe und Breite von \sigma abhängt. Sie ist achsensymmetrisch zur Geraden mit der Gleichung {\displaystyle x=\mu } und somit eine symmetrische Wahrscheinlichkeitsverteilung um ihren Erwartungswert. Der Graph der Verteilungsfunktion F ist punktsymmetrisch zum Punkt (\mu ;0{,}5). Für \mu =0 gilt insbesondere \varphi (-x)=\varphi (x) und \Phi (-x)=1-\Phi (x) für alle x\in \mathbb {R} .

Maximalwert und Wendepunkte der Dichtefunktion

Mit Hilfe der ersten und zweiten Ableitung lassen sich der Maximalwert und die Wendepunkte bestimmen. Die erste Ableitung ist

f'(x)=-{\frac {x-\mu }{\sigma ^{2}}}f(x).

Das Maximum der Dichtefunktion der Normalverteilung liegt demnach bei x_{\mathrm {max} }=\mu und beträgt dort {\displaystyle f_{\mathrm {max} }={\tfrac {1}{\sigma {\sqrt {2\pi }}}}}.

Die zweite Ableitung lautet

{\displaystyle f''(x)={\frac {1}{\sigma ^{2}}}\left({\frac {1}{\sigma ^{2}}}(x-\mu )^{2}-1\right)f(x)}.

Somit liegen die Wendestellen der Dichtefunktion bei x=\mu \pm \sigma . Die Dichtefunktion hat an den Wendestellen den Wert {\tfrac {1}{\sigma {\sqrt {2\pi e}}}}.

Normierung

Dichte einer zentrierten Normalverteilung  \delta_{a}(x)=\tfrac {1}{\sqrt{\pi}a} \cdot e^{-\frac {x^2}{a^2}}.
Für a\to 0 wird die Funktion immer höher und schmaler, der Flächeninhalt bleibt jedoch unverändert 1.

Wichtig ist, dass die gesamte Fläche unter der Kurve gleich 1, also gleich der Wahrscheinlichkeit des sicheren Ereignisses, ist. Somit folgt, dass, wenn zwei Gaußsche Glockenkurven dasselbe \mu , aber unterschiedliches \sigma haben, die Kurve mit dem größeren \sigma breiter und niedriger ist (da ja beide zugehörigen Flächen jeweils den Wert 1 haben und nur die Standardabweichung größer ist). Zwei Glockenkurven mit gleichem \sigma , aber unterschiedlichem \mu haben kongruente Graphen, die um die Differenz der \mu -Werte parallel zur x-Achse gegeneinander verschoben sind.

Jede Normalverteilung ist tatsächlich normiert, denn mit Hilfe der linearen Substitution z={\tfrac {x-\mu }{\sigma }} erhalten wir

{\displaystyle \int _{-\infty }^{\infty }{\frac {1}{\sigma {\sqrt {2\pi }}}}e^{-{\frac {1}{2}}\left({\frac {x-\mu }{\sigma }}\right)^{2}}\mathrm {d} x={\frac {1}{\sqrt {2\pi }}}\int _{-\infty }^{\infty }e^{-{\frac {1}{2}}z^{2}}\mathrm {d} z=1}.

Für die Normiertheit des letzteren Integrals siehe Fehlerintegral.

Berechnung

Da sich \Phi (z) nicht auf eine elementare Stammfunktion zurückführen lässt, wurde für die Berechnung früher meist auf Tabellen zurückgegriffen . Heutzutage sind in statistischen Programmiersprachen wie zum Beispiel R Funktionen verfügbar, die auch die Transformation auf beliebige \mu und \sigma beherrschen.

Erwartungswert

Der Erwartungswert der Standardnormalverteilung ist {\displaystyle 0}. Es sei X\sim {\mathcal {N}}\left(0,1\right), so gilt

\operatorname {E} (X)={\frac {1}{\sqrt {2\pi }}}\int \limits _{-\infty }^{+\infty }x\ e^{-{\frac {1}{2}}x^{2}}\mathrm {d} x=0,

da der Integrand integrierbar und punktsymmetrisch ist.


Ist nun {\displaystyle Y\sim {\mathcal {N}}\left(\mu ,\sigma ^{2}\right)}, so gilt X=(Y-\mu )/\sigma ist standardnormalverteilt, und somit

\operatorname {E} (Y)=\operatorname {E} (\sigma X+\mu )=\sigma \underbrace {\operatorname {E} (X)} _{=0}+\mu =\mu .

Varianz und weitere Streumaße

Die Varianz der (\mu ,\sigma ^{2})-normalverteilten Zufallsvariablen entspricht dem Parameter \sigma ^{2}

{\displaystyle \operatorname {Var} (X)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\int _{-\infty }^{\infty }(x-\mu )^{2}e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}\,\mathrm {d} x=\sigma ^{2}}.

Ein elementarer Beweis wird Poisson zugeschrieben.

Die mittlere absolute Abweichung ist {\sqrt {\frac {2}{\pi }}}\,\sigma \approx 0{,}80\sigma und der Interquartilsabstand \approx 1{,}349\sigma .

Standardabweichung der Normalverteilung

Eindimensionale Normalverteilungen werden durch Angabe von Erwartungswert \mu und Varianz \sigma ^{2} vollständig beschrieben. Ist also X eine \mu -\sigma ^{2}-verteilte Zufallsvariable – in Symbolen X \sim \mathcal{N}(\mu,\sigma^2) –, so ist ihre Standardabweichung einfach \sigma_X = \sqrt{\sigma^2} = \sigma.

Streuintervalle

Intervalle um \mu bei der Normalverteilung

Aus der Standardnormalverteilungstabelle ist ersichtlich, dass für normalverteilte Zufallsvariablen jeweils ungefähr

68,3 % der Realisierungen im Intervall \mu\pm\sigma,
95,4 % im Intervall \mu\pm 2\sigma und
99,7 % im Intervall \mu\pm 3\sigma

liegen. Da in der Praxis viele Zufallsvariablen annähernd normalverteilt sind, werden diese Werte aus der Normalverteilung oft als Faustformel benutzt. So wird beispielsweise \sigma oft als die halbe Breite des Intervalls angenommen, das die mittleren zwei Drittel der Werte in einer Stichprobe umfasst, siehe Quantil.

Normalverteilung (a) und kontaminierte Normalverteilung (b)

Diese Praxis ist aber nicht empfehlenswert, denn sie kann zu sehr großen Fehlern führen. Zum Beispiel ist die Verteilung {\displaystyle P=0{,}9\cdot {\mathcal {N}}(\mu ,\sigma ^{2})+0{,}1\cdot {\mathcal {N}}(\mu ,(10\sigma )^{2})} optisch kaum von der Normalverteilung zu unterscheiden (siehe Bild), aber bei ihr liegen im Intervall {\displaystyle \mu \pm {\overline {\sigma }}} 92,5 % der Werte, wobei {\displaystyle {\overline {\sigma }}} die Standardabweichung von P bezeichnet. Solche kontaminierten Normalverteilungen sind in der Praxis sehr häufig; das genannte Beispiel beschreibt die Situation, wenn zehn Präzisionsmaschinen etwas herstellen, aber eine davon schlecht justiert ist und mit zehnmal so hohen Abweichungen wie die anderen neun produziert.

Werte außerhalb der zwei- bis dreifachen Standardabweichung werden oft als Ausreißer behandelt. Ausreißer können ein Hinweis auf grobe Fehler der Datenerfassung sein. Es kann den Daten aber auch eine stark schiefe Verteilung zugrunde liegen. Andererseits liegt bei einer Normalverteilung im Durchschnitt ca. jeder 20. Messwert außerhalb der zweifachen Standardabweichung und ca. jeder 500. Messwert außerhalb der dreifachen Standardabweichung.

Da der Anteil der Werte außerhalb der sechsfachen Standardabweichung mit ca. 2 ppb verschwindend klein wird, gilt ein solches Intervall als gutes Maß für eine nahezu vollständige Abdeckung aller Werte. Das wird im Qualitätsmanagement durch die Methode Six Sigma genutzt, indem die Prozessanforderungen Toleranzgrenzen von mindestens {\displaystyle 6\sigma } vorschreiben. Allerdings geht man dort von einer langfristigen Erwartungswertverschiebung um 1,5 Standardabweichungen aus, sodass der zulässige Fehleranteil auf 3,4 ppm steigt. Dieser Fehleranteil entspricht einer viereinhalbfachen Standardabweichung ({\displaystyle 4{,}5\ \sigma }). Ein weiteres Problem der {\displaystyle 6\sigma }-Methode ist, dass die {\displaystyle 6\sigma }-Punkte praktisch nicht bestimmbar sind. Bei unbekannter Verteilung (d.h., wenn es sich nicht ganz sicher um eine Normalverteilung handelt) grenzen zum Beispiel die Extremwerte von 1.400.000.000 Messungen ein 75-%-Konfidenzintervall für die {\displaystyle 6\sigma }-Punkte ein.

Abhängigkeit der Wahrscheinlichkeit (Prozent innerhalb) von der Größe des Streuintervalls p(z)
Abhängigkeit der Streuintervallgrenze von der eingeschlossenen Wahrscheinlichkeit z(p)
Erwartete Anteile der Werte einer normalverteilten Zufallsvariablen innerhalb bzw. außerhalb der Streuintervalle {\displaystyle \left(\mu -z\sigma ,\mu +z\sigma \right)}
{\displaystyle z\sigma } Prozent innerhalb Prozent außerhalb ppb außerhalb Bruchteil außerhalb
0,674490 \sigma 50 % 50 % 500.000.000 1 / 2
0,994458 \sigma 68 % 32 % 320.000.000 1 / 3,125
1 \sigma 68,268 9492 % 31,731 0508 % 317.310.508 1 / 3,151 4872
1,281552 \sigma 80 % 20 % 200.000.000 1 / 5
1,644854 \sigma 90 % 10 % 100.000.000 1 / 10
1,959964 \sigma 95 % 5 % 50.000.000 1 / 20
2 \sigma 95,449 9736 % 4,550 0264 % 45.500.264 1 / 21,977 895
2,354820 \sigma 98,146 8322 % 1,853 1678 % 18.531.678 1 / 54
2,575829 \sigma 99 % 1 % 10.000.000 1 / 100
3 \sigma 99,730 0204 % 0,269 9796 % 2.699.796 1 / 370,398
3,290527 \sigma 99,9 % 0,1 % 1.000.000 1 / 1.000
3,890592 \sigma 99,99 % 0,01 % 100.000 1 / 10.000
4 \sigma 99,993 666 % 0,006 334 % 63.340 1 / 15.787
4,417173 \sigma 99,999 % 0,001 % 10.000 1 / 100.000
4,891638 \sigma 99,9999 % 0,0001 % 1.000 1 / 1.000.000
5 \sigma 99,999 942 6697 % 0,000 057 3303 % 573,3303 1 / 1.744.278
5,326724 \sigma 99,999 99 % 0,000 01 % 100 1 / 10.000.000
5,730729 \sigma 99,999 999 % 0,000 001 % 10 1 / 100.000.000
6 \sigma 99,999 999 8027 % 0,000 000 1973 % 1,973 1 / 506.797.346
6,109410 \sigma 99,999 9999 % 0,000 0001 % 1 1 / 1.000.000.000
6,466951 \sigma 99,999 999 99 % 0,000 000 01 % 0,1 1 / 10.000.000.000
6,806502 \sigma 99,999 999 999 % 0,000 000 001 % 0,01 1 / 100.000.000.000
7 \sigma 99,999 999 999 7440 % 0,000 000 000 256 % 0,002 56 1 / 390.682.215.445

Die Wahrscheinlichkeiten p für bestimmte Streuintervalle [\mu -z\sigma ;\mu +z\sigma ] können berechnet werden als

p=2\Phi (z)-1,

wobei {\displaystyle \Phi (z)={\frac {1}{\sqrt {2\pi }}}\int _{-\infty }^{z}e^{-{\frac {x^{2}}{2}}}\,\mathrm {d} x} die Verteilungsfunktion der Standardnormalverteilung ist.

Umgekehrt können für gegebenes p\in (0,1) durch

z=\Phi ^{{-1}}\left({\frac  {p+1}{2}}\right)

die Grenzen des zugehörigen Streuintervalls [\mu -z\sigma ;\mu +z\sigma ] mit Wahrscheinlichkeit p berechnet werden.

Ein Beispiel (mit Schwankungsbreite)

Die Körpergröße des Menschen ist näherungsweise normalverteilt. Bei einer Stichprobe von 1.284 Mädchen und 1.063 Jungen zwischen 14 und 18 Jahren wurde bei den Mädchen eine durchschnittliche Körpergröße von 166,3 cm (Standardabweichung 6,39 cm) und bei den Jungen eine durchschnittliche Körpergröße von 176,8 cm (Standardabweichung 7,46 cm) gemessen.

Demnach lässt obige Schwankungsbreite erwarten, dass 68,3 % der Mädchen eine Körpergröße im Bereich 166,3 cm ± 6,39 cm und 95,4 % im Bereich 166,3 cm ± 12,8 cm haben,

Für die Jungen lässt sich erwarten, dass 68 % eine Körpergröße im Bereich 176,8 cm ± 7,46 cm und 95 % im Bereich 176,8 cm ± 14,92 cm haben,

Variationskoeffizient

Aus Erwartungswert \mu und Standardabweichung \sigma der {\mathcal {N}}(\mu ,\sigma ^{2})-Verteilung erhält man unmittelbar den Variationskoeffizienten

\operatorname {VarK} ={\frac {\sigma }{\mu }}.

Schiefe

Die Schiefe besitzt unabhängig von den Parametern \mu und \sigma immer den Wert {\displaystyle 0}.

Wölbung

Die Wölbung ist ebenfalls von \mu und \sigma unabhängig und ist gleich 3. Um die Wölbungen anderer Verteilungen besser einschätzen zu können, werden sie oft mit der Wölbung der Normalverteilung verglichen. Dabei wird die Wölbung der Normalverteilung auf {\displaystyle 0} normiert (Subtraktion von 3); diese Größe wird als Exzess bezeichnet.

Kumulanten

Die kumulantenerzeugende Funktion ist

g_{X}(t)=\mu t+{\frac {\sigma ^{2}t^{2}}{2}}

Damit ist die erste Kumulante \kappa _{1}=\mu , die zweite ist \kappa _{2}=\sigma ^{2} und alle weiteren Kumulanten verschwinden.

Charakteristische Funktion

Die charakteristische Funktion für eine standardnormalverteilte Zufallsvariable Z\sim {\mathcal {N}}(0,1) ist

{\displaystyle \varphi _{Z}(t)=e^{-{\frac {1}{2}}t^{2}}}.

Für eine Zufallsvariable X\sim {\mathcal {N}}(\mu ,\sigma ^{2}) erhält man daraus mit {\displaystyle X=\sigma Z+\mu }:

{\displaystyle \varphi _{X}(t)=\operatorname {E} (e^{it(\sigma Z+\mu )})=\operatorname {E} (e^{it\sigma Z}e^{it\mu })=e^{it\mu }\operatorname {E} (e^{it\sigma Z})=e^{it\mu }\varphi _{Z}(\sigma t)=\exp \left(it\mu -{\tfrac {1}{2}}\sigma ^{2}t^{2}\right)}.

Momenterzeugende Funktion

Die momenterzeugende Funktion der Normalverteilung lautet

{\displaystyle m_{X}(t)=\exp \left(\mu t+{\frac {\sigma ^{2}t^{2}}{2}}\right)}.

Momente

Die Zufallsvariable X sei {\mathcal {N}}(\mu ,\sigma ^{2})-verteilt. Dann sind ihre ersten Momente wie folgt:

Ordnung Moment zentrales Moment
k \operatorname {E} (X^{k}) {\displaystyle \operatorname {E} ((X-\mu )^{k})}
0 1 1
1 \mu {\displaystyle 0}
2 \mu ^{2}+\sigma ^{2} \sigma ^{2}
3 \mu ^{3}+3\mu \sigma ^{2} {\displaystyle 0}
4 \mu ^{4}+6\mu ^{2}\sigma ^{2}+3\sigma ^{4} 3\sigma ^{4}
5 \mu ^{5}+10\mu ^{3}\sigma ^{2}+15\mu \sigma ^{4} {\displaystyle 0}
6 \mu ^{6}+15\mu ^{4}\sigma ^{2}+45\mu ^{2}\sigma ^{4}+15\sigma ^{6} 15\sigma ^{6}
7 \mu ^{7}+21\mu ^{5}\sigma ^{2}+105\mu ^{3}\sigma ^{4}+105\mu \sigma ^{6} {\displaystyle 0}
8 \mu ^{8}+28\mu ^{6}\sigma ^{2}+210\mu ^{4}\sigma ^{4}+420\mu ^{2}\sigma ^{6}+105\sigma ^{8} 105\sigma ^{8}

Alle zentralen Momente \mu _{n} lassen sich durch die Standardabweichung \sigma darstellen:

\mu _{n}={\begin{cases}0&{\text{wenn }}n{\text{ ungerade}}\\(n-1)!!\cdot \sigma ^{n}&{\text{wenn }}n{\text{ gerade}}\end{cases}}

dabei wurde die Doppelfakultät verwendet:

{\displaystyle (n-1)!!=(n-1)\cdot (n-3)\cdot \ldots \cdot 3\cdot 1\quad \mathrm {f{\ddot {u}}r} \;n{\text{ gerade}}.}

Auch für {\displaystyle X\sim {\mathcal {N}}(\mu ,\sigma ^{2})} kann eine Formel für nicht-zentrale Momente angegeben werden. Dafür transformiert man Z\sim {\mathcal {N}}(0,1) und wendet den binomischen Lehrsatz an.

{\displaystyle \operatorname {E} (X^{k})=\operatorname {E} ((\sigma Z+\mu )^{k})=\sum _{j=0}^{k}{k \choose j}\operatorname {E} (Z^{j})\sigma ^{j}\mu ^{k-j}=\sum _{i=0}^{\lfloor k/2\rfloor }{k \choose 2i}\operatorname {E} (Z^{2i})\sigma ^{2i}\mu ^{k-2i}=\sum _{i=0}^{\lfloor k/2\rfloor }{k \choose 2i}(2i-1)!!\sigma ^{2i}\mu ^{k-2i}.}

Invarianz gegenüber Faltung

Die Normalverteilung ist invariant gegenüber der Faltung, d.h., die Summe unabhängiger normalverteilter Zufallsvariablen ist wieder normalverteilt (siehe dazu auch unter stabile Verteilungen bzw. unter unendliche teilbare Verteilungen). Somit bildet die Normalverteilung eine Faltungshalbgruppe in ihren beiden Parametern. Eine veranschaulichende Formulierung dieses Sachverhaltes lautet: Die Faltung einer Gaußkurve der Halbwertsbreite \Gamma _{a} mit einer Gaußkurve der Halbwertsbreite \Gamma _{b} ergibt wieder eine Gaußkurve mit der Halbwertsbreite

{\displaystyle \Gamma _{c}={\sqrt {\Gamma _{a}^{2}+\Gamma _{b}^{2}}}}.

Sind also X,Y zwei unabhängige Zufallsvariablen mit

X\sim {\mathcal {N}}(\mu _{X},\sigma _{X}^{2}),\ Y\sim {\mathcal {N}}(\mu _{Y},\sigma _{Y}^{2}),

so ist deren Summe ebenfalls normalverteilt:

X+Y\sim {\mathcal {N}}(\mu _{X}+\mu _{Y},\sigma _{X}^{2}+\sigma _{Y}^{2}).

Das kann beispielsweise mit Hilfe von charakteristischen Funktionen gezeigt werden, indem man verwendet, dass die charakteristische Funktion der Summe das Produkt der charakteristischen Funktionen der Summanden ist (vgl. Faltungssatz der Fouriertransformation).

Gegeben seien allgemeiner n unabhängige und normalverteilte Zufallsvariablen X_{i}\sim {\mathcal {N}}(\mu _{i},\sigma _{i}^{2}). Dann ist jede Linearkombination wieder normalverteilt

{\displaystyle \sum _{i=1}^{n}c_{i}X_{i}\sim {\mathcal {N}}\left(\sum _{i=1}^{n}c_{i}\mu _{i},\sum _{i=1}^{n}c_{i}^{2}\sigma _{i}^{2}\right)}

insbesondere ist die Summe der Zufallsvariablen wieder normalverteilt

\sum _{i=1}^{n}X_{i}\sim {\mathcal {N}}\left(\sum _{i=1}^{n}\mu _{i},\sum _{i=1}^{n}\sigma _{i}^{2}\right)

und das arithmetische Mittel ebenfalls

{\frac {1}{n}}\sum _{i=1}^{n}X_{i}\sim {\mathcal {N}}\left({\frac {1}{n}}\sum _{i=1}^{n}\mu _{i},{\frac {1}{n^{2}}}\sum _{i=1}^{n}\sigma _{i}^{2}\right).

Nach dem Satz von Cramér gilt sogar die Umkehrung: Ist eine normalverteilte Zufallsvariable die Summe von unabhängigen Zufallsvariablen, dann sind die Summanden ebenfalls normalverteilt.

Die Dichtefunktion der Normalverteilung ist ein Fixpunkt der Fourier-Transformation, d.h., die Fourier-Transformierte einer Gaußkurve ist wieder eine Gaußkurve. Das Produkt der Standardabweichungen dieser korrespondierenden Gaußkurven ist konstant; es gilt die Heisenbergsche Unschärferelation.

Entropie

Die Normalverteilung hat die Entropie: \log \left(\sigma {\sqrt {2\,\pi \,e}}\right).

Da sie für gegebenen Erwartungswert und gegebene Varianz die größte Entropie unter allen Verteilungen hat, wird sie in der Maximum-Entropie-Methode oft als A-priori-Wahrscheinlichkeit verwendet.

Beziehungen zu anderen Verteilungsfunktionen

Transformation zur Standardnormalverteilung

Eine Normalverteilung mit beliebigen \mu und \sigma und der Verteilungsfunktion F hat, wie oben erwähnt, die nachfolgende Beziehung zur >{\mathcal {N}}(0,1)-Verteilung:

{\displaystyle F(x)=\Phi \left({\tfrac {x-\mu }{\sigma }}\right)}.

Darin ist \Phi die Verteilungsfunktion der Standardnormalverteilung.

Wenn X\sim {\mathcal {N}}(\mu ,\sigma ^{2}), dann führt die Standardisierung

Z={\frac {X-\mu }{\sigma }}

zu einer standardnormalverteilten Zufallsvariablen Z, denn

{\displaystyle P(Z\leq z)=P\left({\tfrac {X-\mu }{\sigma }}\leq z\right)=P\left(X\leq \sigma z+\mu \right)=F(\sigma z+\mu )=\Phi (z)}.

Geometrisch betrachtet entspricht die durchgeführte Substitution einer flächentreuen Transformation der Glockenkurve von {\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})} zur Glockenkurve von {\mathcal {N}}(0,1).

Approximation der Binomialverteilung durch die Normalverteilung

Die Normalverteilung kann zur Approximation der Binomialverteilung verwendet werden, wenn der Stichprobenumfang hinreichend groß und in der Grundgesamtheit der Anteil der gesuchten Eigenschaft weder zu groß noch zu klein ist (Satz von Moivre-Laplace, zentraler Grenzwertsatz.

Ist ein Bernoulli-Versuch mit n voneinander unabhängigen Stufen (bzw. Zufallsexperimenten) mit einer Erfolgswahrscheinlichkeit p gegeben, so lässt sich die Wahrscheinlichkeit fürk Erfolge allgemein durch {\displaystyle P(X=k)={\tbinom {n}{k}}\cdot p^{k}\cdot (1-p)^{n-k},\quad k=0,1,\dotsc ,n} berechnen (Binomialverteilung).

Diese Binomialverteilung kann durch eine Normalverteilung approximiert werden, wenn n hinreichend groß und p weder zu groß noch zu klein ist. Als Faustregel dafür gilt np(1-p)\geq 9. Für den Erwartungswert \mu und die Standardabweichung \sigma gilt dann:

{\displaystyle \mu =n\cdot p} und {\displaystyle \sigma ={\sqrt {n\cdot p\cdot (1-p)}}}.

Damit gilt für die Standardabweichung \sigma \geq 3.

Falls diese Bedingung nicht erfüllt sein sollte, ist die Ungenauigkeit der Näherung immer noch vertretbar, wenn gilt: np\geq 4 und zugleich n(1-p)\geq 4.

Folgende Näherung ist dann brauchbar:

{\begin{aligned}P(x_{1}\leq X\leq x_{2})&=\underbrace {\sum _{k=x_{1}}^{x_{2}}{n \choose k}\cdot p^{k}\cdot (1-p)^{n-k}} _{\mathrm {BV} }\\&\approx \underbrace {\Phi \left({\frac {x_{2}+0{,}5-\mu }{\sigma }}\right)-\Phi \left({\frac {x_{1}-0{,}5-\mu }{\sigma }}\right)} _{\mathrm {NV} }.\end{aligned}}

Bei der Normalverteilung wird die untere Grenze um 0,5 verkleinert und die obere Grenze um 0,5 vergrößert, um eine bessere Approximation gewährleisten zu können. Dies nennt man auch „Stetigkeitskorrektur“. Nur wenn \sigma einen sehr hohen Wert besitzt, kann auf sie verzichtet werden.

Da die Binomialverteilung diskret ist, muss auf einige Punkte geachtet werden:

{\displaystyle P(X_{\text{BV}}<x)=P(X_{\text{BV}}\leq x-1)} bzw. {\displaystyle P(X_{\text{BV}}>x)=P(X_{\text{BV}}\geq x+1)},
damit mit der Normalverteilung weitergerechnet werden kann.
Zum Beispiel: {\displaystyle P(X_{\text{BV}}<70)=P(X_{\text{BV}}\leq 69)}
{\displaystyle P(X_{\text{BV}}\leq x)=P(0\leq X_{\text{BV}}\leq x)}
{\displaystyle P(X_{\text{BV}}\geq x)=P(x\leq X_{\text{BV}}\leq n)}
{\displaystyle P(X_{\text{BV}}=x)=P(x\leq X_{\text{BV}}\leq x)} (unbedingt mit Stetigkeitskorrektur)
und lässt sich somit durch die oben angegebene Formel berechnen.

Der große Vorteil der Approximation liegt darin, dass sehr viele Stufen einer Binomialverteilung sehr schnell und einfach bestimmt werden können.

Beziehung zur Cauchy-Verteilung

Der Quotient von zwei stochastisch unabhängigen {\mathcal {N}}(0,1)-standardnormalverteilten Zufallsvariablen ist Cauchy-verteilt.

Beziehung zur Chi-Quadrat-Verteilung

Das Quadrat einer normalverteilten Zufallsvariablen hat eine Chi-Quadrat-Verteilung mit einem Freiheitsgrad. Also: Wenn {\displaystyle Z\sim {\mathcal {N}}(0,1)}, dann {\displaystyle Z^{2}\sim \chi ^{2}(1)}. Weiterhin gilt: Wenn {\displaystyle \chi ^{2}(r_{1}),\chi ^{2}(r_{2}),\dotsc ,\chi ^{2}(r_{n})} gemeinsam stochastisch unabhängige Chi-Quadrat-verteilte Zufallsvariablen sind, dann gilt

{\displaystyle Y=\chi ^{2}(r_{1})+\chi ^{2}(r_{2})+\dotsb +\chi ^{2}(r_{n})\sim \chi ^{2}(r_{1}+\dotsb +r_{n})}.

Daraus folgt mit unabhängig und standardnormalverteilten Zufallsvariablen {\displaystyle Z_{1},Z_{2},\dotsc ,Z_{n}}:

{\displaystyle Y=Z_{1}^{2}+\dotsb +Z_{n}^{2}\sim \chi ^{2}(n)}

Weitere Beziehungen sind:

Beziehung zur Rayleigh-Verteilung

Der Betrag {\displaystyle Z={\sqrt {X^{2}+Y^{2}}}} zweier unabhängiger normalverteilter Zufallsvariablen X,Y, jeweils mit Mittelwert {\displaystyle \mu _{X}=\mu _{Y}=0} und gleichen Varianzen {\displaystyle \sigma _{X}^{2}=\sigma _{Y}^{2}=\sigma ^{2}}, ist Rayleigh-verteilt mit Parameter \sigma >0.

Beziehung zur logarithmischen Normalverteilung

Ist die Zufallsvariable X normalverteilt mit {\mathcal {N}}(\mu ,\sigma ^{2}), dann ist die Zufallsvariable Y=e^{X} logarithmisch-normalverteilt, also {\displaystyle Y\sim {\mathcal {LN}}(\mu ,\sigma ^{2})}.

Die Entstehung einer logarithmischen Normalverteilung ist auf multiplikatives, die einer Normalverteilung auf additives Zusammenwirken vieler Zufallsvariablen zurückführen.

Beziehung zur F-Verteilung

Wenn die stochastisch unabhängigen und identisch-normalverteilten Zufallsvariablen {\displaystyle X_{1}^{(1)},X_{2}^{(1)},\dotsc ,X_{n}^{(1)}} und {\displaystyle X_{1}^{(2)},X_{2}^{(2)},\dotsc ,X_{n}^{(2)}} die Parameter

\operatorname {E} (X_{i}^{(1)})=\mu _{1},{\sqrt {\operatorname {Var} (X_{i}^{(1)})}}=\sigma _{1}
\operatorname {E} (X_{i}^{(2)})=\mu _{2},{\sqrt {\operatorname {Var} (X_{i}^{(2)})}}=\sigma _{2}

besitzen, dann unterliegt die Zufallsvariable

{\displaystyle Y_{n_{1}-1,n_{2}-1}:={\frac {\sigma _{2}(n_{2}-1)\sum \limits _{i=1}^{n_{1}}(X_{i}^{(1)}-{\overline {X}}^{(1)})^{2}}{\sigma _{1}(n_{1}-1)\sum \limits _{j=1}^{n_{2}}(X_{i}^{(2)}-{\overline {X}}^{(2)})^{2}}}}

einer F-Verteilung mit ((n_{1}-1,n_{2}-1)) Freiheitsgraden. Dabei sind

{\displaystyle {\overline {X}}^{(1)}={\frac {1}{n_{1}}}\sum _{i=1}^{n_{1}}X_{i}^{(1)},\quad {\overline {X}}^{(2)}={\frac {1}{n_{2}}}\sum _{i=1}^{n_{2}}X_{i}^{(2)}}.

Beziehung zur studentschen t-Verteilung

Wenn die unabhängigen Zufallsvariablen X_1, X_2, \dotsc, X_n identisch normalverteilt sind mit den Parametern \mu und \sigma , dann unterliegt die stetige Zufallsvariable

{\displaystyle Y_{n-1}={\frac {{\overline {X}}-\mu }{S/{\sqrt {n}}}}}

mit dem Stichprobenmittel {\displaystyle {\overline {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}} und der Stichprobenvarianz {\displaystyle S^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}} einer studentschen t-Verteilung mit (n-1) Freiheitsgraden.

Für eine zunehmende Anzahl an Freiheitsgraden nähert sich die studentsche t-Verteilung der Normalverteilung immer näher an. Als Faustregel gilt, dass man ab ca. df>30 die studentsche t-Verteilung bei Bedarf durch die Normalverteilung approximieren kann.

Die studentsche t-Verteilung wird zur Konfidenzschätzung für den Erwartungswert einer normalverteilten Zufallsvariable bei unbekannter Varianz verwendet.

Rechnen mit der Standardnormalverteilung

Bei Aufgabenstellungen, bei denen die Wahrscheinlichkeit für \mu -{\displaystyle {\sigma }^{2}}-normalverteilte Zufallsvariablen durch die Standardnormalverteilung ermittelt werden soll, ist es nicht nötig, die oben angegebene Transformation jedes Mal durchzurechnen. Stattdessen wird einfach die Transformation

{\displaystyle Z={\frac {X-\mu }{\sigma }}}

verwendet, um eine {\mathcal {N}}(0,1)-verteilte Zufallsvariable Z zu erzeugen.

Die Wahrscheinlichkeit für das Ereignis, dass z.B. X im Intervall [x,y] liegt, ist durch folgende Umrechnung gleich einer Wahrscheinlichkeit der Standardnormalverteilung:

{\begin{aligned}P(x\leq X\leq y)&=P\left({\frac {x-\mu }{\sigma }}\leq {\frac {X-\mu }{\sigma }}\leq {\frac {y-\mu }{\sigma }}\right)\\&=P\left({\frac {x-\mu }{\sigma }}\leq Z\leq {\frac {y-\mu }{\sigma }}\right)\\&=\Phi \left({\frac {y-\mu }{\sigma }}\right)-\Phi \left({\frac {x-\mu }{\sigma }}\right)\end{aligned}}.

Grundlegende Fragestellungen

Allgemein gibt die Verteilungsfunktion die Fläche unter der Glockenkurve bis zum Wert x an, d.h., es wird das bestimmte Integral von -\infty bis x berechnet.

Dies entspricht in Aufgabenstellungen einer gesuchten Wahrscheinlichkeit, bei der die Zufallsvariable X kleiner oder nicht größer als eine bestimmte Zahl x ist. Wegen der Stetigkeit der Normalverteilung macht es keinen Unterschied, ob nun < oder \leq verlangt ist, weil z.B.

P(X=3)=\int _{3}^{3}f(x)\mathrm {d} x=0 und somit {\displaystyle P(X<3)=P(X\leq 3)}.

Analoges gilt für „größer“ und „nicht kleiner“.

Dadurch, dass X nur kleiner oder größer als eine Grenze sein (oder innerhalb oder außerhalb zweier Grenzen liegen) kann, ergeben sich für Aufgaben bei Wahrscheinlichkeitsberechnungen zu Normalverteilungen zwei grundlegende Fragestellungen:

In der Schulmathematik wird für diese Aussage gelegentlich auch die Bezeichnung linker Spitz verwendet, da die Fläche unter der Gaußkurve von links bis zur Grenze verläuft. Für z sind auch negative Werte erlaubt. Allerdings haben viele Tabellen der Standardnormalverteilung nur positive Einträge – wegen der Symmetrie der Kurve und der Negativitätsregel
\Phi (-z)\ =\ 1-\Phi (z)
des „linken Spitzes“ stellt dies aber keine Einschränkung dar.
{\displaystyle P(Z\geq z)=1-\Phi (z)}
Hier wird gelegentlich die Bezeichnung rechter Spitz verwendet, mit
{\displaystyle P(Z\geq -z)=1-\Phi (-z)=1-(1-\Phi (z))=\Phi (z)}
gibt es auch hier eine Negativitätsregel.

Da jede Zufallsvariable X mit der allgemeinen Normalverteilung sich in die Zufallsvariable {\displaystyle Z={\frac {X-\mu }{\sigma }}} mit der Standardnormalverteilung umwandeln lässt, gelten die Fragestellungen für beide Größen gleichbedeutend.

Streubereich und Antistreubereich

Häufig ist die Wahrscheinlichkeit für einen Streubereich von Interesse, d.h. die Wahrscheinlichkeit, dass die standardnormalverteilte Zufallsvariable Z Werte zwischen z_{1} und z_{2} annimmt:

P(z_{1}\leq Z\leq z_{2})=\Phi (z_{2})-\Phi (z_{1})

Beim Sonderfall des symmetrischen Streubereiches (z_{1}=-z_{2}, mit z_{2}>0) gilt

{\begin{aligned}P(-z\leq Z\leq z)&=P(|Z|\leq z)\\&=\Phi (z)-\Phi (-z)\\&=\Phi (z)-(1-\Phi (z))\\&=2\Phi (z)-1.\end{aligned}}

Für den entsprechenden Antistreubereich ergibt sich die Wahrscheinlichkeit, dass die standardnormalverteilte Zufallsvariable Z Werte außerhalb des Bereichs zwischen z_{1} und z_{2} annimmt, zu:

P(Z\leq z_{1}{\text{ oder }}Z\geq z_{2})=\Phi (z_{1})+(1-\Phi (z_{2})).

Somit folgt bei einem symmetrischen Antistreubereich

{\begin{aligned}P(Z\leq -z{\text{ oder }}Z\geq z)&=P(|Z|\geq z)\\&=\Phi (-z)+1-\Phi (z)\\&=1-\Phi (z)+1-\Phi (z)\\&=2-2\Phi (z).\end{aligned}}

Streubereiche am Beispiel der Qualitätssicherung

Besondere Bedeutung haben beide Streubereiche z.B. bei der Qualitätssicherung von technischen oder wirtschaftlichen Produktionsprozessen. Hier gibt es einzuhaltende Toleranzgrenzen x_{1} und x_{2}, wobei es meist einen größten noch akzeptablen Abstand \epsilon vom Erwartungswert \mu (= dem optimalen Sollwert) gibt. Die Standardabweichung \sigma kann hingegen empirisch aus dem Produktionsprozess gewonnen werden.

Wurde {\displaystyle [x_{1};x_{2}]=[\mu -\epsilon ;\mu +\epsilon ]} als einzuhaltendes Toleranzintervall angegeben, so liegt (je nach Fragestellung) ein symmetrischer Streu- oder Antistreubereich vor.

Im Falle des Streubereiches gilt:

{\displaystyle {\begin{aligned}P(x_{1}\leq X\leq x_{2})&=P(|X-\mu |\leq \epsilon )\\&=P(\mu -\epsilon \leq X\leq \mu +\epsilon )\\&=P\left({\frac {-\epsilon }{\sigma }}\leq Z\leq {\frac {\epsilon }{\sigma }}\right)\\&=\Phi \left({\frac {\epsilon }{\sigma }}\right)-\Phi \left({\frac {-\epsilon }{\sigma }}\right)\\&=2\Phi \left({\frac {\epsilon }{\sigma }}\right)-1\\&=\gamma \end{aligned}}}.

Der Antistreubereich ergibt sich dann aus

P(|X-\mu |\geq \epsilon )=1-\gamma

oder wenn kein Streubereich berechnet wurde durch

P(|X-\mu |\geq \epsilon )=2\cdot \left(1-\Phi \left({\frac {\epsilon }{\sigma }}\right)\right)=\alpha .

Das Ergebnis \gamma ist also die Wahrscheinlichkeit für verkaufbare Produkte, während \alpha die Wahrscheinlichkeit für Ausschuss bedeutet, wobei beides von den Vorgaben von \mu , \sigma und \epsilon abhängig ist.

Ist bekannt, dass die maximale Abweichung \epsilon symmetrisch um den Erwartungswert liegt, so sind auch Fragestellungen möglich, bei denen die Wahrscheinlichkeit vorgegeben und eine der anderen Größen zu berechnen ist.

Testen auf Normalverteilung

Quantile einer Normalverteilung und einer Chi-Quadrat-Verteilung
Eine χ²-verteilte Zufallsvariable mit 5 Freiheitsgraden wird auf Normalverteilung getestet. Für jeden Stichprobenumfang werden 10.000 Stichproben simuliert und anschließend jeweils 5 Anpassungstests zu einem Niveau von 5 % durchgeführt.

Um zu überprüfen, ob vorliegende Daten normalverteilt sind, können unter anderen folgende Methoden und Tests angewandt werden:

Die Tests haben unterschiedliche Eigenschaften hinsichtlich der Art der Abweichungen von der Normalverteilung, die sie erkennen. So erkennt der Kolmogorov-Smirnov-Test Abweichungen in der Mitte der Verteilung eher als Abweichungen an den Rändern, während der Jarque-Bera-Test ziemlich sensibel auf stark abweichende Einzelwerte an den Rändern („schwere Ränder“) reagiert.

Beim Lilliefors-Test muss im Gegensatz zum Kolmogorov-Smirnov-Test nicht standardisiert werden, d.h., \mu und \sigma der angenommenen Normalverteilung dürfen unbekannt sein.

Mit Hilfe von Quantil-Quantil-Diagrammen bzw. Normal-Quantil-Diagrammen ist eine einfache grafische Überprüfung auf Normalverteilung möglich.
Mit der Maximum-Likelihood-Methode können die Parameter \mu und \sigma der Normalverteilung geschätzt und die empirischen Daten mit der angepassten Normalverteilung grafisch verglichen werden.

Parameterschätzung, Konfidenzintervalle und Tests

Viele der statistischen Fragestellungen, in denen die Normalverteilung vorkommt, sind gut untersucht. Wichtigster Fall ist das sogenannte Normalverteilungsmodell, in dem man von der Durchführung von n unabhängigen und normalverteilten Versuchen ausgeht. Dabei treten drei Fälle auf:

Je nachdem, welcher dieser Fälle auftritt, ergeben sich verschiedene Schätzfunktionen, Konfidenzbereiche oder Tests.

Dabei kommt den folgenden Schätzfunktionen eine besondere Bedeutung zu:

{\displaystyle {\overline {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}}
ist ein erwartungstreuer Schätzer für den unbekannten Erwartungswert sowohl für den Fall einer bekannten als auch einer unbekannten Varianz. Er ist sogar der beste erwartungstreue Schätzer, d.h. der Schätzer mit der kleinsten Varianz. Sowohl die Maximum-Likelihood-Methode als auch die Momentenmethode liefern das Stichprobenmittel als Schätzfunktion.
{\displaystyle V(X)={\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-\mu _{0})^{2}}.
ist ein erwartungstreuer Schätzer für die unbekannte Varianz bei gegebenem Erwartungswert \mu _{0}. Auch sie kann sowohl aus der Maximum-Likelihood-Methode als auch aus der Momentenmethode gewonnen werden.
{\displaystyle V^{*}(X)={\frac {1}{n-1}}\sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}}.
ist ein erwartungstreuer Schätzer für die unbekannte Varianz bei unbekanntem Erwartungswert.

Erzeugung normalverteilter Zufallszahlen

Alle folgenden Verfahren erzeugen standardnormalverteilte Zufallszahlen. Durch lineare Transformation lassen sich hieraus beliebige normalverteilte Zufallszahlen erzeugen: Ist die Zufallsvariable x\sim {\mathcal {N}}(0,1)-verteilt, so ist a\cdot x+b schließlich {\mathcal {N}}(b,a^{2})-verteilt.

Box-Muller-Methode

Nach der Box-Muller-Methode lassen sich zwei unabhängige, standardnormalverteilte Zufallsvariablen X und Y aus zwei unabhängigen, gleichverteilten Zufallsvariablen U_{1},U_{2}\sim U(0,1), sogenannten Standardzufallszahlen, simulieren:

{\displaystyle X=\cos(2\pi U_{1}){\sqrt {-2\ln U_{2}}}}

und

Y=\sin(2\pi U_{1}){\sqrt {-2\ln U_{2}}}.

Polar-Methode

Die Polar-Methode von George Marsaglia ist auf einem Computer noch schneller, da sie keine Auswertungen von trigonometrischen Funktionen benötigt:

  1. Erzeuge zwei voneinander unabhängige, im Intervall [-1, 1] gleichverteilte Zufallszahlen u_{1} und u_{2}
  2. Berechne q=u_{1}^{2}+u_{2}^{2}. Falls q=0 oder q\geq 1, gehe zurück zu Schritt 1.
  3. Berechne p={\sqrt {\frac {-2\cdot \ln q}{q}}}.
  4. x_{i}=u_{i}\cdot p für i=1,2 liefert zwei voneinander unabhängige, standardnormalverteilte Zufallszahlen x_{1} und x_{2}.

Zwölferregel

Der zentrale Grenzwertsatz besagt, dass sich unter bestimmten Voraussetzungen die Verteilung der Summe unabhängig und identisch verteilter Zufallszahlen einer Normalverteilung nähert.

Ein Spezialfall ist die Zwölferregel, die sich auf die Summe von zwölf Zufallszahlen aus einer Gleichverteilung auf dem Intervall [0,1] beschränkt und bereits zu passablen Verteilungen führt.

Allerdings ist die geforderte Unabhängigkeit der zwölf Zufallsvariablen X_{i} bei den immer noch häufig verwendeten Linearen Kongruenzgeneratoren (LKG) nicht garantiert. Im Gegenteil wird vom Spektraltest für LKG meist nur die Unabhängigkeit von maximal vier bis sieben der X_{i} garantiert. Für numerische Simulationen ist die Zwölferregel daher sehr bedenklich und sollte, wenn überhaupt, dann ausschließlich mit aufwändigeren, aber besseren Pseudo-Zufallsgeneratoren wie z.B. dem Mersenne-Twister (Standard in Python, GNU R) oder WELL genutzt werden. Andere, sogar leichter zu programmierende Verfahren, sind daher i.d.R. der Zwölferregel vorzuziehen.

Verwerfungsmethode

Normalverteilungen lassen sich mit der Verwerfungsmethode (siehe dort) simulieren.

Inversionsmethode

Die Normalverteilung lässt sich auch mit der Inversionsmethode berechnen.

Da das Fehlerintegral nicht explizit mit elementaren Funktionen integrierbar ist, kann man auf Reihenentwicklungen der inversen Funktion für einen Startwert und anschließende Korrektur mit dem Newtonverfahren zurückgreifen. Dazu werden {\displaystyle \operatorname {erf} (x)} und \operatorname {erfc} (x) benötigt, die ihrerseits mit Reihenentwicklungen und Kettenbruchentwicklungen berechnet werden können – insgesamt ein relativ hoher Aufwand. Die notwendigen Entwicklungen sind in der Literatur zu finden.

Entwicklung des inversen Fehlerintegrals (wegen des Pols nur als Startwert für das Newtonverfahren verwendbar):

{\displaystyle \operatorname {erf} ^{-1}\left({\frac {2}{\sqrt {\pi }}}x\right)=x{\Bigl (}a_{1}+x^{2}{\bigl (}a_{2}+x^{2}(\dotsb ){\bigr )}{\Bigr )}}

mit den Koeffizienten

{\displaystyle {\begin{aligned}a_{i}&=1,{\tfrac {1}{3}},{\tfrac {7}{30}},{\tfrac {127}{630}},{\tfrac {4369}{22680}},{\tfrac {34807}{178200}},\dotsc \end{aligned}}}

Anwendungen außerhalb der Wahrscheinlichkeitsrechnung

Die Normalverteilung lässt sich auch zur Beschreibung nicht direkt stochastischer Sachverhalte verwenden, etwa in der Physik für das Amplitudenprofil der Gauß-Strahlen und andere Verteilungsprofile.

Zudem findet sie Verwendung in der Gabor-Transformation.

Siehe auch

Literatur

Fußnoten

  1. Bei e^x handelt es sich um die Exponentialfunktion mit der Basis e.
Trenner
Basierend auf einem Artikel in: Wikipedia.de
Seitenende
Seite zurück
©  biancahoegel.de
Datum der letzten Änderung: Jena, den: 24.06. 2021