Fisher-Information

Die Fisher-Information (benannt nach dem Statistiker Ronald Fisher) ist eine Kenngröße aus der mathematischen Statistik, die für eine Familie von Wahrscheinlichkeitsdichten definiert werden kann und Aussagen über die bestmögliche Qualität von Parameterschätzungen in diesem Modell liefert.

Definition

Gegeben sei ein einparametriges statistisches Standardmodell {\displaystyle (X,{\mathcal {A}},(P_{\vartheta })_{\vartheta \in \Theta })}, das heißt

Des Weiteren sei  \Theta eine offene Menge und es existiere die Score-Funktion

{\displaystyle S_{\vartheta }(x):={\frac {\partial }{\partial \vartheta }}\ln f(x,\vartheta )={\frac {{\frac {\partial }{\partial \vartheta }}f(x,\vartheta )}{f(x,\vartheta )}}}

und sei endlich. Dann wird die Fisher-Information des Modells entweder definiert als

{\displaystyle I(\vartheta ):=\operatorname {Var} _{\vartheta }(S_{\vartheta })}

oder als

{\displaystyle I(\vartheta ):=\operatorname {E} _{\vartheta }(S_{\vartheta }^{2})}.

Dabei bezeichnet {\displaystyle \operatorname {Var} _{\vartheta }} die Varianz bezüglich der Wahrscheinlichkeitsverteilung {\displaystyle P_{\vartheta }}. Unter der Regularitätsbedingung

{\displaystyle \int {\frac {\partial }{\partial \vartheta }}\,f(x,\vartheta )\,\mathrm {d} \mu (x)={\frac {\partial }{\partial \vartheta }}\int f(x,\vartheta )\,\mathrm {d} \mu (x)}

fallen die beiden Definitionen zusammen. Gilt zusätzlich die Regularitätsbedingung

{\displaystyle \int {\frac {\partial ^{2}}{\partial \vartheta ^{2}}}\,f(x,\vartheta )\,\mathrm {d} \mu (x)={\frac {\partial ^{2}}{\partial \vartheta ^{2}}}\int f(x,\vartheta )\,\mathrm {d} \mu (x)},

so ist die Fisher-Information gegeben durch

{\displaystyle I(\vartheta )=-\operatorname {E} _{\vartheta }\left({\frac {\partial }{\partial \vartheta }}S_{\vartheta }\right)}.

Bemerkungen zur Definition

Folgende Dinge sind bei der Definition zu beachten:

Beispiele

Diskreter Grundraum: Poisson-Verteilung

Als statistisches Modell sei der Grundraum {\displaystyle X=\{0,1,2,\dots \}} gegeben, versehen mit der σ-Algebra {\displaystyle {\mathcal {A}}={\mathcal {P}}(X)}, der Potenzmenge. Für {\displaystyle \lambda \in (0,\infty )} sei P_{\lambda } die Poisson-Verteilung. Demnach ist die Dichtefunktion, hier bezüglich des Zählmaßes, gegeben durch

{\displaystyle f(x,\lambda )={\frac {\lambda ^{x}}{x!}}\,\mathrm {e} ^{-\lambda }}.

Damit ergibt sich die Score-Funktion zu

{\displaystyle S_{\lambda }(x)={\frac {\partial }{\partial \lambda }}\ln f(x,\lambda )={\frac {\partial }{\partial \lambda }}\left(x\ln(\lambda )-\ln(x!)-\lambda \right)={\frac {x}{\lambda }}-1}

Damit ist die Fisher-Information nach den Rechenregeln für die Varianz unter linearen Transformationen

{\displaystyle I(\lambda )=\operatorname {Var} _{\lambda }(S_{\lambda })={\frac {1}{\lambda }}}.

Stetiger Grundraum: Exponentialverteilung

Als statistisches Modell sei diesmal {\displaystyle X=(0,\infty )} und {\displaystyle {\mathcal {A}}={\mathcal {B}}((0,\infty ))} gewählt. Die P_{\lambda } seien Exponentialverteilt zum Parameter {\displaystyle \lambda \in (0,\infty )}. Somit besitzen sie die Dichtefunktion (bezüglich des Lebesgue-Maßes)

{\displaystyle f(x,\lambda )=\lambda \exp(-\lambda x)}.

Demnach ist die Score-Funktion

{\displaystyle S_{\lambda }(x)={\frac {\partial }{\partial \lambda }}\ln f(x,\lambda )={\frac {\partial }{\partial \lambda }}\left(\ln(\lambda )-\lambda x\right)={\frac {1}{\lambda }}-x},

folglich ist die Fisher-Information

{\displaystyle I(\lambda )=\operatorname {Var} _{\lambda }(S_{\lambda })={\frac {1}{\lambda ^{2}}}}

Fisher-Information einer Exponentialfamilie

Ist {\displaystyle P_{\vartheta }} durch eine einparametrige Exponentialfamilie gegeben, besitzt also die Dichtefunktion

{\displaystyle f(x,\vartheta )=h(x)A(\vartheta )\exp(\eta (\vartheta )T(x))},

so ist die Score-Funktion gegeben durch

{\displaystyle S_{\vartheta }(x)=\eta '(\vartheta )T(x)+{\frac {A'(\vartheta )}{A(\vartheta )}}}.

Daraus folgt für die Fisher-Information

{\displaystyle I(\vartheta )=\left[\eta '(\vartheta )\right]^{2}\cdot \operatorname {Var} _{\vartheta }(T(x))}.

Ist die Exponentialfamilie in der natürlichen Parametrisierung gegeben, als {\displaystyle \eta (\vartheta )=\vartheta }, so vereinfacht sich dies zu

{\displaystyle S_{\vartheta }(x)=T(x)+{\frac {A'(\vartheta )}{A(\vartheta )}}{\text{ und }}I(\vartheta )=\operatorname {Var} _{\vartheta }(T(x))}

In diesem Fall ist also die Varianz der kanonischen Statistik T die Fisher-Information.

Eigenschaften und Anwendungen

Additivität

Die Fisher-Information ist im Fall unabhängig und identisch verteilter Zufallsvariablen unter der ersten Regularitätsbedingung additiv, das heißt für die Fisher-Information {\mathcal  {I}}^{{(n)}} einer Stichprobe X_{1},\dotsc ,X_{n} unabhängiger und identisch verteilter Zufallsvariabler mit Fisher-Information {\mathcal {I}} gilt

{\mathcal  {I}}^{{(n)}}(\vartheta )=n\cdot {\mathcal  {I}}(\vartheta ).

Diese Eigenschaft folgt direkt aus der Gleichung von Bienaymé.

Suffizienz

Ferner gilt für suffiziente Statistiken T, dass die Fisher-Information bezüglich f_{{\vartheta }}(X) dieselbe wie für g_{{\vartheta }}(T(X)) ist, wobei f_{{\vartheta }}(x)=h(x)g_{{\vartheta }}(T(x)) gilt.

Verwendung

Benutzt wird die Fisher-Information speziell in der Cramér-Rao-Ungleichung, wo ihr Kehrwert bei Gültigkeit der angesprochenen Regularitätsbedingung eine untere Schranke für die Varianz eines Schätzers für \vartheta liefert: Ist T(X) ein erwartungstreuer Schätzer für den unbekannten Parameter \vartheta , dann gilt \operatorname {Var}_{{\vartheta }}(T(X))\geq {\mathcal  {I}}(\vartheta )^{{-1}}.

Erweiterungen auf höhere Dimensionen

Falls das Modell von mehreren Parametern \vartheta _{{i}} mit 1\leq i\leq k abhängt, lässt sich die Fisher-Information als symmetrische Matrix {\mathcal  {I}}(\vartheta )=({\mathcal  {I}}_{{ij}}(\vartheta ))_{{i,j=1,\dotsc ,k}} definieren, wobei

{\displaystyle {\mathcal {I}}_{ij}(\vartheta )=\operatorname {E} _{\vartheta }\left[{\frac {\partial }{\partial \vartheta _{i}}}\log f_{\vartheta }(X)\cdot {\frac {\partial }{\partial \vartheta _{j}}}\log f_{\vartheta }(X)\right]}

gilt. Sie wird die Fisher-Informationsmatrix genannt. Die Eigenschaften bleiben im Wesentlichen erhalten. Unter der Regularitätsbedingung ist {\mathcal  {I}}(\vartheta ) die Kovarianzmatrix der Score-Funktion.

Beispiel: Normalverteilung

Ist X normalverteilt mit Erwartungswert \vartheta als Parameter und bekannter Varianz v > 0, dann ist f_{{\vartheta }}(x)={\frac  {1}{{\sqrt  {2\pi v}}}}{\mathrm  {e}}^{{-{\frac  {(x-\vartheta )^{2}}{2v}}}}. Es folgt

{\frac  {\partial }{\partial \vartheta }}\log f_{{\vartheta }}(x)={\frac  {x-\vartheta }{v}},

also

{\mathcal  {I}}(\vartheta )=\operatorname {Var}\left({\frac  {X-\vartheta }{v}}\right)={\frac  {1}{v}}.

Betrachtet man dagegen sowohl den Erwartungswert \mu als auch die Varianz v als unbekannte Parameter, so ergibt sich

{\mathcal  {I}}(\mu ,v)={\begin{pmatrix}{\dfrac  {1}{v}}&0\\0&{\dfrac  {1}{2v^{2}}}\end{pmatrix}}

als Fisher-Informationsmatrix.

Literatur

Trenner
Basierend auf einem Artikel in: Wikipedia.de
Seitenende
Seite zurück
©  biancahoegel.de
Datum der letzten Änderung: Jena, den: 31.01. 2021