Anzahl der Freiheitsgrade (Statistik)

In der Statistik bezeichnet man als die Anzahl der Freiheitsgrade (englisch number of degrees of freedom, kurz df oder dof) die Anzahl der Werte, die frei variiert werden können, ohne den interessierenden statistischen Parameter zu ändern. Oft werden mithilfe einer Stichprobe die unbekannten Parameter einer Grundgesamtheit geschätzt. Die Anzahl der unabhängigen Beobachtungswerte abzüglich der Anzahl der schätzbaren Parameter wird als Anzahl der Freiheitsgrade bezeichnet. Da es in einem multiplen linearen Regressionsmodell $p=(k+1)$ Parameter mit Steigungsparametern $\beta _{1},\beta _{2},\ldots ,\beta _{k}$ und einem Niveauparameter $\beta _{0}$ gibt, kann man schreiben

$fg=n-p=n-(k+1)=(\mathrm {Anzahl\;der\;Beobachtungen} )-(\mathrm {Anzahl\;der\;gesch{\ddot {a}}tzten\;Parameter} )$ .

Die Freiheitsgrade kann man auch als Anzahl der „überflüssigen“ Messungen interpretieren, die nicht zur Bestimmung der Parameter benötigt werden.

Die Freiheitsgrade werden bei der Schätzung von Varianzen benötigt. Außerdem sind verschiedene Wahrscheinlichkeitsverteilungen, mit denen anhand der Stichprobe Hypothesentests durchgeführt werden, von den Freiheitsgraden abhängig.

Beispiele

Beim Erwartungswert der Residuenquadratsumme

Für die Schätzung der Störgrößenvarianz wird die Residuenquadratsumme

$\mathrm {RSS} =\sum _{i=1}^{n}{\hat {\varepsilon }}_{i}^{2}={\hat {\boldsymbol {\varepsilon }}}^{\top }{\hat {\boldsymbol {\varepsilon }}}$

benötigt. Der erwartungstreue Schätzer für die Störgrößenvarianz ist im multiplen linearen Regressionsmodell

${\hat {\sigma }}^{2}={\frac {\left(\mathbf {y} -\mathbf {X} \mathbf {b} \right)^{\top }\left(\mathbf {y} -\mathbf {X} \mathbf {b} \right)}{n-p}}={\frac {{\hat {\boldsymbol {\varepsilon }}}^{\top }{\hat {\boldsymbol {\varepsilon }}}}{n-p}}$ ,

da $\operatorname {E} ({\hat {\sigma }}^{2})=\sigma ^{2}$ . Die Residuenquadratsumme hat $(n-p)$ Freiheitsgrade, entsprechend der Anzahl der unabhängigen Residuen. Der Erwartungswert der Residuenquadratsumme ist aufgrund der Formel für die erwartungstreue Störgrößenvarianz gegeben durch

$\operatorname {E} ({\hat {\sigma }}^{2})=\sigma ^{2}\Longleftrightarrow \operatorname {E} ({\hat {\boldsymbol {\varepsilon }}}^{\top }{\hat {\boldsymbol {\varepsilon }}})=(n-p)\sigma ^{2}$ .

Um intuitiv herausfinden zu können, warum die Anpassung der Freiheitsgrade notwendig ist, kann man die Bedingungen erster Ordnung für die KQ-Schätzer betrachten. Diese können als

$\textstyle \sum \nolimits _{i=1}^{n}{\hat {\varepsilon }}_{i}=0$

und

$\textstyle \sum \nolimits _{i=1}^{n}x_{ij}{\hat {\varepsilon }}_{i}=0,\;j=1,\ldots ,k$

ausgedrückt werden. Beim Erhalten der KQ-Schätzer werden somit den KQ-Residuen k+1 Restriktionen auferlegt. Dies bedeutet, dass bei gegebenen $n-(k+1)$ Residuen die verbleibenden (k+1) Residuen bekannt sind: In den Residuen gibt es folglich nur $n-(k+1)$ Freiheitsgrade (Im Gegensatz dazu gibt es in den wahren Störgrößen $\varepsilon _{i}$ n Freiheitsgrade in der Stichprobe.)

Eine verzerrte Schätzung, die nicht die Anzahl der Freiheitsgrade berücksichtigt ist die Größe

${\hat {\sigma }}^{2}={\frac {1}{n}}\sum _{i=1}^{n}{\hat {e}}_{i}^{2}={\frac {{\hat {\boldsymbol {\varepsilon }}}^{\top }{\hat {\boldsymbol {\varepsilon }}}}{n}}$ .

Den Schätzer bekommt man bei Anwendung der Maximum-Likelihood-Schätzung.

Bei der empirischen Varianz

Für eine erwartungstreue Schätzung der Varianz der Grundgesamtheit wird die Quadratsumme von durch die Anzahl der Freiheitsgrade geteilt und man erhält die Stichprobenvarianz (Schätzfunktion)

$S^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}$ .

Da diese Varianz erwartungstreu ist, gilt für sie $\operatorname {E} (S^{2})=\sigma ^{2}$ . Das empirische Pendant zu dieser Varianz ist die empirische Varianz

$s^{2}:={\frac {1}{n-1}}\sum \limits _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}$

Intuitiv lässt sich bei der empirischen Varianz die Mittelung durch (n-1) statt durch bei der modifizierten Form der empirischen Varianz wie folgt erklären: Aufgrund der Schwerpunkteigenschaft des empirischen Mittels $\sum \nolimits _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)=0$ ist die letzte Abweichung $\left(x_{n}-{\overline {x}}\right)$ bereits durch die ersten (n-1) bestimmt. Folglich variieren nur (n-1) Abweichungen frei und man mittelt deshalb, indem man durch die Anzahl der Freiheitsgrade (n-1) dividiert.

Anzahl der Freiheitsgrade von wichtigen Quadratsummen

Die folgende Tafel der Varianzanalyse zeigt die Anzahl der Freiheitsgrade einiger wichtiger Quadratsummen im multiplen linearen Regressionsmodell $y_{i}=\beta _{0}+x_{i1}\beta _{1}+x_{i2}\beta _{2}+\dotsc +x_{ik}\beta _{k}+\varepsilon _{i},\quad i=1,\ldots ,n$ :

Variationsquelle	Abweichungsquadratsummen	Anzahl der Freiheitsgrade	mittlere Abweichungsquadrate
Regression	$\displaystyle \sum \nolimits _{i=1}^{n}({\hat {y}}_{i}-{\overline {\hat {y}}})^{2}$
Residual	$\displaystyle \sum \nolimits _{i=1}^{n}\left(y_{i}-{\hat {y}}_{i}\right)^{2}$	$(n-p)$	$\displaystyle \sum \nolimits _{i=1}^{n}\left(y_{i}-{\hat {y}}_{i}\right)^{2}/(n-p)={\hat {\sigma }}^{2}$
Total	$\displaystyle \sum \nolimits _{i=1}^{n}\left(y_{i}-{\overline {y}}\right)^{2}$		$\displaystyle \sum \nolimits _{i=1}^{n}\left(y_{i}-{\overline {y}}\right)^{2}/(n-1)=s_{y}^{2}$

Diese Quadratsummen spielen bei der Berechnung des Bestimmtheitsmaßes eine große Rolle.

Freiheitsgrade als Parameter von Verteilungen

Die Anzahl der Freiheitsgrade ist auch Parameter mehrerer Verteilungen. Wenn die Beobachtungen normalverteilt sind, dann folgt der Quotient aus der Residuenquadratsumme ${\text{RSS}}$ und der Störgrößenvarianz $\sigma ^{2}$ einer Chi-Quadrat-Verteilung mit n-p Freiheitsgraden:

${\frac {\text{RSS}}{\sigma ^{2}}}={\frac {{\hat {\boldsymbol {\varepsilon }}}^{\top }{\hat {\boldsymbol {\varepsilon }}}}{\sigma ^{2}}}={\frac {{\boldsymbol {\varepsilon }}^{\top }\left(\mathbf {I} _{n}-\mathbf {X} (\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\right){\boldsymbol {\varepsilon }}}{\sigma ^{2}}}\sim \chi ^{2}(n-p)$ .

Die Größe ${\text{RSS}}/\sigma ^{2}$ folgt einer Chi-Quadrat-Verteilung mit n-p Freiheitsgraden, weil die Anzahl der Freiheitsgrade der Chi-Quadrat-Verteilung der Spur der Projektionsmatrix $\left(\mathbf {I} _{n}-\mathbf {X} (\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\right)$ entspricht, also

${\frac {{\boldsymbol {\varepsilon }}^{\top }\left(\mathbf {I} -\mathbf {X} (\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\right){\boldsymbol {\varepsilon }}}{\sigma ^{2}}}\sim \chi ^{2}(\operatorname {Spur} \left(\mathbf {I} _{n}-\mathbf {X} (\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\right)$

Für die Spur von $\left(\mathbf {I} _{n}-\mathbf {X} (\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\right)$ gilt $\operatorname {Spur} \left(\mathbf {I} _{n}-\mathbf {X} (\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\right)=n-p$ . Weitere von der Anzahl der Freiheitsgrade abhängige Verteilungen sind die t-Verteilung und die F-Verteilung. Diese Verteilungen werden für die Schätzung von Konfidenzintervallen der Parameter und für Hypothesentests benötigt.

Eine weitere wichtige Größe, die für die statistische Inferenz benötigt wird und deren Verteilung von Freiheitsgraden abhängt, ist die t-Statistik. Man kann zeigen, dass die Größe

${\frac {\frac {{\boldsymbol {R}}_{1}{\boldsymbol {\hat {\beta }}}-{\boldsymbol {R}}_{1}{\boldsymbol {\beta }}}{\sqrt {\sigma ^{2}{\boldsymbol {R}}_{1}(\mathbf {X} ^{\top }\mathbf {X} )^{-1}{\boldsymbol {R}}_{1}^{\top }}}}{\sqrt {\frac {(n-p){\hat {\sigma }}^{2}}{\sigma ^{2}(n-p)}}}}={\frac {{\mathcal {N}}(0;1)}{\sqrt {\frac {\chi _{n}^{2}}{n}}}}\;\;{\stackrel {H_{0}}{\sim }}\;\;{\mathcal {t}}(n-p)$

einer t-Verteilung mit $(t-k)$ Freiheitsgraden folgt.

Basierend auf einem Artikel in:

Wikipedia.de