Erwartungstreue Schätzung der Varianz der Störgrößen

In der Statistik ist die erwartungstreue Schätzung der Varianz der Störgrößen, auch erwartungstreue Schätzung der Fehlervarianz genannt, ein Punktschätzer, der die Güteeigenschaft aufweist, dass er unbekannte Varianz der Störgrößen erwartungstreu schätzt, falls die Gauß-Markow-Annahmen zutreffen.

Einführung in die Problemstellung

Die Fehlervarianz, auch Restvarianz, Versuchsfehler, Störgrößenvarianz, Varianz der Störgrößen, nicht erklärte Varianz, unerklärte Varianz, bezeichnet mit $\sigma ^{2}$ , ist die Varianz der Regressionsfunktion in der Grundgesamtheit und damit die Varianz der Fehlerterme bzw. Störgrößen. Die Fehlervarianz $\sigma ^{2}=\operatorname {E} [(\varepsilon _{i}-\operatorname {E} (\varepsilon _{i}))^{2}]\quad ,i=1\ldots n$ ist ein unbekannter Parameter, der anhand der Stichprobeninformation geschätzt werden muss. Sie bemisst diejenige Variation, die auf die Messfehler bzw. Störgrößen zurückzuführen sind. Ein erster naheliegender Ansatz wäre, die Varianz der Störgrößen wie gewöhnlich mit der Maximum-Likelihood-Schätzung zu schätzen (siehe klassischen linearen Modells der Normalregression). Allerdings ist dieser Schätzer problematisch, wie im Folgenden erläutert wird.

Erwartungstreuer Schätzer für die Varianz der Störgrößen

Einfache lineare Regression

Obwohl für die homoskedastische Varianz in der Grundgesamtheit $\operatorname {Var} (y\mid X=x)=\operatorname {Var} (\beta _{0}+\beta _{1}x+\varepsilon )=\operatorname {Var} (\varepsilon )=\sigma ^{2}=\operatorname {konst.}$ manchmal angenommen wird, dass sie bekannt ist, muss man davon ausgehen, dass sie in den meisten Anwendungsfällen unbekannt ist (beispielsweise bei der Schätzung von Nachfrageparametern in ökonomischen Modellen, oder Produktionsfunktionen). Da die Störgrößenvarianz einen unbekannten Wert besitzt, können die numerischen Werte der Varianzen des Steigungsparameters und des Absolutglieds nicht geschätzt werden, da die Formeln von dieser abhängen. Jedoch kann aus den vorliegenden Daten eine Schätzung dieser Größen vorgenommen werden. Ein naheliegender Schätzer der Störgrößen $\varepsilon_i$ ist das Residuum ${\hat {\varepsilon }}_{i}=y_{i}-{\hat {y}}_{i}$ , wobei ${\hat {y}}_{i}={\hat {\beta }}_{0}+{\hat {\beta }}_{1}x_{i}$ die Stichproben-Regressionsfunktion darstellt. Die in den Residuen steckende Information könnte also für einen Schätzer der Störgrößenvarianz genutzt werden. Aufgrund der Tatsache, dass $\operatorname {E} (\varepsilon _{i}^{2})=\sigma ^{2}$ gilt, ist $\sigma ^{2}$ aus frequentistischer Sicht der „Mittelwert“ von $\varepsilon _{i}^{2}$ . Die Größe $\varepsilon _{i}^{2}$ ist aber unbeobachtbar, da die Störgrößen unbeobachtbar sind. Wenn man statt $\varepsilon _{i}^{2}$ nun das beobachtbare Pendant ${\hat {\varepsilon }}_{i}^{2}$ benutzt, führt dies zum folgenden Schätzer für die Störgrößenvarianz

${\tilde {s}}^{2}={\frac {1}{n}}\sum \nolimits _{i=1}^{n}{\hat {\varepsilon }}_{i}^{2}={\frac {1}{n}}{\hat {\boldsymbol {\varepsilon }}}^{\top }{\hat {\boldsymbol {\varepsilon }}}={\frac {1}{n}}\sum \limits _{i=1}^{n}(y_{i}-{\hat {\beta }}_{0}-{\hat {\beta }}_{1}x_{i})^{2}={\frac {1}{n}}SQR$ ,

wobei $SQR$ die Residuenquadratsumme darstellt. Dieser Schätzer ist das Stichprobenmittel der geschätzten Residuenquadrate und könnte zur Schätzung der Störgrößenvarianz genutzt werden. Man kann zeigen, dass die obige Definition ebenfalls dem Maximum-Likelihood-Schätzer entspricht ( ${\tilde {s}}^{2}={\hat {\sigma }}_{\text{ML}}^{2}$ ). Allerdings erfüllt der Schätzer nicht gängige Qualitätskriterien für Punktschätzer und wird daher nicht oft genutzt. Beispielsweise ist der Schätzer nicht erwartungstreu für $\sigma ^{2}$ . Dies liegt daran, dass der Erwartungswert der Residuenquadratsumme $\operatorname {E} ({\hat {\boldsymbol {\varepsilon }}}^{\top }{\hat {\boldsymbol {\varepsilon }}})=\sigma ^{2}(n-p)$ ergibt und daher für den Erwartungswert dieses Schätzers $\operatorname {E} ({\hat {\sigma }}_{\text{ML}}^{2})={\frac {n-p}{n}}\sigma ^{2}$ gilt. In der einfachen linearen Regression lässt sich unter den Voraussetzungen des klassischen Modells der linearen Einfachregression zeigen, dass eine erwartungstreue Schätzung für $\sigma ^{2}$ , d..h eine Schätzung, die $\operatorname {E} ({\hat {\sigma }}^{2})=\sigma ^{2}$ erfüllt, gegeben ist durch

${\hat {\sigma }}^{2}=s^{2}={\frac {1}{n-2}}\sum \limits _{i=1}^{n}(y_{i}-{\hat {\beta }}_{0}-{\hat {\beta }}_{1}x_{i})^{2}={\frac {1}{n-2}}SQR$ ,

wobei vorausgesetzt wird, dass n>2 . Diese erwartungstreue Schätzung für $\sigma ^{2}$ ist das mittleres Residuenquadrat und wird gelegentlich als Residualvarianz bezeichnet. Die Quadratwurzel dieser erwartungstreuen Schätzung bzw. der Residualvarianz wird als Standardfehler der Regression bezeichnet. Die Residualvarianz kann als mittlerer Modellschätzfehler interpretiert werden und bildet die Grundlage für alle weiteren Berechnungen (Konfidenzintervalle, Standardfehler der Regressionsparameter etc.). Sie unterscheidet sich zu obigen Ausdruck in der Hinsicht, dass die Residuenquadratsumme um die Anzahl der Freiheitsgrade adjustiert wird. Intuitiv lässt sich diese Adjustierung damit erklären, dass man durch die Schätzung der beiden unbekannten Regressionsparameter $\beta _{0}$ und $\beta _{1}$ zwei Freiheitsgrade verliert.

Wie bereits oben erwähnt ist eine erwartungstreue Schätzung für $\sigma ^{2}$ in der einfachen linearen Regression gegeben durch

${\hat {\sigma }}^{2}=s^{2}={\frac {1}{n-2}}\sum \limits _{i=1}^{n}(y_{i}-{\hat {\beta }}_{0}-{\hat {\beta }}_{1}x_{i})^{2}$ ,

wobei ${\hat {\beta }}_{1}={\frac {\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})(y_{i}-{\overline {y}})}{\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}\;$ und $\;{\hat {\beta }}_{0}={\overline {y}}-{\hat {\beta }}_{1}{\overline {x}}$ die Kleinste-Quadrate-Schäzter für $\beta _{0}$ und $\beta _{1}$ sind.

Um die Erwartungstreue zu zeigen, benutzt man die Eigenschaft, dass sich die Residuen als Funktion der Störgrößen darstellen lassen als ${\hat {\varepsilon }}_{i}=\varepsilon _{i}-({\hat {\beta }}_{0}-\beta _{0})-({\hat {\beta }}_{1}-\beta _{1})x_{i}$ . Des Weiteren wird die Eigenschaft benutzt, dass die Varianz des KQ-Schätzers ${\hat {\beta }}_{1}$ gegeben ist durch $\operatorname {Var} ({\hat {\beta }}_{1})=\sigma ^{2}{\frac {1}{\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}$ . Außerdem ist zu beachten, dass der Erwartungswert des KQ-Schätzers ${\hat {\beta }}_{1}$ gegeben ist durch $\beta _{1}$ und gleiches gilt für ${\hat {\beta }}_{0}$ .

Beweis

${\begin{aligned}\operatorname {E} ({\hat {\sigma }}^{2})&=\operatorname {E} \left({\tfrac {1}{n-2}}\sum \nolimits _{i=1}^{n}{\hat {\varepsilon }}_{i}^{2}\right)\\&=\operatorname {E} \left({\tfrac {1}{n-2}}\sum \nolimits _{i=1}^{n}({\hat {\varepsilon }}_{i}-{\overline {\hat {\varepsilon }}})^{2}\right)\\&=\operatorname {E} \left({\tfrac {1}{n-2}}\sum \nolimits _{i=1}^{n}({\hat {\varepsilon }}_{i}-({\overline {\varepsilon }}-({\hat {\beta }}_{0}-\beta _{0})-({\hat {\beta }}_{1}-\beta _{1}){\overline {x}}))^{2}\right)\\&=\operatorname {E} \left({\tfrac {1}{n-2}}\sum \nolimits _{i=1}^{n}(\varepsilon _{i}-({\hat {\beta }}_{0}-\beta _{0})-({\hat {\beta }}_{1}-\beta _{1})x_{i}-({\overline {\varepsilon }}-({\hat {\beta }}_{0}-\beta _{0})-({\hat {\beta }}_{1}-\beta _{1}){\overline {x}}))^{2}\right)\\&=\operatorname {E} \left({\tfrac {1}{n-2}}\sum \nolimits _{i=1}^{n}((\varepsilon _{i}-{\overline {\varepsilon }})-({\hat {\beta }}_{1}-\beta _{1})(x_{i}-{\overline {x}}))^{2}\right)\\&=\operatorname {E} \left({\tfrac {1}{n-2}}\sum \nolimits _{i=1}^{n}((\varepsilon _{i}-{\overline {\varepsilon }})^{2}-2(\varepsilon _{i}-{\overline {\varepsilon }})({\hat {\beta }}_{1}-\beta _{1})(x_{i}-{\overline {x}})+({\hat {\beta }}_{1}-\beta _{1})^{2}(x_{i}-{\overline {x}})^{2})\right)\\&={\tfrac {1}{n-2}}\operatorname {E} \left(\sum \nolimits _{i=1}^{n}(\varepsilon _{i}-{\overline {\varepsilon }})^{2}-2({\hat {\beta }}_{1}-\beta _{1})\sum \nolimits _{i=1}^{n}\varepsilon _{i}(x_{i}-{\overline {x}})+({\hat {\beta }}_{1}-\beta _{1})^{2}\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}\right)\\&={\tfrac {1}{n-2}}\left(\operatorname {E} \left(\sum \nolimits _{i=1}^{n}(\varepsilon _{i}-{\overline {\varepsilon }})^{2}\right)-2\operatorname {E} \left(({\hat {\beta }}_{1}-\beta _{1})\sum \nolimits _{i=1}^{n}\varepsilon _{i}(x_{i}-{\overline {x}})\right)+\operatorname {E} \left(({\hat {\beta }}_{1}-\beta _{1})^{2}\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}\right)\right)\\&={\tfrac {1}{n-2}}\left((n-1)\sigma ^{2}-2\operatorname {E} (({\hat {\beta }}_{1}-\beta _{1})^{2})\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}+\operatorname {E} (({\hat {\beta }}_{1}-\beta _{1})^{2})\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}\right)\\&={\tfrac {1}{n-2}}\left((n-1)\sigma ^{2}-2\operatorname {Var} ({\hat {\beta }}_{1})\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}+\operatorname {Var} ({\hat {\beta }}_{1})\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}\right)\\&={\tfrac {1}{n-2}}\left((n-1)\sigma ^{2}-2\sigma ^{2}+\sigma ^{2}\right)\\&={\tfrac {1}{n-2}}\left(n\sigma ^{2}-\sigma ^{2}+\sigma ^{2}-2\sigma ^{2}\right)\\&={\tfrac {1}{n-2}}(n-2)\sigma ^{2}\\&=\sigma ^{2}\end{aligned}}$ .

Mit dem erwartungstreuen Schätzer lassen sich ebenfalls die Varianzen der KQ-Schätzer ${\hat {\beta }}_{0}$ und ${\hat {\beta }}_{1}$ schätzen. Beispielsweise lässt sich $\operatorname {Var} ({\hat {\beta }}_{1})$ schätzten, indem man $\sigma ^{2}$ durch ${\hat {\sigma }}^{2}$ ersetzt. Die geschätzte Varianz des Steigungsparameters ist dann gegeben durch

${\widehat {\operatorname {Var} ({\hat {\beta }}_{1})}}={\frac {{\tfrac {1}{n-2}}\sum \nolimits _{i=1}^{n}{\hat {\varepsilon }}_{i}^{2}}{\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}$ .

Multiple lineare Regression

In der multiplen linearen Regression ist die erwartungstreue Schätzung der Varianz der Störgrößen bzw. die Residualvarianz gegeben durch

${\hat {\sigma }}^{2}=SQR/(n-k-1)={\frac {\sum \nolimits _{i=1}^{n}(y_{i}-\mathbf {x} _{i}^{\top }{\hat {\boldsymbol {\beta }}})^{2}}{n-k-1}}={\frac {{\hat {\boldsymbol {\varepsilon }}}^{\top }{\hat {\boldsymbol {\varepsilon }}}}{n-k-1}}={\frac {\left(\mathbf {y} -\mathbf {X} \mathbf {b} \right)^{\top }\left(\mathbf {y} -\mathbf {X} \mathbf {b} \right)}{n-k-1}}$ ,

wobei $\mathbf {b} =(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {y}$ den Kleinste-Quadrate-Schätzer und $\mathbf {x} _{i}^{\top }$ die -te Zeile der Versuchsplanmatrix ${\mathbf {X}}$ darstellt. Alternativ lässt sich die erwartungstreue Schätzung der Varianz der Störgrößen im multiplen Fall darstellen als

${\hat {\sigma }}^{2}={\frac {\mathbf {y} ^{\top }\mathbf {y} -\mathbf {b} ^{\top }\mathbf {X} ^{\top }\mathbf {y} }{n-k-1}}$ .

Diese Darstellung ergibt sich aus der Tatsache, dass man die Residuenquadratsumme $\sum _{i=1}^{n}{\hat {\varepsilon }}_{i}^{2}=\sum _{i=1}^{n}(y_{i}-{\hat {y}}_{i})^{2}$ schreiben kann als $\mathbf {y} ^{\top }\mathbf {y} -\mathbf {b} ^{\top }\mathbf {X} ^{\top }\mathbf {y}$ . Eine weitere alternative Darstellung der Residualvarianz ergibt sich aus der Tatsache, dass sich die Residuenquadratsumme mittels der residuenerzeugenden Matrix auch darstellen lässt als $SQR={\hat {\boldsymbol {\varepsilon }}}^{\top }{\hat {\boldsymbol {\varepsilon }}}={\boldsymbol {\varepsilon }}^{\top }\mathbf {Q} {\boldsymbol {\varepsilon }}$ . Damit ergibt sich für die Residualvarianz

${\hat {\sigma }}^{2}={\frac {\mathbf {y} ^{\top }\mathbf {y} -\mathbf {b} ^{\top }\mathbf {X} ^{\top }\mathbf {y} }{n-k-1}}={\frac {\mathbf {y} ^{\top }\mathbf {Q} \mathbf {y} }{n-k-1}}={\frac {{\boldsymbol {\varepsilon }}^{\top }\mathbf {Q} {\boldsymbol {\varepsilon }}}{n-k-1}}$

Diese Schätzung kann wiederum benutzt werden, um die Kovarianzmatrix des KQ-Schätzvektors zu berechnen. Wenn nun $\sigma ^{2}$ durch ${\hat {\sigma }}^{2}$ ersetzt wird, ergibt sich für die geschätzte Kovarianzmatrix des KQ-Schätzvektors

${\hat {\Sigma }}_{\mathbf {b} }={\hat {\sigma }}^{2}\left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}={\frac {{\hat {\boldsymbol {\varepsilon }}}^{\top }{\hat {\boldsymbol {\varepsilon }}}}{n-k-1}}\left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}$ .

Regression mit stochastischen Regressoren

Bei der Regression mit stochastischen Regressoren mit der stochastischen Regressormatrix ${\mathbf {Z}}$ ist die Erwartungstreue Schätzung der Varianz der Störgrößen ebenfalls gegeben durch

${\hat {\sigma }}^{2}={\frac {\left(\mathbf {y} -\mathbf {Z} \mathbf {b} \right)^{\top }\left(\mathbf {y} -\mathbf {Z} \mathbf {b} \right)}{n-k-1}}$ .

Die Erwartungstreue kann mittels des Gesetzes des iterierten Erwartungswertes gezeigt werden.

Basierend auf einem Artikel in:

Wikipedia.de