Standardfehler der Regression

Der (geschätzte) Standardfehler der Regression (englisch (estimated) standard error of regression, kurz: SER), auch Standardschätzfehler, Standardfehler der Schätzung (englisch standard error of the estimate), oder Quadratwurzel des mittleren quadratischen Fehlers (englisch Root Mean Squared Error, kurz RMSE) ist der Statistik und dort insbesondere in der Regressionsanalyse Maß für die Genauigkeit der Regression. Er ist definiert als Quadratwurzel des erwartungstreuen Schätzers für die unbekannte Varianz der Störgrößen (der Residualvarianz) und kann als Quadratwurzel des „durchschnittliches Residuenquadrats“ (englisch root mean squared error, kurz RMSE) interpretiert werden, das bei der Verwendung der berechneten Regressionsgerade zur Vorhersage der Zielvariablen entsteht. Er misst also den durchschnittlichen Abstand der Datenpunkte von der Regressionsgerade. Der Standardfehler der Regression kann verwendet werden, um die Varianzen der Regressionsparameter zu schätzen, da diese von der unbekannten Standardabweichung $\sigma$ abhängen. Der Standardfehler der Regression und das Bestimmtheitsmaß sind die in der Regressionsanalyse am häufigsten angewendeten Maßzahlen. Allerdings folgt der Standardfehler der Regression einer anderen Philosophie als das Bestimmtheitsmaß. Im Gegensatz zum Bestimmtheitsmaß, das den Erklärungsgehalt des Modells quantifiziert, gibt der Standardfehler der Regression eine Schätzung der Standardabweichung der unbeobachtbaren Effekte, die die Zielgröße beeinflussen (oder äquivalent eine Schätzung der Standardabweichung der unbeobachtbaren Effekte, die die Zielgröße beeinflussen, nachdem die Effekte der erklärenden Variablen herausgenommen wurden). Der Standardfehler der Regression wird meist mit ${\hat {\sigma }}$ bzw. ${\text{SER}}$ notiert. Gelegentlich wird er auch mit notiert.

Einführung in die Problemstellung

Die „Qualität“ der Regression kann mithilfe des geschätzten Standardfehlers der Residuen (engl. residual standard error) beurteilt werden, der zum Standardoutput der meisten statistischen Programmpakete gehört. Der geschätzte Standardfehler der Residuen gibt an, mit welcher Sicherheit die Residuen ${\hat {\varepsilon }}_{i}$ den wahren Störgrößen $\varepsilon_i$ näherkommen. Die Residuen sind somit eine Approximation der Störgrößen $\varepsilon _{i}\approx {\hat {\varepsilon }}_{i}$ . Der geschätzte Standardfehler der Residuen ist mit dem Bestimmtheitsmaß und dem adjustierten Bestimmtheitsmaß vergleichbar und ähnlich zu interpretieren. Der geschätzte Residualstandardfehler ist definiert durch

${\tilde {s}}={\sqrt {{\tfrac {1}{n}}\sum \nolimits _{i=1}^{n}{\hat {\varepsilon }}_{i}^{2}}}$ .

Es ist jedoch zu beachten, dass ${\tilde {s}}^{2}$ eine verzerrte Schätzung der wahren Varianz der Störgrößen $\sigma _{\varepsilon }^{2}=\sigma ^{2}$ ist, da der verwendete Varianzschätzer nicht erwartungstreu ist. Wenn man berücksichtigt, dass man durch die Schätzung der beiden Regressionsparameter $\beta _{0}$ und $\beta _{1}$ zwei Freiheitsgrade verliert und somit statt durch den Stichprobenumfang durch die Anzahl der Freiheitsgrade (n-2) dividiert, erhält man das „mittlere Residuenquadrat“ (Mittlere Quadratsumme der Residuen, kurz: MQR) $MQR=SQR/(n-2)$ und damit die unverzerrte Darstellung. Diese unverzerrte Darstellung ist als Standardfehler der Regression bekannt.

Definition

Der Standardfehler der Regression ist definiert als Quadratwurzel der erwartungstreuen Schätzung für die Varianz der Störgrößen, der sogenannten Residualvarianz

${\hat {\sigma }}=+{\sqrt {{\hat {\sigma }}^{2}}}$ .

Der Standardfehler der Regression besitzt die gleiche Einheit wie die Zielgröße. Der Standardfehler der Regression ist in der Regel kleiner als der Standardfehler der -Werte. Es ist zu beachten, dass der Standardfehler der Regression entweder abnehmen oder zunehmen kann, wenn (für eine bestimmte Stichprobe) eine weitere erklärende Variable dem Regressionsmodell hinzugefügt wird. Dies liegt daran, dass die Residuenquadratsumme stets sinkt, wenn eine andere erklärende Variable dem Regressionsmodell hinzugefügt wird, aber auch die Freiheitsgrade um eins bzw. p fallen. Da die Residuenquadratsumme im Zähler und die Anzahl der Freiheitsgrade im Nenner ist, kann man nicht vorhersagen, welcher Effekt dominiert. Für die Herleitung des Standardfehlers der Regression nimmt man für gewöhnlich an, dass die Residuen unkorreliert sind, einen Erwartungswert von Null und eine homogene Varianz aufweisen (Gauß-Markow-Annahmen). Ist mindestens eine dieser Annahmen verletzt wird der nach obiger Formel berechnete Standardfehler der Regression im Mittel nicht den wahren Wert schätzen liefern, d.h. ein verzerrter Schätzer für die unbekannte Standardabweichung sein.

Einfache lineare Regression

In der einfachen lineare Regression ist der Standardfehler der Regression definiert durch

${\hat {\sigma }}=+{\sqrt {SQR/(n-2)}}=+{\sqrt {{\frac {1}{n-2}}\sum \limits _{i=1}^{n}{\hat {\varepsilon }}_{i}^{2}}}=+{\sqrt {{\frac {1}{n-2}}\sum \limits _{i=1}^{n}\left(y_{i}-b_{0}-b_{1}x_{i}\right)^{2}}}$ , mit den Kleinste-Quadrate-Schätzern $b_{1}={\frac {\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})(y_{i}-{\overline {y}})}{\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}\;$ und $\;b_{0}={\overline {y}}-b_{1}{\overline {x}}$ , für den Anstieg $\beta _{1}$ und den Achsenabschnitt $\beta _{0}$ .

Die Darstellung ist unverzerrt, da sie durch Einbezug der Freiheitsgrade der Varianzschätzer, wegen $\mathbb {E} ({\hat {\sigma }}^{2})=\sigma ^{2}$ , unter den Gauss-Markov-Annahmen erwartungstreu ist (siehe auch Schätzer für die Varianz der Störgrößen). Der Standardfehler der Regression wird als Quadratwurzel des durchschnittliches Residuenquadrats berechnet und ist ein eigenständiges Modellgütemaß. Er gibt an, wie groß im Durchschnitt die Abweichung der Messwerte von der Regressionsgerade ausfällt. Je größer der Standardfehler der Regression, desto schlechter beschreibt die Regressionsgerade die Verteilung der Messwerte. Der Standardfehler der Regression ist in der Regel kleiner als der Standardfehler der Zielgröße ${\hat {\sigma }}_{y}$ . Das Bestimmtheitsmaß wird häufiger angegeben als der Standardfehler der Residuen, obwohl der Standardfehler der Residuen bei der Bewertung Anpassungsgüte möglicherweise aussagekräftiger ist. Wenn der Standardfehler der Regression in der einfachen linearen Regression in die Varianzformeln für $\beta _{0}$ und $\beta _{1}$ eingesetzt wird, dann erhält man erwartungstreue Schätzer für $\sigma _{{\hat {\beta }}_{0}}^{2}$ und $\sigma _{{\hat {\beta }}_{1}}^{2}$

${\hat {\sigma }}_{{\hat {\beta }}_{0}}^{2}={\hat {\sigma }}^{2}{\frac {\sum \nolimits _{i=1}^{n}x_{i}^{2}}{n\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}\;$ und $\;{\hat {\sigma }}_{{\hat {\beta }}_{1}}^{2}={\hat {\sigma }}^{2}{\frac {1}{\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}$ .

Des Weiteren lassen sich mithilfe des Standardfehlers der Residuen, Konfidenzintervalle konstruieren.

Multiple lineare Regression

In der multiplen linearen Regression ist der Standardfehler der Regression definiert durch

${\hat {\sigma }}=+{\sqrt {MQR}}=+{\sqrt {SQR/(n-k-1)}}=+{\sqrt {\frac {{\hat {\boldsymbol {\varepsilon }}}^{\top }{\hat {\boldsymbol {\varepsilon }}}}{n-k-1}}}=+{\sqrt {\frac {\left(\mathbf {y} -\mathbf {X} \mathbf {b} \right)^{\top }\left(\mathbf {y} -\mathbf {X} \mathbf {b} \right)}{n-k-1}}}$ mit dem Kleinste-Quadrate-Schätzer $\mathbf {b} =(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {y}$ .

Eine Alternative Darstellung des Standardfehlers der Regression ergibt sich aus der Tatsache, dass sich die Residuenquadratsumme mittels der residuenerzeugenden Matrix auch darstellen lässt als $SQR={\hat {\boldsymbol {\varepsilon }}}^{\top }{\hat {\boldsymbol {\varepsilon }}}={\boldsymbol {\varepsilon }}^{\top }\mathbf {Q} {\boldsymbol {\varepsilon }}$ . Damit ergibt sich für den Standardfehler der Regression

${\hat {\sigma }}={\sqrt {\frac {\mathbf {y} ^{\top }\mathbf {y} -\mathbf {b} ^{\top }\mathbf {X} ^{\top }\mathbf {y} }{n-p}}}={\sqrt {\frac {\mathbf {y} ^{\top }{\boldsymbol {Q}}\mathbf {y} }{n-p}}}={\sqrt {\frac {{\boldsymbol {\varepsilon }}^{\top }{\boldsymbol {Q}}{\boldsymbol {\varepsilon }}}{n-p}}}$

Ersetzt man bei der Standardabweichung des jeweiligen Parameterschätzers ${\sqrt {\operatorname {Var} (b_{j})}}$ das unbekannte $\sigma$ durch das bekannte $\hat{\sigma}$ ergibt sich der Standardfehler des Regressionskoeffizienten $b_{j}$ durch

$\operatorname {SE} (b_{j})={\sqrt {\frac {{\tfrac {1}{n-p}}\sum \nolimits _{i=1}^{n}{\hat {\varepsilon }}_{i}^{2}}{(1-{\mathit {R}}_{j}^{2})\sum \nolimits _{i=1}^{n}(x_{ij}-{\overline {x}}_{j})^{2}}}}$ .

Die Größe der Standardfehler der geschätzten Regressionsparameter hängt also von der Residualvarianz, der Abhängigkeit der erklärenden Variablen untereinander und der Streuung der jeweiligen erklärenden Variablen ab.

Basierend auf einem Artikel in:

Wikipedia.de