Standardfehler der Regression
Der (geschätzte) Standardfehler der Regression (englisch
(estimated) standard error of regression, kurz: SER), auch
Standardschätzfehler, Standardfehler der Schätzung (englisch standard
error of the estimate), oder Quadratwurzel
des mittleren quadratischen Fehlers (englisch
Root Mean Squared Error, kurz RMSE) ist der Statistik und dort
insbesondere in der Regressionsanalyse
Maß für die Genauigkeit der Regression.
Er ist definiert als Quadratwurzel des
erwartungstreuen
Schätzers für die unbekannte Varianz der Störgrößen (der Residualvarianz) und
kann als Quadratwurzel des „durchschnittliches
Residuenquadrats“ (englisch
root mean squared error, kurz RMSE) interpretiert werden, das bei
der Verwendung der berechneten Regressionsgerade zur Vorhersage der
Zielvariablen entsteht. Er misst also den durchschnittlichen Abstand der
Datenpunkte von der Regressionsgerade. Der Standardfehler der Regression kann
verwendet werden, um die Varianzen der Regressionsparameter
zu schätzen, da diese von der unbekannten Standardabweichung
abhängen. Der Standardfehler der Regression und das Bestimmtheitsmaß
sind die in der Regressionsanalyse am häufigsten angewendeten Maßzahlen.
Allerdings folgt der Standardfehler der Regression einer anderen Philosophie als
das Bestimmtheitsmaß. Im Gegensatz zum Bestimmtheitsmaß, das den
Erklärungsgehalt des Modells quantifiziert, gibt der Standardfehler der
Regression eine Schätzung der Standardabweichung der unbeobachtbaren Effekte,
die die Zielgröße beeinflussen (oder äquivalent eine Schätzung der
Standardabweichung der unbeobachtbaren Effekte, die die Zielgröße beeinflussen,
nachdem die Effekte der erklärenden Variablen herausgenommen wurden). Der
Standardfehler der Regression wird meist mit
bzw.
notiert. Gelegentlich wird er auch mit
notiert.
Einführung in die Problemstellung
Die „Qualität“ der Regression kann mithilfe des geschätzten Standardfehlers der
Residuen (engl. residual standard error) beurteilt werden, der zum
Standardoutput der meisten statistischen Programmpakete gehört. Der geschätzte
Standardfehler der Residuen gibt an, mit welcher Sicherheit die Residuen
den wahren Störgrößen
näherkommen. Die Residuen sind somit eine Approximation
der Störgrößen
.
Der geschätzte Standardfehler der Residuen ist mit dem Bestimmtheitsmaß und dem
adjustierten Bestimmtheitsmaß vergleichbar und ähnlich zu interpretieren. Der
geschätzte Residualstandardfehler ist definiert durch
.
Es ist jedoch zu beachten, dass
eine verzerrte
Schätzung der wahren Varianz der Störgrößen
ist, da der verwendete Varianzschätzer
nicht erwartungstreu
ist. Wenn man berücksichtigt, dass man durch die Schätzung der beiden
Regressionsparameter
und
zwei Freiheitsgrade verliert und somit statt durch den Stichprobenumfang
durch die Anzahl
der Freiheitsgrade
dividiert, erhält man das „mittlere Residuenquadrat“ (Mittlere
Quadratsumme der Residuen, kurz: MQR)
und damit die unverzerrte Darstellung. Diese unverzerrte Darstellung ist als
Standardfehler der Regression bekannt.
Definition
Der Standardfehler der Regression ist definiert als Quadratwurzel der erwartungstreuen Schätzung für die Varianz der Störgrößen, der sogenannten Residualvarianz
.
Der Standardfehler der Regression besitzt die gleiche Einheit wie die
Zielgröße.
Der Standardfehler der Regression ist in der Regel kleiner als der
Standardfehler der -Werte.
Es ist zu beachten, dass der Standardfehler der Regression entweder abnehmen
oder zunehmen kann, wenn (für eine bestimmte Stichprobe) eine weitere erklärende
Variable dem Regressionsmodell hinzugefügt wird. Dies liegt daran, dass die Residuenquadratsumme
stets sinkt, wenn eine andere erklärende Variable dem Regressionsmodell
hinzugefügt wird, aber auch die Freiheitsgrade um eins bzw. p fallen. Da die
Residuenquadratsumme im Zähler und die Anzahl
der Freiheitsgrade im Nenner ist, kann man nicht vorhersagen, welcher Effekt
dominiert.
Für die Herleitung des Standardfehlers der Regression nimmt man für gewöhnlich
an, dass die Residuen
unkorreliert sind, einen Erwartungswert von Null
und eine homogene
Varianz aufweisen (Gauß-Markow-Annahmen).
Ist mindestens eine dieser Annahmen verletzt wird der nach obiger Formel
berechnete Standardfehler der Regression im Mittel
nicht den wahren
Wert schätzen liefern, d.h. ein verzerrter
Schätzer für die unbekannte Standardabweichung sein.
Einfache lineare Regression
In der einfachen lineare Regression ist der Standardfehler der Regression definiert durch
, mit den Kleinste-Quadrate-Schätzern
und
, für den Anstieg
und den Achsenabschnitt
.
Die Darstellung ist unverzerrt, da sie durch Einbezug der Freiheitsgrade der
Varianzschätzer, wegen ,
unter den Gauss-Markov-Annahmen
erwartungstreu ist (siehe auch
Schätzer
für die Varianz der Störgrößen).
Der Standardfehler der Regression wird als Quadratwurzel des durchschnittliches
Residuenquadrats berechnet und ist ein eigenständiges Modellgütemaß. Er gibt an,
wie groß im Durchschnitt die Abweichung der Messwerte von der Regressionsgerade
ausfällt. Je größer der Standardfehler der Regression, desto schlechter
beschreibt die Regressionsgerade die Verteilung der Messwerte. Der
Standardfehler der Regression ist in der Regel kleiner als der Standardfehler
der Zielgröße
.
Das Bestimmtheitsmaß wird häufiger angegeben als der Standardfehler der
Residuen, obwohl der Standardfehler der Residuen bei der Bewertung
Anpassungsgüte möglicherweise aussagekräftiger ist.
Wenn der Standardfehler der Regression in der einfachen linearen Regression in
die Varianzformeln für
und
eingesetzt wird, dann erhält man erwartungstreue Schätzer für
und
und
.
Des Weiteren lassen sich mithilfe des Standardfehlers der Residuen, Konfidenzintervalle konstruieren.
Multiple lineare Regression
In der multiplen linearen Regression ist der Standardfehler der Regression definiert durch
mit dem Kleinste-Quadrate-Schätzer
.
Eine Alternative Darstellung des Standardfehlers der Regression ergibt sich
aus der Tatsache, dass sich die Residuenquadratsumme mittels der residuenerzeugenden
Matrix auch darstellen lässt als .
Damit ergibt sich für den Standardfehler der Regression
Ersetzt man bei der Standardabweichung des jeweiligen Parameterschätzers
das unbekannte
durch das bekannte
ergibt sich der Standardfehler
des Regressionskoeffizienten
durch
.
Die Größe der Standardfehler der geschätzten Regressionsparameter hängt also von der Residualvarianz, der Abhängigkeit der erklärenden Variablen untereinander und der Streuung der jeweiligen erklärenden Variablen ab.



© biancahoegel.de
Datum der letzten Änderung: Jena, den: 05.04. 2022