Residuenquadratsumme

Lineare Regression: Grüne vertikale Linien sind die Residuen.
Die blauen Vierecke sind Residuenquadrate. Die roten Flächen bezeichnen die Gesamte Abweichungsquadratsumme.

Die Residuenquadratsumme (engl. residual sum of squares, kurz RSS oder SSR) bezeichnet in der Statistik die Quadratsumme von beobachteten Werten und den durch ein Modell vorhergesagten Werten. Eine solche Abweichung wird Residuum genannt oder einfach nur Fehler (engl. error). Sie ist damit ein Gütekriterium für ein lineares Modell und beschreibt die Ungenauigkeit des Modells. Die Residuenquadratsumme wird auch als die nicht erklärte Abweichungsquadratsumme bezeichnet.

In einem Modell mit nur einer erklärenden Variable ist RSS gegeben durch:

{\displaystyle \mathrm {RSS} =\sum _{i=1}^{n}(y_{i}-f(x_{i}))^{2},}

Im einfachsten Fall handelt es sich bei dem Modell um den Gesamtmittelwert. Dann wird dieser Ausdruck entsprechend als gesamte Abweichungsquadratsumme bezeichnet. Im Kontext der einfachen linearen Regression lässt sich dieser Zusammenhang auch wie folgt ausdrücken:

{\displaystyle \mathrm {RSS} =SS_{\mathrm {Res} }=\sum _{i=1}^{n}{\hat {\varepsilon }}_{i}^{2}=\sum _{i=1}^{n}(y_{i}-({\hat {\beta }}_{0}+{\hat {\beta }}_{1}x_{i}))^{2}\rightarrow \mathrm {min!} }

Die Methode der kleinsten Quadrate versucht hier die Residuenquadratsumme zu minimieren (vgl. Minimierung der Summe der Fehlerquadrate). Ein spezielleres Konzept ist die PRESS-Statistik (predicted residual sum of squares).

Um etwa einen F-Test durchzuführen sind oft mittlere Abweichungsquadratsummen von Interesse. Dividiert man die Residuenquadratsumme durch die residualen Freiheitsgrade erhält man den durchschnittlichen Anteil von Varianz der durch äußere Variablen erklärt wird (die unsystematische Varianz). Ein F-Test berechnet dann nur noch den Anteil der erklärten mittleren Varianz im Verhältnis der mittleren Residuenquadratsumme.

Matrixnotation der Residuenquadratsumme

Die gewöhnlichen Residuen, die durch die Kleinste-Quadrate-Schätzung gewonnen werden, sind in der multiplen linearen Regression gegeben durch

{\displaystyle {\hat {\boldsymbol {\varepsilon }}}=\mathbf {y} -{\hat {\mathbf {y} }}=\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}}}.

Die Residuenquadratsumme ergibt sich also aus dem Produkt zwischen dem transponierten Residualvektor und dem nicht-transponierten Residualvektor

{\displaystyle \mathrm {RSS} =SS_{\mathrm {Res} }=\sum _{i=1}^{n}{\hat {\varepsilon }}_{i}^{2}={\hat {\boldsymbol {\varepsilon }}}^{\top }{\hat {\boldsymbol {\varepsilon }}}}

Trenner
Basierend auf einem Artikel in: Wikipedia.de
Seitenende
Seite zurück
©  biancahoegel.de
Datum der letzten Änderung:  Jena, den: 06.01. 2018