Lineare Einfachregression

Dieses Streudiagramm zeigt eine konkrete empirische Regressionsgerade einer linearen Einfachregression, die bestmöglich durch die „Punktwolke“ der Messung gelegt wurde.

In der Statistik ist die lineare Einfachregression, oder auch einfache lineare Regression (kurz: ELR, selten univariate lineare Regression) genannt, ein regressionsanalytisches Verfahren und ein Spezialfall der linearen Regression. Die Bezeichnung einfach gibt an, dass bei der linearen Einfachregression nur eine unabhängige Variable verwendet wird, um die Zielgröße zu erklären. Ziel ist die Schätzung von Achsenabschnitt und Steigung der Regressionsgeraden sowie die Schätzung der Varianz der Störgrößen.

Einführung in die Problemstellung

Das Ziel einer Regression ist es, eine abhängige Variable durch eine oder mehrere unabhängige Variablen zu erklären. Bei der einfachen linearen Regression wird eine abhängige Variable lediglich durch eine unabhängige Variable erklärt. Das Modell der linearen Einfachregression geht daher von zwei metrischen Größen aus: einer Einflussgröße X (auch: erklärende Variable, Regressor oder unabhängige Variable) und einer Zielgröße Y (auch: endogene Variable, abhängige Variable, erklärte Variable oder Regressand). Des Weiteren liegen n Paare {\displaystyle (x_{1},y_{1}),\dotsc ,(x_{n},y_{n})} von Messwerten vor (die Darstellung der Messwerte {\displaystyle (x_{1},y_{1}),\dotsc ,(x_{n},y_{n})} im x-y-Diagramm wird im Folgenden Streudiagramm bezeichnet), die in einem funktionalen Zusammenhang stehen, der sich aus einem systematischen und einem stochastischen Teil zusammensetzt:

{\displaystyle Y_{i}=\underbrace {f(x_{i};\beta _{0},\beta _{1},\ldots )} _{\text{systematische Komponente}}+\underbrace {\varepsilon _{i}} _{\text{stochastische Komponente}}}

Die stochastische Komponente beschreibt nur noch zufällige Einflüsse (z.B. zufällige Abweichungen wie Messfehler), alle systematischen Einflüsse sind in der systematischen Komponente enthalten. Die lineare Einfachregression stellt den Zusammenhang zwischen der Einfluss- und der Zielgröße mithilfe von zwei festen, unbekannten, reellen Parametern \beta _{0} und \beta _{1} auf lineare Weise her, d.h. die Regressionsfunktion f(\cdot) wird wie folgt spezifiziert:

{\displaystyle f(x_{i};\beta _{0},\beta _{1})=\beta _{0}+\beta _{1}x_{i}} (Linearität)

Dadurch ergibt sich das Modell der linearen Einfachregression wie folgt: {\displaystyle Y_{i}=\beta _{0}+\beta _{1}x_{i}+\varepsilon _{i}}. Hierbei ist Y_i die abhängige Variable und stellt eine Zufallsvariable dar. Die x_{{i}}-Werte sind beobachtbare, nicht zufällige Messwerte, der bekannten erklärenden Variablen x; die Parameter \beta _{0} und \beta _{1} sind unbekannte skalare Regressionsparameter und \varepsilon _{{i}} ist eine zufällige und unbeobachtbare Störgröße. Bei der einfachen linearen Regression wird also eine Gerade so durch das Streudiagramm gelegt, dass der lineare Zusammenhang zwischen X und Y möglichst gut beschrieben wird.

Einführendes Beispiel

Eine renommierte Sektkellerei möchte einen hochwertigen Rieslingsekt auf den Markt bringen. Für die Festlegung des Abgabepreises soll zunächst eine Preis-Absatz-Funktion ermittelt werden. Dazu wird in n = 6 Geschäften ein Testverkauf durchgeführt und man erhält sechs Wertepaare mit dem jeweiligen Ladenpreis einer Flasche x (in Euro) sowie der Zahl der jeweils verkauften Flaschen y:

Streudiagramm von Preis und abgesetzter Menge an Sektflaschen
Geschäft i 1 2 3 4 5 6
Flaschenpreis x_{i} 20 16 15 16 13 10
verkaufte Menge y_{i} 0 3 7 4 6 10
Geschätzte Regressionskoeffizienten

{\displaystyle {\begin{aligned}{\hat {\beta }}_{1}&={\frac {\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})(y_{i}-{\overline {y}})}{\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}\\{\hat {\beta }}_{0}&={\overline {y}}-{\hat {\beta }}_{1}{\overline {x}}\end{aligned}}}

Verwendete Symbole
{\overline {x}}, \overline {y} Mittel der Messwerte
x_{i}, y_{i} Messwerte

Auf die Vermutung, dass es sich um einen linearen Zusammenhang handelt, kommt man, wenn man das obige Streudiagramm betrachtet. Dort erkennt man, dass die eingetragenen Datenpunkte nahezu auf einer Linie liegen. Im Weiteren sind der Preis als unabhängige und die Zahl der verkauften Flaschen als abhängige Variable definiert und es gibt sechs Beobachtungen. Die Anzahl der verkauften Flaschen mag aber nicht nur vom Preis abhängen, z.B. könnte in der Verkaufsstelle 3 eine große Werbetafel gehangen haben, so dass dort mehr Flaschen als erwartet verkauft wurden (zufälliger Einfluss). Damit scheint das einfache lineare Regressionsmodell zu passen.

Nach der graphischen Inspektion, ob ein linearer Zusammenhang vorliegt, wird zunächst die Regressiongerade mit der Methode der kleinsten Quadrate geschätzt und es ergeben sich die Formeln in der Infobox für die geschätzten Regressionsparameter.

Für das folgende Zahlenbeispiel ergeben sich für die abhängige und unabhängige Variable jeweils ein Mittelwert zu {\displaystyle {\overline {x}}=15} und {\displaystyle {\overline {y}}=5}. Somit erhält man die Schätzwerte {\displaystyle {\hat {\beta }}_{0}} für \beta _{0} und {\displaystyle {\hat {\beta }}_{1}} für \beta _{1} durch einfaches Einsetzen in die weiter unten erklärten Formeln. Zwischenwerte (z.B. {\displaystyle \ {\hat {\varepsilon }}_{i}=y_{i}-{\hat {y}}_{i}}) in diesen Formeln sind in folgender Tabelle dargestellt

\ i Flaschenpreis \ x_i verkaufte Menge \ y_i {\displaystyle \ (x_{i}-{\overline {x}})} {\displaystyle \ (y_{i}-{\overline {y}})} {\displaystyle \ (x_{i}-{\overline {x}})(y_{i}-{\overline {y}})} {\displaystyle (x_{i}-{\overline {x}})^{2}} {\displaystyle (y_{i}-{\overline {y}})^{2}} \ \hat{y}_i {\displaystyle \ {\hat {\varepsilon }}_{i}} {\displaystyle \ {\hat {\varepsilon }}_{i}^{2}}
1 20 0 5 −5 −25 25 25 0,09 −0,09 0,0081
2 16 3 1 −2 −2 1 4 4,02 −1,02 1,0404
3 15 7 0 2 0 0 4 5,00 2,00 4,0000
4 16 4 1 −1 −1 1 1 4,02 −0,02 0,0004
5 13 6 −2 1 −2 4 1 6,96 −0,96 0,9216
6 10 10 −5 5 −25 25 25 9,91 0,09 0,0081
Summe 90 30 0 0 −55 56 60 30,00 0,00 5,9786

Es ergibt sich in dem Beispiel

{\displaystyle {\hat {\beta }}_{1}={\frac {\sum \nolimits _{i=1}^{6}(x_{i}-{\overline {x}})(y_{i}-{\overline {y}})}{\sum \nolimits _{i=1}^{6}(x_{i}-{\overline {x}})^{2}}}={\frac {-55}{56}}=-0{,}98\quad } und {\displaystyle \quad {\hat {\beta }}_{0}={\overline {y}}-{\hat {\beta }}_{1}{\overline {x}}=5-(-0{,}98)\cdot 15=19{,}73}.

Die geschätzte Regressionsgerade lautet somit

{\displaystyle {\hat {y}}_{i}=19{,}73-0{,}98x_{i}},

sodass man vermuten kann, dass bei jedem Euro mehr der Absatz im Mittel um ungefähr eine Flasche sinkt.

Für einen konkreten Preis x kann die Absatzmenge ausgerechnet werden, z.B. {\displaystyle x=11} ergibt sich eine geschätzte Absatzmenge von {\displaystyle {\hat {y}}=19{,}73-0{,}98\cdot 11=8{,}93}. Für jeden Beobachtungswert x_{i} kann eine geschätzte Absatzmenge angegeben werden, z.B. für {\displaystyle x_{3}=15} ergibt sich {\displaystyle {\hat {y}}_{3}=19{,}73-0{,}98\cdot 15=5}. Die geschätzte Störgröße, genannt Residuum, ist dann {\displaystyle {\hat {\varepsilon }}_{3}=y_{3}-{\hat {y}}_{3}=7-5=2{,}00}.

Bestimmtheitsmaß

Hauptartikel: Bestimmtheitsmaß
Streudiagramm der Residuen ohne Struktur, das {\displaystyle R^{2}=0} liefert
Streudiagramm der Residuen, das ein R^{2} nahe bei 1 liefert

Das Bestimmtheitsmaß {\displaystyle R^{2}=1-SQR/SQT} misst, wie gut die Messwerte zu einem Regressionsmodell passen (Anpassungsgüte). Es ist definiert als der Anteil der „erklärten Variation“ an der „Gesamtvariation“ und liegt daher zwischen:

Je näher das Bestimmtheitsmaß am Wert Eins liegt, desto höher ist die „Bestimmtheit“ bzw. „Güte“ der Anpassung. Ist R^{2}=0, dann besteht das „beste“ lineare Regressionsmodell nur aus dem Achsenabschnitt {\displaystyle {\hat {\beta }}_{0}}, während {\displaystyle {\hat {\beta }}_{1}=0} ist. Je näher der Wert des Bestimmtheitsmaß an 1 liegt, desto besser erklärt die Regressionsgerade das wahre Modell. Ist R^{2}=1, dann lässt sich die abhängige Variable Y vollständig durch das lineare Regressionsmodell erklären. Anschaulich liegen dann die Messpunkte {\displaystyle (x_{1},y_{1}),\ldots ,(x_{n},y_{n})} alle auf der nichthorizontalen Regressionsgeraden. Somit liegt bei diesem Fall kein stochastischer Zusammenhang vor, sondern ein deterministischer.

Eine häufige Fehlinterpretation eines niedrigen Bestimmtheitsmaßes ist es, dass es keinen Zusammenhang zwischen den Variablen gibt. Tatsächlich wird nur der lineare Zusammenhang gemessen, d.h. obwohl R^{2} klein ist, kann es trotzdem einen starken nichtlinearen Zusammenhang geben. Umgekehrt muss ein hoher Wert des Bestimmtheitsmaßes nicht bedeuten, dass ein nichtlineares Regressionsmodell nicht noch besser als ein lineares Modell ist.

Bei einer einfachen linearen Regression entspricht das Bestimmtheitsmaß R^{2} dem Quadrat des Bravais-Pearson-Korrelationskoeffizienten r_{xy} (siehe Bestimmtheitsmaß als quadrierter Korrelationskoeffizient).

Im oben genannten Beispiel kann die Güte des Regressionsmodells mit Hilfe des Bestimmtheitsmaßes überprüft werden. Für das Beispiel ergibt sich für die Residuenquadratsumme und die totale Quadratsumme

{\displaystyle SQR=\sum _{i=1}^{6}(y_{i}-{\hat {y}}_{i})^{2}=5{,}98\quad } und {\displaystyle \quad SQT=\sum _{i=1}^{6}(y_{i}-{\overline {y}})^{2}=60}

und das Bestimmtheitsmaß zu

{\displaystyle R^{2}=1-{\frac {\displaystyle \sum \nolimits _{i=1}^{6}(y_{i}-{\hat {y}}_{i})^{2}}{\displaystyle \sum \nolimits _{i=1}^{6}(y_{i}-{\overline {y}})^{2}}}=1-{\frac {5{,}98}{60}}=0{,}90}.

Das heißt ca. 90 % der Variation bzw. Streuung in Y können mithilfe des Regressionsmodells „erklärt“ werden, nur 10 % der Streuung bleiben „unerklärt“.

Das Modell

Datensatz mit wahrer Regressionsgerade (blau) und geschätzter Regressionsgerade (rot) sowie wahrer Störgröße und geschätzter Störgröße (Residuum).

Im Regressionsmodell werden die Zufallskomponenten mit Hilfe von Zufallsvariablen \varepsilon _{{i}} modelliert. Wenn \varepsilon _{{i}} eine Zufallsvariable ist, dann ist es auch Y_i. Die beobachteten Werte y_{i} werden als Realisierungen der Zufallsvariablen Y_i aufgefasst.

Daraus ergibt sich das einfache lineare Regressionsmodell:

{\displaystyle Y_{i}=\beta _{0}+\beta _{1}\ x_{i}+\varepsilon _{i},\quad i=1,\dotsc ,n} (mit Zufallsvariablen) bzw.
{\displaystyle y_{i}=\beta _{0}+\beta _{1}\ x_{i}+\varepsilon _{i},\quad i=1,\dotsc ,n} (mit deren Realisierungen).

Bildlich gesprochen wird eine Gerade durch das Streudiagramm der Messung gelegt. In der gängigen Literatur wird die Gerade oft durch den Achsenabschnitt \beta _{0} und den Steigungsparameter \beta _{1} beschrieben. Die abhängige Variable wird in diesem Kontext oft auch endogene Variable genannt. Dabei ist \varepsilon _{{i}} eine additive stochastische Störgröße, die Abweichungen vom idealen Zusammenhang – also der Geraden – achsenparallel misst.

Anhand der Messwerte {\displaystyle (x_{1},y_{1}),\dotsc ,(x_{n},y_{n})} werden die Regressionsparameter \beta _{0} und die \beta _{1} geschätzt. So erhält man die Stichproben-Regressionsfunktion {\displaystyle {\hat {y}}={\hat {\beta }}_{0}+{\hat {\beta }}_{1}x}. Im Gegensatz zur unabhängigen und abhängigen Variablen sind die Zufallskomponenten \varepsilon _{{i}} und deren Realisierungen nicht direkt beobachtbar. Ihre geschätzten Realisierungen {\displaystyle {\hat {\varepsilon }}_{i}} sind nur indirekt beobachtbar und heißen Residuen. Sie sind berechnete Größen und messen den vertikalen Abstand zwischen Beobachtungspunkt und der geschätzten Regressionsgerade

Modellannahmen

Um die Zerlegung von Y_i in eine systematische und zufällige Komponente zu sichern sowie gute Schätzeigenschaften für die Schätzung {\displaystyle {\hat {\beta }}_{0}} und {\displaystyle {\hat {\beta }}_{1}} der Regressionsparameter \beta _{0} und \beta _{1} zu haben, sind einige Annahmen bezüglich der Störgrößen sowie der unabhängigen Variable nötig.

Annahmen über die unabhängige Variable

In Bezug auf die unabhängige Variable werden folgende Annahmen getroffen:

Die Werte der unabhängigen Variablen x_{i} sind deterministisch, d. h. sie sind fest gegeben
Sie können also wie in einem Experiment kontrolliert werden und sind damit keine Zufallsvariablen (Exogenität der Regressoren). Wären die x_{i} Zufallsvariablen, z.B. wenn die x_{i} auch nur fehlerbehaftet gemessen werden können, dann wäre {\displaystyle Y_{i}=\beta _{0}+\beta _{1}X_{i}+\varepsilon _{i}} und die Verteilung von Y_i sowie die Verteilungsparameter (Erwartungswert und Varianz) würden nicht nur von \varepsilon _{{i}} abhängen
{\displaystyle \operatorname {E} (Y_{i})=\beta _{0}+\beta _{1}\operatorname {E} (X_{i})+\operatorname {E} (\varepsilon _{i})}.
Mit speziellen Regressionsverfahren kann dieser Fall aber auch behandelt werden, siehe z.B. Regression mit stochastischen Regressoren.
Stichprobenvariation in der unabhängigen Variablen
Die Realisierungen der unabhängigen Variablen {\displaystyle x_{1},\ldots ,x_{n}} sind nicht alle gleich. Man schließt also den unwahrscheinlichen Fall aus, dass die unabhängige Variable keinerlei Variabilität aufweist, d.h. {\displaystyle x_{1}=x_{2}=\ldots =x_{n}={\overline {x}}}. Dies impliziert, dass die Quadratsumme der unabhängigen Variablen {\displaystyle \sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}} positiv sein muss. Diese Annahme wird im Schätzprozess benötigt.
Keine perfekte Multikollinearität
Dies bedeutet, dass sich keine unabhängige Variable als eine perfekte Linearkombination aus den anderen unabhängigen Variablen ergeben darf.

Annahmen über die unabhängige und abhängige Variable

Der wahre Zusammenhang zwischen den Variablen x_{i} und y_{i} ist linear
Die Regressionsgleichung der einfachen linearen Regression muss linear in den Parametern \beta _{0} und \beta _{1} sein, kann aber nichtlineare Transformationen der unabhängigen und der abhängigen Variablen beinhalten. Beispielsweise sind die Transformationen
{\displaystyle \log(y_{i})=\beta _{0}+\beta _{1}\log(x_{i})+\varepsilon _{i}\quad } und {\displaystyle \quad y_{i}=\beta _{0}+\beta _{1}{\frac {x_{i1}+x_{i2}}{2}}+\varepsilon _{i}}

zulässig, da sie ebenfalls lineare Modelle darstellen. Bei transformierten Daten ist zu beachten, dass sie die Interpretation der Regressionsparameter ändert.

Vorliegen einer Zufallsstichprobe

Es liegt eine Zufallsstichprobe des Umfangs n {\displaystyle (X_{1},Y_{1}),\ldots ,(X_{n},Y_{n})} mit Realisierungen {\displaystyle (x_{1},y_{1}),\ldots ,(x_{n},y_{n})} vor, die dem wahren Modell {\displaystyle y_{i}=\beta _{0}+\beta _{1}x_{i}+\varepsilon _{i}}

Annahmen über die Störgrößen

In Bezug auf die Störgrößen werden folgende Annahmen getroffen:

Der Erwartungswert der Störgrößen ist Null:
Wenn das Modell einen – von Null verschiedenen – Achsenabschnitt enthält, ist es vernünftig dass man zumindest fordert dass der Mittelwert von \varepsilon _{{i}} in der Grundgesamtheit Null ist und sich die Schwankungen der einzelnen Störgrößen über die Gesamtheit der Beobachtungen ausgleichen. Mathematisch bedeutet das, dass der Erwartungswert der Störgrößen Null ist {\displaystyle \operatorname {E} (\varepsilon _{i})=0\quad ,i=1,\ldots ,n}. Diese Annahme macht keine Aussage über den Zusammenhang zwischen x und \varepsilon , sondern gibt lediglich eine Aussage über die Verteilung der unsystematischen Komponente in der Grundgesamtheit. Dies bedeutet, dass das betrachte Modell im Mittel dem wahren Zusammenhang entspricht. Wäre der Erwartungswert nicht Null, dann würde man im Mittel einen falschen Zusammenhang schätzen. Zur Verletzung dieser Annahme kann es kommen, wenn eine relevante Variable im Regressionsmodell nicht berücksichtigt wurde (siehe Verzerrung durch ausgelassene Variablen).
Die Störgrößen {\displaystyle \varepsilon _{i},\dotsc ,\varepsilon _{n}} sind voneinander unabhängige Zufallsvariablen
Wären die Störgrößen nicht unabhängig, dann könnte man einen systematischen Zusammenhang zwischen ihnen formulieren. Das würde der Zerlegung von Y in eine eindeutige systematische und zufällige Komponente widersprechen. Es wird in der Zeitreihenanalyse z.B. oft ein Zusammenhang der Form {\displaystyle \varepsilon _{i}=f(\varepsilon _{i-1},\varepsilon _{i-2},\ldots )} betrachtet.
Oft wird auch nur die Unkorreliertheit der Störgrößen gefordert: {\displaystyle \operatorname {Cov} (\varepsilon _{i},\varepsilon _{j})=\operatorname {E} [(\varepsilon _{i}-\operatorname {E} (\varepsilon _{i}))((\varepsilon _{j}-\operatorname {E} (\varepsilon _{j}))]=\operatorname {E} (\varepsilon _{i}\varepsilon _{j})=0\quad \forall i\neq j,\;i=1,\ldots ,n,\;j=1,\ldots ,n} oder äquivalent {\displaystyle \operatorname {Cov} (Y_{i},Y_{j})=0}.

Unabhängige Zufallsvariablen sind immer auch unkorreliert. Man spricht in diesem Zusammenhang auch von Abwesenheit von Autokorrelation.

Eine konstante Varianz (Homoskedastizität) der Störgrößen: {\displaystyle \forall i:\operatorname {Var} (\varepsilon _{i})=\operatorname {Var} (Y_{i})=\sigma ^{2}=\mathrm {konst.} }
Wäre die Varianz nicht konstant, liesse sich evtl. die Varianz systematisch modellieren, d.h. dies widerspräche Zerlegung von Y_i in eine eindeutige systematische und zufällige Komponente. Zudem lässt sich zeigen, dass sich die Schätzeigenschaften der Regressionsparameter verbessern lassen, wenn die Varianz nicht konstant ist.

Alle oben genannten Annahmen über die Störgrößen lassen sich so zusammenfassen:

{\displaystyle \varepsilon _{i}\;{\stackrel {\mathrm {u.i.v.} }{\sim }}\;(0,\sigma ^{2})\quad ,i=1,\ldots ,n},

d.h. alle Störgrößen sind unabhängig und identisch verteilt mit Erwartungswert {\displaystyle \operatorname {E} (\varepsilon _{i})=0} und {\displaystyle \operatorname {Var} (\varepsilon _{i})=\sigma ^{2}}.

Optionale Annahme: Die Störgrößen sind normalverteilt, also {\displaystyle \varepsilon _{i}\;\sim \;{\mathcal {N}}(0,\sigma ^{2})\quad ,i=1,\ldots ,n}
Diese Annahme wird nur benötigt um z.B. Konfidenzintervalle zu berechnen bzw. um Tests für die Regressionsparameter durchzuführen.

Wird die Normalverteilung der Störgrößen angenommen, so folgt, dass auch Y_i normalverteilt ist:

{\displaystyle Y_{i}\;\sim \;{\mathcal {N}}\left(\operatorname {E} (Y_{i}),\operatorname {Var} (Y_{i})\right)}

Die Verteilung der Y_i hängt also von der Verteilung der Störgrößen ab. Der Erwartungswert der abhängigen Variablen lautet:

{\displaystyle \operatorname {E} (Y_{i})=\operatorname {E} \left(\beta _{0}+\beta _{1}x_{i}+\varepsilon _{i}\right)=\beta _{0}+\beta _{1}x_{i}}

Da die einzige zufällige Komponente in Y_i die Störgröße \varepsilon _{{i}} ist, gilt für die Varianz der abhängigen Variablen, dass sie gleich der Varianz der Störgrößen entspricht:

{\displaystyle \operatorname {Var} (Y_{i})=\operatorname {Var} (\beta _{0}+\beta _{1}x_{i}+\varepsilon _{i})=\operatorname {Var} (\varepsilon _{i})=\sigma ^{2}}.

Die Varianz der Störgrößen spiegelt somit die Variabilität der abhängigen Variablen um ihren Mittelwert wider. Damit ergibt sich für die Verteilung der abhängigen Variablen:

{\displaystyle Y_{i}\;\sim \;{\mathcal {N}}\left(\beta _{0}+\beta _{1}x_{i},\sigma ^{2}\right)}.

Aufgrund der Annahme, dass die Störgrößen im Mittel Null sein müssen, muss der Erwartungswert von Y_i der Regressionsfunktion der Grundgesamtheit

{\displaystyle y_{i}=\beta _{0}+\beta _{1}x_{i}}

entsprechen. D.h. mit der Annahme über die Störgrößen schlussfolgert man, dass das Modell im Mittel korrekt sein muss. Wenn zusätzlich zu den anderen Annahmen auch die Annahme der Normalverteiltheit gefordert wird spricht man auch vom klassischen linearen Modell (siehe auch #Klassisches lineares Modell der Normalregression).

Im Rahmen der Regressionsdiagnostik sollen die Voraussetzungen des Regressionsmodells, soweit möglich, geprüft werden. Dazu zählen die Überprüfung, ob die Störgrößen keine Struktur (die dann nicht zufällig wäre) haben.

Schätzung der Regressionsparameter und der Störgrößen

Datensatz und Regressionsgerade inklusive Residuum.

Die Schätzung der Regressionsparameter \beta _{0} und \beta _{1} und der Störgrößen \varepsilon _{{i}} geschieht in zwei Schritten:

  1. Zunächst werden mit Hilfe der Kleinste-Quadrate-Schätzung die unbekannten Regressionsparameter \beta _{0} und \beta _{1} geschätzt. Dabei wird die Summe der quadrierten Abweichungen zwischen dem geschätzten Regressionswert {\displaystyle {\hat {y}}_{i}={\hat {\beta }}_{0}+{\hat {\beta }}_{1}x_{i}} und dem beobachteten Wert y_{i} minimiert. Dabei ergeben sich folgende Formeln:
    {\displaystyle {\hat {\beta }}_{1}={\frac {\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})(y_{i}-{\overline {y}})}{\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}={\frac {SP_{xy}}{SQ_{x}}}}
    {\displaystyle {\hat {\beta }}_{0}={\overline {y}}-{\hat {\beta }}_{1}{\overline {x}}}
  2. Sind {\displaystyle {\hat {\beta }}_{0}} und {\displaystyle {\hat {\beta }}_{1}} berechnet, so kann das Residuum geschätzt werden als {\displaystyle {\hat {\varepsilon }}_{i}=y_{i}-{\hat {y}}_{i}=y_{i}-{\hat {\beta }}_{0}-{\hat {\beta }}_{1}x_{i}}.

Herleitung der Formeln für die Regressionsparameter

Methode der kleinsten Quadrate: Die Summe der blauen Abweichungsquadrate ist die totale Quadratsumme und die Summe der roten Abweichungsquadrate ist die Residuenquadratsumme. Die Kleinste-Quadrate-Schätzwerte {\displaystyle b_{0}} und {\displaystyle b_{1}} minimieren die Summe der Quadrate der senkrechten Abstände der Datenpunkte von der Regressionsgeraden.

Um nun die Parameter der Gerade zu bestimmen, wird die Zielfunktion Q (Fehlerquadratsumme bzw. die Residuenquadratsumme) minimiert

{\displaystyle \left({\hat {\beta }}_{0},{\hat {\beta }}_{1}\right)={\underset {\beta _{0},\beta _{1}\in \mathbb {R} }{\arg \min }}\,Q(\beta _{0},\beta _{1})={\underset {\beta _{0},\beta _{1}\in \mathbb {R} }{\arg \min }}\sum _{i=1}^{n}\left(y_{i}-(\beta _{0}+\beta _{1}x_{i})\right)^{2}}

Die Bedingungen erster Ordnung (notwendige Bedingungen) lauten:

{\displaystyle \left.{\frac {\partial \,Q(\beta _{0},\,\beta _{1})}{\partial \beta _{0}}}\right|_{{\hat {\beta }}_{0}}=-2\sum _{i=1}^{n}\left(y_{i}-{\hat {\beta }}_{0}-\beta _{1}x_{i}\right){\overset {\mathrm {!} }{=}}\;0\quad }

und

{\displaystyle \left.{\frac {\partial \,Q(\beta _{0},\,\beta _{1})}{\partial \beta _{1}}}\right|_{{\hat {\beta }}_{1}}=-2\sum _{i=1}^{n}x_{i}\left(y_{i}-\beta _{0}-{\hat {\beta }}_{1}x_{i}\right){\overset {\mathrm {!} }{=}}\;0}.

Durch Nullsetzen der partiellen Ableitungen nach \beta _{0} und \beta _{1} ergeben sich die gesuchten Parameterschätzer, bei denen die Residuenquadratsumme minimal wird:

{\displaystyle {\hat {\beta }}_{1}={\frac {\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})(y_{i}-{\overline {y}})}{\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}={\frac {SP_{xy}}{SQ_{x}}}\;} und {\displaystyle \;{\hat {\beta }}_{0}={\overline {y}}-{\hat {\beta }}_{1}{\overline {x}}},

wobei {\displaystyle SP_{xy}} die Summe der Abweichungsprodukte zwischen x und y und {\displaystyle SQ_{x}} die Summe der Abweichungsquadrate von x darstellt. Mithilfe des Verschiebungssatzes von Steiner lässt sich {\displaystyle {\hat {\beta }}_{1}} auch wie folgt einfacher, in nichtzentrierter Form, darstellen

{\displaystyle {\hat {\beta }}_{1}={\frac {\sum _{i=1}^{n}(x_{i}y_{i})-n{\overline {x}}{\overline {y}}}{\left(\sum _{i=1}^{n}x_{i}^{2}\right)-n{\overline {x}}^{2}}}}.

Weitere Darstellungen von {\displaystyle {\hat {\beta }}_{1}} erhält man, indem man die Formel in Abhängigkeit des Bravais-Pearson-Korrelationskoeffizienten r_{xy} schreibt. Entweder als

{\displaystyle {\hat {\beta }}_{1}={\frac {{\sqrt {\displaystyle \sum \nolimits _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{2}}}{\sqrt {\displaystyle \sum \nolimits _{i=1}^{n}\left(y_{i}-{\bar {y}}\right)^{2}}}}{\displaystyle \sum \nolimits _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{2}}}r_{xy}\;} oder {\displaystyle \;{\hat {\beta }}_{1}=r_{xy}{\frac {s_{y}}{s_{x}}}},

wobei s_x und s_{y} die empirischen Standardabweichungen von x und y darstellen. Die letztere Darstellung impliziert, dass der Kleinste-Quadrate-Schätzer für den Anstieg proportional zum Bravais-Pearson-Korrelationskoeffizienten r_{xy} ist, d.h. {\displaystyle {\hat {\beta }}_{1}\propto r_{xy}}.

Die jeweiligen Kleinste-Quadrate-Schätzwerte von {\displaystyle {\hat {\beta }}_{0}} und {\displaystyle {\hat {\beta }}_{1}} werden als {\displaystyle b_{0}} und {\displaystyle b_{1}} abgekürzt.

Algebraische Eigenschaften der Kleinste-Quadrate-Schätzer

Aus den Formeln sind drei Eigenschaften ableitbar:

1.) Die Regressiongerade verläuft durch den Schwerpunkt bzw. durch das „Gravitationszentrum“ der Daten {\displaystyle ({\overline {x}},{\overline {y}})}, was direkt aus der obigen Definition von {\displaystyle {\hat {\beta }}_{0}} folgt. Man sollte beachten, dass dies nur gilt, wenn ein Achsenabschnitt für die Regression verwendet wird, wie man leicht an dem Beispiel mit den zwei Datenpunkten {\displaystyle (x_{1},y_{1})=(1,0),(x_{2},y_{2})=(2,1)} sieht.

2.) Die KQ-Regressionsgerade wird so bestimmt, dass die Residuenquadratsumme zu einem Minimum wird. Äquivalent dazu bedeutet das, dass sich positive und negative Abweichungen von der Regressionsgeraden ausgleichen. Wenn das Modell der linearen Einfachregression einen – von Null verschiedenen – Achsenabschnitt enthält, dann muss also gelten, dass die Summe der Residuen ist Null ist (dies ist äquivalent zu der Eigenschaft, dass die gemittelten Residuen Null ergeben)

{\displaystyle \sum _{i=1}^{n}{\hat {\varepsilon }}_{i}=0} bzw. {\displaystyle {\overline {\hat {\varepsilon }}}={\frac {1}{n}}\sum _{i=1}^{n}{\hat {\varepsilon }}_{i}=0}.
Oder, da sich die Residuen als Funktion der Störgrößen darstellen lassen {\displaystyle {\overline {\hat {\varepsilon }}}={\overline {\varepsilon }}-({\hat {\beta }}_{0}-\beta _{0})-({\hat {\beta }}_{1}-\beta _{1}){\overline {x}}=0}. Diese Darstellung wird für die Herleitung der erwartungstreuen Schätzung der Varianz der Störgrößen benötigt.

3.) Die Residuen und die unabhängigen Variablen sind (unabhängig davon ob ein Achsenabschnitt mit einbezogen wurde oder nicht) unkorreliert, d.h.

{\displaystyle \sum _{i=1}^{n}x_{i}{\hat {\varepsilon }}_{i}=0}, was direkt aus der zweiten Optimalitätsbedingung von oben folgt.
Die Residuen und die geschätzten Werten sind unkorreliert, d.h.
{\displaystyle \sum _{i=1}^{n}{\hat {\varepsilon }}_{i}{\hat {y}}_{i}=0}.
Diese Unkorreliertheit der prognostizierten Werte mit den Residuen kann so interpretiert werden, dass in der Vorhersage bereits alle relevante Information der erklärenden Variablen bezüglich der abhängigen Variablen steckt.

Schätzfunktionen der Kleinste-Quadrate-Schätzer

Aus der Regressionsgleichung {\displaystyle y_{i}=\beta _{0}+\beta _{1}x_{i}+\varepsilon _{i}} lassen sich die Schätzfunktionen {\displaystyle {\hat {\beta }}_{1}} für \beta _{1} und {\displaystyle {\hat {\beta }}_{0}} für \beta _{0} ableiten.

{\displaystyle {\hat {\beta }}_{1}={\frac {\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})(Y_{i}-{\overline {Y}})}{\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}=\sum \nolimits _{i=1}^{n}w_{i}Y_{i}-{\overline {Y}}\underbrace {\sum \nolimits _{i=1}^{n}w_{i}} _{=0}} mit der Gewichtsfunktion {\displaystyle w_{i}=w_{i}(x_{i})={\frac {(x_{i}-{\overline {x}})}{\sum \nolimits _{j=1}^{n}(x_{j}-{\overline {x}})^{2}}}}
{\displaystyle {\hat {\beta }}_{0}={\overline {Y}}-{\hat {\beta }}_{1}{\overline {x}}=\sum \nolimits _{i=1}^{n}({\tfrac {1}{n}}-{\overline {x}}w_{i})Y_{i}}.

Die Formeln zeigen auch, dass die Schätzfunktionen der Regressionsparameter linear von Y_i abhängen. Unter der Annahme der Normalverteilung der Residuen {\displaystyle \varepsilon _{i}\sim {\mathcal {N}}(0,\sigma ^{2})} (oder wenn für Y_i der zentrale Grenzwertsatz erfüllt ist) folgt, dass auch die Schätzfunktionen der Regressionsparameter {\displaystyle {\hat {\beta }}_{1}} und {\displaystyle {\hat {\beta }}_{0}} zumindest approximativ normalverteilt sind:

{\displaystyle {\hat {\beta }}_{1}\;{\stackrel {a}{\sim }}\;{\mathcal {N}}(\beta _{1},\sigma _{{\hat {\beta }}_{1}}^{2})} und {\displaystyle {\hat {\beta }}_{0}\;{\stackrel {a}{\sim }}\;{\mathcal {N}}(\beta _{0},\sigma _{{\hat {\beta }}_{0}}^{2})}.

Statistische Eigenschaften der Kleinste-Quadrate-Schätzer

Erwartungstreue der Kleinste-Quadrate-Schätzer

Die Schätzfunktionen der Regressionsparameter {\displaystyle {\hat {\beta }}_{1}} und {\displaystyle {\hat {\beta }}_{0}} sind erwartungstreu für \beta _{1} und \beta _{0}, d.h. es gilt {\displaystyle \operatorname {E} ({\hat {\beta }}_{1})=\beta _{1}} und {\displaystyle \operatorname {E} ({\hat {\beta }}_{0})=\beta _{0}}. Der Kleinste-Quadrate-Schätzer liefert also „im Mittel“ die wahren Werte der Koeffizienten.

Mit der Linearität des Erwartungswerts und der Voraussetzung {\displaystyle \operatorname {E} (\varepsilon _{i})=0} folgt nämlich {\displaystyle \operatorname {E} (Y_{i})=\beta _{0}+\beta _{1}x_{i}} und :{\displaystyle \operatorname {E} ({\overline {Y}})=\beta _{0}+\beta _{1}{\overline {x}}}. Als Erwartungswert von {\displaystyle {\hat {\beta }}_{1}} ergibt sich daher:

{\displaystyle {\begin{aligned}\operatorname {E} ({\hat {\beta }}_{1})&=\operatorname {E} \left({\frac {\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})(Y_{i}-{\overline {Y}})}{\sum \nolimits _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}}}\right)={\frac {\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})\operatorname {E} (Y_{i}-{\overline {Y}})}{\sum \nolimits _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}}}\\&\\&={\frac {\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})(\beta _{0}+\beta _{1}x_{i}-(\beta _{0}+\beta _{1}{\overline {x}}))}{\sum \nolimits _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}}}=\beta _{1}\end{aligned}}}

Für den Erwartungswert von {\displaystyle {\hat {\beta }}_{0}} erhält man schließlich:

{\displaystyle \operatorname {E} ({\hat {\beta }}_{0})=\operatorname {E} ({\overline {Y}}-{\hat {\beta }}_{1}{\overline {x}})=\operatorname {E} ({\overline {Y}})-\operatorname {E} ({\hat {\beta }}_{1}){\overline {x}}=\underbrace {\beta _{0}+\beta _{1}{\overline {x}}} _{=\operatorname {E} ({\overline {Y}})}-\beta _{1}{\overline {x}}=\beta _{0}}.

Varianzen der Kleinste-Quadrate-Schätzer

Die Varianzen des Achsenabschnittes {\displaystyle {\hat {\beta }}_{0}} und des Steigungsparameters {\displaystyle {\hat {\beta }}_{1}} sind gegeben durch:

{\displaystyle \sigma _{{\hat {\beta }}_{0}}^{2}=\operatorname {Var} ({\hat {\beta }}_{0})={\frac {\sigma ^{2}}{n}}\left(1+{\frac {{\overline {x}}^{2}}{s_{x}^{2}}}\right)=\sigma ^{2}\underbrace {\frac {\sum \nolimits _{i=1}^{n}x_{i}^{2}}{n\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}} _{=:a_{0}}=\sigma ^{2}\cdot a_{0}} und
{\displaystyle {\begin{aligned}\;\sigma _{{\hat {\beta }}_{1}}^{2}=\operatorname {Var} ({\hat {\beta }}_{1})&=\operatorname {Var} \left({\frac {\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})(Y_{i}-{\overline {Y}})}{\sum \nolimits _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}}}\right)=\operatorname {Var} \left({\frac {\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})Y_{i}}{\sum \nolimits _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}}}\right)\\&\\&={\frac {\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}\operatorname {Var} (Y_{i})}{\left[\sum \nolimits _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}\right]^{2}}}=\sigma ^{2}\underbrace {\frac {1}{\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}} _{=:a_{1}}=\sigma ^{2}\cdot a_{1}\end{aligned}}}.

Dabei stellt {\displaystyle s_{x}^{2}} die empirische Varianz dar. Je größer die Streuung in der erklärenden Variablen (d.h. je größer {\displaystyle \sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}), desto größer ist die Präzision von {\displaystyle {\hat {\beta }}_{0}} und {\displaystyle {\hat {\beta }}_{1}}. Da die Anzahl der Terme in dem Ausdruck {\displaystyle \sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}, umso größer ist, je größer die Stichprobengröße ist, führen größere Stichproben immer zu einer größeren Präzision. Außerdem kann man sehen, dass je kleiner die Varianz der Störgrößen \sigma ^{2} ist, desto Präziser sind die Schätzer.

Die Kovarianz von {\displaystyle {\hat {\beta }}_{0}} und {\displaystyle {\hat {\beta }}_{1}} ist gegeben durch

{\displaystyle \operatorname {Cov} ({\hat {\beta }}_{0},{\hat {\beta }}_{1})=\sigma ^{2}{\frac {-{\overline {x}}}{\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}}.

Falls für n\to \infty die Konsistenzbedingung

{\displaystyle \sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}\to \infty }

gilt, sind die Kleinste-Quadrate-Schätzer {\displaystyle {\hat {\beta }}_{0}} und {\displaystyle {\hat {\beta }}_{1}} konsistent für \beta _{0} und \beta _{1}. Dies bedeutet, dass mit zunehmender Stichprobengröße der wahre Wert immer genauer geschätzt wird und die Varianz letztendlich verschwindet. Die Konsistenzbedingung besagt, dass das die Werte {\displaystyle x_{1},\ldots ,x_{n},\ldots } hinreichend stark um ihr arithmetisches Mittel variieren. Nur auf diese Art und Weise kommt zusätzliche Information zur Schätzung von {\displaystyle {\hat {\beta }}_{0}} und {\displaystyle {\hat {\beta }}_{1}} hinzu. Das Problem an den beiden Varianzformeln ist jedoch, dass die wahre Varianz der Störgrößen \sigma ^{2} unbekannt ist und somit geschätzt werden muss. Die positiven Quadratwurzeln der geschätzten Varianzen werden als (geschätzte) Standardfehler der Regressionskoeffizienten {\displaystyle {\hat {\beta }}_{0}} und {\displaystyle {\hat {\beta }}_{1}} bezeichnet und sind wichtig für die Beurteilung der Anpassungsgüte (siehe auch Standardfehler der Regressionsparameter im einfachen Regressionsmodell).

Schätzer für die Varianz der Störgrößen

Eine erwartungstreue Schätzung der Varianz der Störgrößen ist gegeben durch

{\displaystyle {\hat {\sigma }}^{2}={\frac {1}{n-2}}\sum \limits _{i=1}^{n}(y_{i}-{\hat {\beta }}_{0}-{\hat {\beta }}_{1}x_{i})^{2}},

d.h., es gilt {\displaystyle \operatorname {E} ({\hat {\sigma }}^{2})=\sigma ^{2}} (für einen Beweis, siehe Erwartungstreuer Schätzer für die Varianz der Störgrößen). Die positive Quadratwurzel dieser erwartungstreuen Schätzfunktion wird auch als Standardfehler der Regression bezeichnet. Der Schätzwert von {\displaystyle {\hat {\sigma }}^{2}} wird auch mittleres Residuenquadrat {\displaystyle MQR} genannt. Das mittlere Residuenquadrat wird benötigt, um Konfidenzintervalle für {\displaystyle \beta _{0}} und {\displaystyle \beta _{1}} zu bestimmen.

Das Ersetzen von \sigma ^{2} durch {\displaystyle {\hat {\sigma }}^{2}} in den obigen Formeln für die Varianzen der Regressionsparameter liefert die Schätzungen {\displaystyle {\widehat {\operatorname {Var} ({\hat {\beta }}_{0})}}\;} und {\displaystyle \;{\widehat {\operatorname {Var} ({\hat {\beta }}_{1})}}} für die Varianzen.

Bester lineare erwartungstreue Schätzer

Hauptartikel: Satz von Gauß-Markow

Es lässt sich zeigen, dass der Kleinste-Quadrate-Schätzer die beste lineare erwartungstreue Schätzfunktion darstellt. Eine erwartungstreue Schätzfunktion ist „besser“ als eine andere, wenn sie eine kleinere Varianz aufweist, da die Varianz ein Maß für die Unsicherheit ist. Somit ist die beste Schätzfunktion dadurch gekennzeichnet, dass sie eine minimale Varianz und somit die geringste Unsicherheit aufweist. Diejenige Schätzfunktion, die unter den linearen erwartungstreuen Schätzfunktionen die kleinste Varianz aufweist, wird auch als bester linearer erwartungstreuer Schätzer, kurz BLES (englisch Best Linear Unbiased Estimator, kurz: BLUE) bezeichnet. Für alle anderen linearen erwartungstreuen Schätzer {\displaystyle {\tilde {\beta }}_{0}} und {\displaystyle {\tilde {\beta }}_{1}} gilt somit

{\displaystyle \operatorname {Var} ({\hat {\beta }}_{0})\leq \operatorname {Var} ({\tilde {\beta }}_{0})\quad } und {\displaystyle \quad \operatorname {Var} ({\hat {\beta }}_{1})\leq \operatorname {Var} ({\tilde {\beta }}_{1})}.

Auch ohne Normalverteilungsannahme ist der Kleinste-Quadrate-Schätzer ein bester linearer erwartungstreuer Schätzer.

Klassisches lineares Modell der Normalregression

Wenn man zusätzlich zu den klassischen Annahmen annimmt, dass die Störgrößen normalverteilt sind ({\displaystyle \varepsilon _{i}\;\sim \;{\mathcal {N}}(0,\sigma ^{2})\quad ,i=1,\ldots ,n}), dann ist es möglich statistische Inferenz (Schätzen und Testen) durchzuführen. Ein Modell das zusätzlich die Normalverteilungsannahme erfüllt, wird Klassisches lineares Modell der Normalregression genannt. Bei solch einem Modell können dann Konfidenzintervalle und Tests für die Regressionsparameter konstruiert werden. Insbesondere wird bei t-Tests diese Normalverteilungsannahme benötigt, da eine t-Verteilung als Prüfgrößenverteilung herangezogen wird, die man erhält wenn man eine standardnormalverteilte Zufallsvariable durch die Quadratwurzel einer (um die Anzahl ihrer Freiheitsgrade korrigierten) Chi-Quadrat-verteilten Zufallsvariablen dividiert.

t-Tests

Die Normalverteilungsannahme {\displaystyle \varepsilon _{i}\;\sim \;{\mathcal {N}}(0,\sigma ^{2})\quad ,i=1,\ldots ,n} impliziert {\displaystyle {\hat {\beta }}_{1}\;{\sim }\;{\mathcal {N}}(\beta _{1},\sigma _{{\hat {\beta }}_{1}}^{2})} und {\displaystyle {\hat {\beta }}_{0}\;{\sim }\;{\mathcal {N}}(\beta _{0},\sigma _{{\hat {\beta }}_{0}}^{2})} und damit ergibt sich für Achsenabschnitt und Steigung die folgende t-Statistik:

{\displaystyle T={\frac {{\hat {\beta }}_{j}-\beta _{j}^{0}}{{\hat {\sigma }}_{{\hat {\beta }}_{j}}}}\;{\stackrel {H_{0}}{\sim }}\;{\mathcal {t}}_{(n-2)},\quad j=0,1}.

Zum Beispiel kann ein Signifikanztest durchgeführt werden, bei dem Nullhypothese und Alternativhypothese wie folgt spezifiziert sind: {\displaystyle H_{0}\colon \beta _{j}=0}  gegen  {\displaystyle H_{1}:\beta _{j}\neq 0}. Für die Prüfgröße gilt dann:

{\displaystyle T={\frac {{\hat {\beta }}_{j}-0}{{\hat {\sigma }}_{{\hat {\beta }}_{j}}}}={\frac {{\hat {\beta }}_{j}}{{\hat {\sigma }}_{{\hat {\beta }}_{j}}}}\;{\stackrel {H_{0}}{\sim }}\;{\mathcal {t}}_{(n-2)},\quad j=0,1},

wobei {\displaystyle {\mathcal {t}}_{(n-2)}} das1-\alpha/2 der t-Verteilung mit (n-2) Freiheitsgraden ist.

Konfidenzintervalle

Um Konfidenzintervalle für den Fall der linearen Einfachregression herzuleiten benötigt man die Normalverteilungsannahme für die Störgrößen. Als (1-\alpha)-Konfidenzintervalle für die unbekannten Parameter {\displaystyle \beta _{0}} und {\displaystyle \beta _{1}} erhält man:

{\displaystyle KI_{1-\alpha }(\beta _{0})=\left[{\hat {\beta }}_{0}-{\hat {\sigma }}_{{\hat {\beta }}_{0}}t_{1-\alpha /2}(n-2);{\hat {\beta }}_{0}+{\hat {\sigma }}_{{\hat {\beta }}_{0}}t_{1-\alpha /2}(n-2)\right]\;} und {\displaystyle \;KI_{1-\alpha }(\beta _{1})=\left[{\hat {\beta }}_{1}-{\hat {\sigma }}_{{\hat {\beta }}_{1}}t_{1-\alpha /2}(n-2);{\hat {\beta }}_{1}+{\hat {\sigma }}_{{\hat {\beta }}_{1}}t_{1-\alpha /2}(n-2)\right]},

wobei {\displaystyle t_{1-\alpha /2}(n-2)} das (1-\alpha /2)-Quantil der studentschen t-Verteilung mit (n-2) Freiheitsgraden ist und die geschätzten Standardfehler {\displaystyle {\hat {\sigma }}_{{\hat {\beta }}_{0}}} und {\displaystyle {\hat {\sigma }}_{{\hat {\beta }}_{1}}} der unbekannten Parameter {\displaystyle \beta _{0}} und {\displaystyle \beta _{1}} gegeben sind durch die Quadratwurzeln der geschätzten Varianzen der Kleinste-Quadrate-Schätzer:

{\displaystyle {\hat {\sigma }}_{{\hat {\beta }}_{0}}=\operatorname {SE} ({\hat {\beta }}_{0})={\sqrt {\frac {MQR\sum \nolimits _{i=1}^{n}x_{i}^{2}}{n\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}}\;} und {\displaystyle \;{\hat {\sigma }}_{{\hat {\beta }}_{1}}=\operatorname {SE} ({\hat {\beta }}_{1})={\sqrt {\frac {MQR}{\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}}},

wobei {\displaystyle MQR} das mittlere Residuenquadrat darstellt.

Vorhersage

Oft ist man daran interessiert für einen neuen Wert x_{0} die (Realisierung) der abhängigen Variablen y_{0} zu schätzen. Beispielsweise könnte x_{0} der geplante Preis eines Produktes sein und y_{0} der Absatz sein. In diesem Fall nimmt man das gleiche einfache Regressionsmodell wie oben dargestellt an. Für eine neue Beobachtung y_{0} mit dem Wert der unabhängigen Variablen x_{0} ist die Vorhersage basierend auf der einfachen linearen Regression gegeben durch

{\displaystyle {\hat {y}}_{0}={\hat {\beta }}_{0}+{\hat {\beta }}_{1}x_{0}}

Da man den Wert der abhängigen Variablen nie genau vorhersehen kann, ergibt sich immer ein Schätzfehler. Dieser Fehler wird als Vorhersagefehler bezeichnet und ergibt sich aus

{\displaystyle {\hat {y}}_{0}-y_{0}}

Im Fall der einfachen linearen Regression ergibt sich für den Erwartungswert und die Varianz des Vorhersagefehlers:

{\displaystyle \operatorname {E} ({\hat {y}}_{0}-y_{0})=0\;} und {\displaystyle \;\sigma _{0}^{2}=\operatorname {Var} ({\hat {y}}_{0}-y_{0})=\sigma ^{2}\left(1+{\frac {1}{n}}+{\frac {(x_{0}-{\overline {x}})^{2}}{\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}\right)}.

Bei Punktvorhersagen dient die Angabe eines Vorhersageintervalls dazu, die Vorhersagepräzision und -sicherheit auszudrücken. Mit Wahrscheinlichkeit {\displaystyle (1-\alpha )} wird die Variable an der Stelle x_{0} einen Wert annehmen, der in folgendem {\displaystyle (1-\alpha )}-Vorhersageintervall liegt

{\displaystyle {\hat {y}}_{0}\pm t_{(1-\alpha /2)}(n-2)\cdot {\sqrt {{\hat {\sigma }}^{2}\left(1+{\frac {1}{n}}+{\frac {(x_{0}-{\overline {x}})^{2}}{\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}\right)}}}.

Aus dieser Form des Konfidenzintervalls erkennt man sofort, dass das Konfidenzintervall breiter wird, wenn sich die unabhängige Vorhersagevariable x_{0} vom „Gravitationszentrum“ der Daten entfernt. Schätzungen der abhängigen Variablen sollten also im Beobachtungsraum der Daten liegen, sonst werden sie sehr unzuverlässig.

Kausalität und Regressionsrichtung

Hauptartikel: Kausalität
Regressionsgeraden für y=g_x(x) [rot] und x=g_y(y) [blau]; hier werden die Parameter {\displaystyle {\hat {\beta }}_{1}} und {\displaystyle {\hat {\beta }}_{2}} durch a und b dargestellt

Wie in der statistischen Literatur immer wieder betont wird, ist ein hoher Wert des Korrelationskoeffizienten zweier Variablen X und Y allein noch kein hinreichender Beleg für den kausalen (d.h. ursächlichen) Zusammenhang von X und Y, ebenso wenig für dessen mögliche Richtung. Es ist hier nämlich ein Fehlschluss der Art cum hoc ergo propter hoc möglich.

Anders als gemeinhin beschrieben, sollte man es daher bei der linearen Regression zweier Variablen X und Y stets mit nicht nur einer, sondern zwei voneinander unabhängigen Regressionsgeraden zu tun haben: der ersten für die vermutete lineare Abhängigkeit y=g_x(x) (Regression von Y auf X), der zweiten für die nicht minder mögliche Abhängigkeit x=g_y(y) (Regression von X auf Y).

Bezeichnet man die Richtung der x-Achse als Horizontale und die der y-Achse als Vertikale, läuft die Berechnung des Regressionsparameter also im ersten Fall auf das üblicherweise bestimmte Minimum der vertikalen quadratischen Abweichungen hinaus, im zweiten Fall dagegen auf das Minimum der horizontalen quadratischen Abweichungen.

Rein äußerlich betrachtet bilden die beiden Regressionsgeraden y=g_x(x) und x=g_y(y) eine Schere, deren Schnitt- und Angelpunkt der Schwerpunkt der Daten {\displaystyle P({\overline {x}}|{\overline {y}})} ist. Je weiter sich diese Schere öffnet, desto geringer ist die Korrelation beider Variablen, bis hin zur Orthogonalität beider Regressionsgeraden, zahlenmäßig ausgedrückt durch den Korrelationskoeffizienten {\displaystyle 0} bzw. Schnittwinkel 90^{\circ }.

Umgekehrt nimmt die Korrelation beider Variablen umso mehr zu, je mehr sich die Schere schließt – bei Kollinearität der Richtungsvektoren beider Regressionsgeraden schließlich, also dann, wenn beide bildlich übereinander liegen, nimmt r_{xy} je nach Vorzeichen der Kovarianz den Maximalwert +1 oder -1 an, was bedeutet, dass zwischen X und Y ein streng linearer Zusammenhang besteht und sich (wohlgemerkt nur in diesem einen einzigen Fall) die Berechnung einer zweiten Regressionsgeraden erübrigt.

Wie der nachfolgenden Tabelle zu entnehmen, haben die Gleichungen der beiden Regressionsgeraden große formale Ähnlichkeit, etwa, was ihre Anstiege {\displaystyle {{\hat {\beta }}_{2}}_{x}} bzw. {\displaystyle {{\hat {\beta }}_{2}}_{y}} angeht, die gleich den jeweiligen Regressionsparameter sind und sich nur durch ihre Nenner unterscheiden: im ersten Fall die Varianz von X, im zweiten die von Y:

Regression von Y auf X Zusammenhangsmaße Regression von X auf Y
Regressionskoeffizient_x Produkt-Moment-Korrelation Regressionskoeffizient{\displaystyle _{y}}
{\displaystyle {\beta _{1}}_{x}={\frac {\operatorname {Cov} (X,Y)}{\operatorname {Var} (X)}}} {\displaystyle \rho _{X,Y}={\frac {\operatorname {Cov} (X,Y)}{\sqrt {\operatorname {Var} (X)\cdot \operatorname {Var} (Y)}}}} {\displaystyle {\beta _{1}}_{y}={\frac {\operatorname {Cov} (X,Y)}{\operatorname {Var} (Y)}}}
Empirischer Regressionskoeffizient_x Empirischer Korrelationskoeffizient Empirischer Regressionskoeffizient{\displaystyle _{y}}
{\displaystyle {\begin{aligned}{{\hat {\beta }}_{1}}_{x}&={\frac {\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})(y_{i}-{\overline {y}})}{\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}\\{{\hat {\beta }}_{0}}_{x}&={\overline {y}}-{\hat {\beta _{1}}}_{x}{\overline {x}}\end{aligned}}} {\displaystyle {\begin{aligned}r_{xy}&={\frac {\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})(y_{i}-{\overline {y}})}{\sqrt {\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}\cdot \sum \nolimits _{i=1}^{n}(y_{i}-{\overline {y}})^{2}}}}\end{aligned}}} {\displaystyle {\begin{aligned}{{\hat {\beta }}_{1}}_{y}&={\frac {\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})(y_{i}-{\overline {y}})}{\sum \nolimits _{i=1}^{n}(y_{i}-{\overline {y}})^{2}}}\\{{\hat {\beta }}_{0}}_{y}&={\overline {x}}-{\hat {\beta _{1}}}_{y}{\overline {y}}\end{aligned}}}
Regressionsgerade_x Bestimmtheitsmaß Regressionsgerade{\displaystyle _{y}}
{\displaystyle {\begin{aligned}{\hat {y}}&={{\hat {\beta }}_{0}}_{x}+{{\hat {\beta }}_{1}}_{x}\cdot x\\&={\overline {y}}+{{\hat {\beta }}_{1}}_{x}\cdot (x-{\overline {x}})\end{aligned}}} {\displaystyle R^{2}=r_{xy}^{2}={{\hat {\beta }}_{1}}_{x}{{\hat {\beta }}_{1}}_{y}} {\displaystyle {\begin{aligned}{\hat {x}}&={{\hat {\beta }}_{0}}_{y}+{{\hat {\beta }}_{1}}_{y}\cdot y\\&={\overline {x}}+{{\hat {\beta }}_{1}}_{y}\cdot (y-{\overline {y}})\end{aligned}}}

Zu erkennen ist außerdem die mathematische Mittelstellung des Korrelationskoeffizienten und seines Quadrats, des Bestimmtheitsmaßes, gegenüber den beiden Regressionsparameter, dadurch entstehend, dass man anstelle der Varianzen von X bzw. Y deren geometrisches Mittel

{\displaystyle {\overline {x}}_{\mathrm {geom} }={\sqrt {\operatorname {Var} (X)\cdot \operatorname {Var} (Y)}}}

in den Nenner setzt. Betrachtet man die Differenzen {\displaystyle (x_{i}-{\overline {x}})} als Komponenten eines n-dimensionalen Vektors \mathbf x und die Differenzen {\displaystyle (y_{i}-{\overline {y}})} als Komponenten eines n-dimensionalen Vektors \mathbf y, lässt sich der empirische Korrelationskoeffizient schließlich auch als Kosinus des von beiden Vektoren eingeschlossenen Winkels \theta interpretieren:

{\displaystyle r_{xy}:={\frac {\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})\cdot (y_{i}-{\overline {y}})}{{\sqrt {\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}\cdot {\sqrt {\sum \nolimits _{i=1}^{n}(y_{i}-{\overline {y}})^{2}}}}}={\frac {\mathbf {x} \circ \mathbf {y} }{|\mathbf {x} |\cdot |\mathbf {y} |}}=\cos \theta }

Beispiel

Für das vorangegangene Beispiel aus der Sektkellerei ergibt sich folgende Tabelle für die Regression von Y auf X bzw. für die Regression von X auf Y:

\ i Flaschenpreis \ x_i verkaufte Menge \ y_i {\displaystyle \ (x_{i}-{\overline {x}})} {\displaystyle \ (y_{i}-{\overline {y}})} {\displaystyle \ (x_{i}-{\overline {x}})(y_{i}-{\overline {y}})} {\displaystyle (x_{i}-{\overline {x}})^{2}} {\displaystyle (y_{i}-{\overline {y}})^{2}} \ \hat{y}_i {\displaystyle \ {\hat {x}}_{i}}
1 20 0 5 −5 −25 25 25 0,09 19,58
2 16 3 1 −2 −2 1 4 4,02 16,83
3 15 7 0 2 0 0 4 5,00 13,17
4 16 4 1 −1 −1 1 1 4,02 15,92
5 13 6 −2 1 −2 4 1 6,96 14,08
6 10 10 −5 5 −25 25 25 9,91 10,42
Summe 90 30 0 0 −55 56 60 30,00 90,00

Daraus ergeben sich folgende Werte für die Regression von Y auf X:

  Regression von Y auf X
Koeffizient Allgemeine Formel Wert im Beispiel
Steigungsparameter der Regressionsgerade {\displaystyle {{\hat {\beta }}_{1}}_{x}={\frac {\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})(y_{i}-{\overline {y}})}{\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}} {\displaystyle {{\hat {\beta }}_{1}}_{x}={\frac {-55}{56}}=-0{,}98}
Achsenabschnitt der Regressionsgerade {\displaystyle {{\hat {\beta }}_{0}}_{x}={\overline {y}}-{{\hat {\beta }}_{1}}_{x}{\overline {x}}} {\displaystyle {{\hat {\beta }}_{0}}_{x}={\frac {30}{6}}-{\frac {-55}{56}}\cdot {\frac {90}{6}}=19{,}73}
Geschätzte Regressionsgerade {\displaystyle {\hat {y}}={{\hat {\beta }}_{0}}_{x}+{{\hat {\beta }}_{1}}_{x}x} {\displaystyle {\hat {y}}=19{,}73-0{,}98x}

Und die Werte für die Regression von X auf Y lauten:

  Regression von X auf Y
Koeffizient Allgemeine Formel Wert im Beispiel
Steigungsparameter der Regressionsgerade {\displaystyle {{\hat {\beta }}_{1}}_{y}={\frac {\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})(y_{i}-{\overline {y}})}{\sum \nolimits _{i=1}^{n}(y_{i}-{\overline {y}})^{2}}}} {\displaystyle {{\hat {\beta }}_{1}}_{y}={\frac {-55}{60}}=-0{,}92}
Achsenabschnitt der Regressionsgerade {\displaystyle {{\hat {\beta }}_{0}}_{y}={\overline {x}}-{{\hat {\beta }}_{1}}_{y}{\overline {y}}} {\displaystyle {{\hat {\beta }}_{0}}_{y}={\frac {90}{6}}-{\frac {-55}{60}}\cdot {\frac {30}{6}}=19{,}58}
Geschätzte Regressionsgerade {\displaystyle {\hat {x}}={{\hat {\beta }}_{0}}_{y}+{{\hat {\beta }}_{1}}_{y}y} {\displaystyle {\hat {x}}=19{,}58-0{,}92y}

Das heißt, je nachdem ob man die Regression von Y auf X oder die Regression von X auf Y ausführt, erhält man unterschiedliche Regressionsparameter. Für die Berechnung des Korrelationskoeffizienten und des Bestimmheitsmaßes spielt jedoch die Regressionsrichtung keine Rolle.

Empirische Korrelation {\displaystyle r_{xy}={\frac {\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})(y_{i}-{\overline {y}})}{\sqrt {\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}\cdot \sum \nolimits _{i=1}^{n}(y_{i}-{\overline {y}})^{2}}}}} r_{xy} = \frac{-55}{\sqrt{56\cdot 60}}=-0{,}95
Bestimmtheitsmaß R^2=r_{xy}^2 R^2=(-0{,}95)^2=0{,}90

Lineare Einfachregression durch den Ursprung

Im Fall der einfachen linearen Regression durch den Ursprung/Regression ohne Achsenabschnitt (der Achsenabschnitt {\displaystyle \beta _{0}} wird nicht in die Regression miteinbezogen und daher verläuft die Regressionsgleichung durch den Koordinatenursprung) lautet die konkrete empirische Regressionsgerade {\displaystyle {\tilde {y}}={\tilde {\beta }}_{1}x}, wobei die Notation {\displaystyle {\tilde {y}},{\tilde {\beta }}_{1}} benutzt wird um von der allgemeinen Problemstellung der Schätzung eines Steigungsparameters mit Hinzunahme eines Achsenabschnitts zu unterscheiden. Manchmal ist es angebracht, die Regressionsgerade durch den Ursprung zu legen, wenn x und y als proportional angenommen werden. Auch in diesem Spezialfall lässt sich die Kleinste-Quadrate-Schätzung anwenden. Sie liefert für die Steigung

{\displaystyle \textstyle {\tilde {\beta }}_{1}={\frac {\textstyle \sum \nolimits _{i=1}^{n}x_{i}y_{i}}{\textstyle \sum \nolimits _{i=1}^{n}x_{i}^{2}}}}.

Dieser Schätzer für den Steigungsparameter {\displaystyle {\tilde {\beta }}_{1}} entspricht dem Schätzer für den Steigungsparameter {\displaystyle {\hat {\beta }}_{1}}, dann und nur dann wenn {\displaystyle {\overline {x}}=0}. Wenn für den wahren Achsenabschnitt {\displaystyle \beta _{0}\neq 0} gilt, ist {\displaystyle {\tilde {\beta }}_{1}} ein verzerrter Schätzer für den wahren Steigungsparameter \beta _{1}. Für die lineare Einfachregression durch den Ursprung muss ein anderes Bestimmtheitsmaß definiert werden, da das gewöhnliche Bestimmtheitsmaß bei einer Regression durch den Ursprung negativ werden kann (siehe Bestimmtheitsmaß#Einfache lineare Regression durch den Ursprung). Die Varianz von {\displaystyle {\hat {\beta }}_{1}} ist gegeben durch

{\displaystyle \operatorname {Var} ({\hat {\beta }}_{1})={\frac {\sigma ^{2}}{\textstyle \sum \nolimits _{i=1}^{n}x_{i}^{2}}}}.

Diese Varianz wird minimal wenn die Summe im Nenner maximal wird.

Matrixschreibweis

Der Modellcharakter des einfachen linearen Regressionsmodells wird besonders in der Matrixschreibweise mit der Datenmatrix deutlich:

{\displaystyle \mathbf {y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}} (wahres Modell).

mit

{\displaystyle {\begin{pmatrix}y_{1}\\y_{2}\\\vdots \\y_{n}\end{pmatrix}}={\begin{pmatrix}1&x_{1}\\1&x_{2}\\\vdots &\vdots \\1&x_{n}\end{pmatrix}}{\begin{pmatrix}\beta _{0}\\\beta _{1}\end{pmatrix}}+{\begin{pmatrix}\varepsilon _{1}\\\varepsilon _{2}\\\vdots \\\varepsilon _{n}\end{pmatrix}}}

Diese Darstellung erleichtert die Verallgemeinerung auf mehrere Einflussgrößen (multiple lineare Regression).

Verhältnis zur multiplen linearen Regression

Die lineare Einfachregression ist ein Spezialfall der multiplen linearen Regression. Das multiple lineare Regressionsmodell

{\displaystyle y_{i}=\beta _{0}+\beta _{1}x_{i1}+\beta _{2}x_{i2}+\ldots +\beta _{k}x_{ik}+\varepsilon _{i}=\mathbf {x} _{i}^{\top }{\boldsymbol {\beta }}+\varepsilon _{i}\quad i=1,\ldots ,n},

stellt eine Verallgemeinerung der linearen Einfachregression bzgl. der Anzahl der Regressoren dar. Hierbei ist {\displaystyle p=k+1} die Anzahl der Regressionsparameter. Für {\displaystyle k=2}, ergibt sich die lineare Einfachregression.

Lineare Einfachregression in R

Als einfaches Beispiel wird der Korrelationskoeffizient zweier Datenreihen berechnet:

# Groesse wird als numerischer Vektor
# durch den Zuweisungsoperator "<-" definiert:
Groesse <- c(176, 166, 172, 184, 179, 170, 176)

# Gewicht wird als numerischer Vektor definiert:
Gewicht <- c(65, 55, 67, 82, 75, 65, 75)

# Berechnung des Korrelationskoeffizienten nach Pearson mit der Funktion "cor":
cor(Gewicht, Groesse, method = "pearson")

Das Ergebnis lautet 0.9295038.

Grafikausgabe des Beispiels

Mithilfe der Statistiksoftware R kann eine lineare Einfachregression durchgeführt werden. Dies kann in R durch die Funktion lm ausgeführt werden, wobei die abhängige Variable von den unabhängigen Variablen durch die Tilde getrennt wird. Die Funktion summary gibt die Koeffizienten der Regression und weitere Statistiken hierzu aus:

# Lineare Regression mit Gewicht als Zielvariable
# Ergebnis wird als reg gespeichert:
reg <- lm(Gewicht~Groesse)

# Ausgabe der Ergebnisse der obigen linearen Regression:
summary(reg)

Diagramme lassen sich einfach erzeugen:

# Streudiagramm der Daten:
plot(Gewicht~Groesse)

# Regressionsgerade hinzufügen:
abline(reg)

Siehe auch

Trenner
Basierend auf einem Artikel in: Wikipedia.de
Seitenende
Seite zurück
©  biancahoegel.de
Datum der letzten Änderung:  Jena, den: 23.10. 2022