Wahres Modell

In der Statistik ist das zugrundeliegende wahre Modell das eigentliche Populationsmodell, welches die Zielgröße und die relevanten Einflussgrößen in Beziehung zueinander setzt. Diese Beziehung wird durch eine additive Störgröße überlagert, für die angenommen wird, dass sie einen Erwartungswert von Null aufweist. Die grundlegende Annahme des Modells ist, dass es linear in den Parametern ist.

Multiple lineare Regression

Das Modell in der Grundgesamtheit kann als ein typisches multiples lineares Regressionsmodell wie folgt modelliert werden:

$y_{i}=\beta _{0}+x_{i1}\beta _{1}+x_{i2}\beta _{2}+\dotsc +x_{ik}\beta _{k}+\varepsilon _{i}=\mathbf {x} _{i}^{\top }{\boldsymbol {\beta }}+\varepsilon _{i},\quad \operatorname {E} (\varepsilon _{i})=0$ .

Hierbei ist $p=k+1$ die Anzahl der zu schätzenden unbekannten (wahren) Parameter $\beta _{0},\beta _{1},\beta _{2},\dotsc ,\beta _{k}$ . Die Regressionsparameter $\beta _{0},\beta _{1},\beta _{2},\dotsc ,\beta _{k}$ sind unbekannte und konstante Parameter des Interesses und $\varepsilon _{i}$ ist eine unbeobachtete Zufallsvariable, die Störgröße oder Fehlerterm genannt wird. Die obige Gleichung beschreibt das Modell in der Grundgesamtheit bzw. das Populationsmodell und wird manchmal wahres Modell genannt. Selbst wenn man die wahre Regressionsfunktion der Grundgesamtheit kennen würde, dann würde sich der beobachtete Wert der Zielgröße $y_{i}$ immer noch vom vorhergesagten Wert ${\hat {y}}_{i}$ durch ein gewisses Ausmaß unterscheiden, was der Störgröße entspricht.

Das Aufstellen eines wahren Modells impliziert, dass die Möglichkeit besteht, dass man ein Modell verschieden von $y_{i}=\beta _{0}+x_{i1}\beta _{1}+x_{i2}\beta _{2}+\dotsc +x_{ik}\beta _{k}+\varepsilon _{i}$ schätzt. Man könnte beispielsweise redundante unabhängige Variablen hinzufügen. Allerdings muss das Einbeziehen von redundanten unabhängigen Variablen nicht immer ein Spezifikationsfehler darstellen (von einem Spezifikationsfehler spricht man, wenn die Annahme, dass der Erwartungswert der Störgröße gleich Null ist verletzt ist). Beispielsweise könnte das zugrundeliegende wahre Modell gegeben sein durch $y_{i}=\beta _{0}+x_{i1}\beta _{1}+x_{i2}\beta _{2}+\varepsilon _{i}$ . Das gewählte (spezifizierte) Modell (mit der irrelevanten unabhängigen Variablen $x_{i3}$ ) könnte folgendes Modell sein: $y_{i}=\beta _{0}+x_{i1}\beta _{1}+x_{i2}\beta _{2}+x_{i3}\beta _{3}+\varepsilon _{i}^{*}$ . Dass die Variable als irrelevant angenommen wird bedeutet, dass der wahre Wert von $\beta _{3}$ gleich Null ist ( $\beta _{3}=0$ ). Aus diesem Grund gilt: $\operatorname {E} (\varepsilon _{i}^{*})=\operatorname {E} (\varepsilon _{i}-x_{i3}\beta _{3})=0$ . In diesem Fall sind die KQ-Schätzer immer noch erwartungstreu für die wahren Werte und es liegt kein Spezifikationsfehler vor.

Basierend auf einem Artikel in:

Wikipedia.de