Linearer Prädiktor

In der Statistik und dort insbesondere in der parametrischen Regressionsanalyse ist ein linearer Prädiktor eine Linearkombination einer Reihe von Koeffizienten (Regressionskoeffizienten) und erklärenden Variablen (unabhängige Variablen), deren Wert zur Vorhersage (Prädiktion) einer Antwortvariablen verwendet wird. Diese additiv-lineare systematische Komponente ist ein Hauptbestandteil von linearen Regressionsmodellen.

Definition

In der parametrischen Regressionsanalyse wird mittels mehrerer Regressionsparameter ein Suchraum aus pontenziellen Regressionsfunktionen gebildet. Im Anschluss soll diejenige Parameterkonfiguration bestimmt werden, die die höchste Anpassungsgüte für die beobachteten Werte der Antwortvariablen und erklärenden Variablen liefert. Die wichtigsten Modellklassen der parametrischen Regressionsanalyse sind zum einen die Klasse der linearen Modelle und zum anderen die Klasse der verallgemeinerten linearen Modelle. Das Beiwort „linear“ resultiert daraus, dass die beiden Modellklassen auf dem linearen Prädiktor aufbauen, der wie folgt definiert ist

$\eta _{i}\colon =x_{i0}\beta _{0}+x_{i1}\beta _{1}+x_{i2}\beta _{2}+\ldots +x_{ik}\beta _{k}=\sum \nolimits _{j=0}^{k}x_{ij}\beta _{j}$ .

Dieser linearen Prädiktor wird aus den erklärenden Variablen $x_{i0},x_{i1},\ldots ,x_{ik}$ und den festen, aber unbekannten Regressionsparametern $\beta _{0},\beta _{1},\beta _{2},\ldots ,\beta _{k}$ gebildet, wobei $x_{i0}$ für gewöhnlich gleich eins gesetzt wird ( $x_{i0}\equiv 1$ ). Der Parameter $\beta _{0}$ ist somit der Achsenabschnitt der Regressionsgerade bzw. genauer „Regressionshyperebene“. Er bestimmt das Niveau des linearen Prädiktors und wird folglich auch Niveauparameter genannt. In der Regressionsanalyse geht es darum den Achsenabschnitt $\beta _{0}$ , die Steigungsparameter $\beta _{1},\beta _{2},\ldots ,\beta _{k}$ und die Varianz der Störgrößen zu schätzen.

Lineare Modelle vs. verallgemeinerte lineare Modelle

Lineare Modelle gehen vom folgenden Zusammenhang zwischen der Regressionsfunktion und dem linearen Prädiktor aus

$f(x_{i1},x_{i2},\ldots ,x_{ik})=\sum \nolimits _{j=0}^{k}x_{ij}\beta _{j}=\eta _{i}$ .

Verallgemeinerte lineare Modelle dagegen gehen von aus, dass der Erwartungswert der Antwortvariablen $\mu =\operatorname {E} (Y_{i})$ erst durch eine geeignete invertierbare Kopplungsfunktion $g(\cdot )$ die Form eines linearen Prädiktors annimmt

$g(\mu )=\sum \nolimits _{j=0}^{k}x_{ij}\beta _{j}=\eta _{i}$ .

Mit der Umkehrfunktion der Kopplungsfunktion, der Antwortfunktion $h(\cdot )=g^{-1}(\cdot )$ ergibt sich für die Regressionsfunktion in diesem Fall

$f(x_{i1},x_{i2},\ldots ,x_{ik})=h\left(\sum \nolimits _{j=0}^{k}x_{ij}\beta _{j}\right)=h(\eta _{i})$ .

Vektor-Matrix-Schreibweise

Mittels Vektor-Matrix-Schreibweise lässt sich der lineare Prädiktor wie folgt schreiben:

$\eta _{i}=\beta _{0}+x_{i1}\beta _{1}+x_{i2}\beta _{2}+\dotsc +x_{ik}\beta _{k}=\mathbf {x} _{i}^{\top }{\boldsymbol {\beta }}\quad$ , wobei $\quad \mathbf {x} _{i}^{\top }=(1,x_{i1},\ldots ,x_{ik})_{(k+1\times 1)}\quad$ und $\quad {\boldsymbol {\beta }}=(\beta _{0},\beta _{1},\ldots ,\beta _{k})_{(k+1\times 1)}^{\top }$ .

Hierbei ist ${\boldsymbol {\beta }}$ ein $(k+1)\times 1$ -Spaltenvektor und $\mathbf {x} _{i}^{\top }$ ist ein transponierter $(k+1)\times 1$ -Spaltenvektor, sodass das Produkt $\mathbf {x} _{i}^{\top }{\boldsymbol {\beta }}$ eine $1\times 1$ -Matrix bzw. ein Skalar ergibt.

Verwendung in der linearen Regression

→ Hauptartikel: Lineare Regression

Ein Beispiel für die Verwendung eines linearen Prädiktors ist die lineare Regression, bei der jeder die Beziehung zwischen erklärenden Variablen und Antwortvariablen durch eine additive Störgröße überlagert wird. In der multiple lineare Regression lässt sich der Zusammenhang wie folgt schreiben:

$Y_{i}=\eta _{i}+\varepsilon _{i}=\mathbf {x} _{i}^{\top }{\boldsymbol {\beta }}+\varepsilon _{i}$ .

Basierend auf einem Artikel in:

Wikipedia.de