Verallgemeinerte lineare Modelle

Verallgemeinerte lineare Modelle (VLM), auch generalisierte lineare Modelle (GLM oder GLiM) sind in der Statistik eine von John Nelder und Robert Wedderburn (1972) eingeführte wichtige Klasse von nichtlinearen Modellen, die eine Verallgemeinerung des klassischen linearen Regressionsmodells in der Regressionsanalyse darstellt. Während man in klassischen linearen Modellen annimmt, dass die Störgröße (die unbeobachtbare Zufallskomponente) normalverteilt ist, kann sie in GLMs eine Verteilung aus der Klasse der Exponentialfamilie besitzen. Diese Verteilungsklasse beinhaltet neben der Normalverteilung auch die Binomial-, Poisson-, Gamma- und inverse Gaußverteilung. Damit bietet die Verwendung der Exponentialfamilie in verallgemeinerten linearen Modellen ein einheitliches Rahmenwerk für diese Verteilungen. Die große Klasse von vektorverallgemeinerten linearen Modellen (englisch vector generalized linear models, kurz VGLMs) beinhaltet die Klasse der verallgemeinerten linearen Modelle als Spezialfall. Ebenso in dieser großen Modellklasse enthalten sind loglineare Modelle für kategoriale Daten und das Modell der Poisson-Regression für Zähldaten. Um die Einschränkungen der verallgemeinerten linearen Modelle und verallgemeinerten additiven Modelle zu überwinden wurden sogenannte Verallgemeinerte additive Modelle für Lage-, Skalen- und Formparameter entwickelt.

Begriffsklärung

Verallgemeinerte lineare Modelle sind nicht mit dem linearen Modell zu verwechseln, dessen natürliche englische Abkürzung ebenfalls GLM ist, aber im Gegensatz zu verallgemeinerten linearen Modellen von der Voraussetzung einer normalverteilten Antwortvariablen ausgeht. In vielen statistischen Pogrammpaketen werden – da die Abkürzung GLM schon für das allgemeine linearen Modell belegt ist – zur besseren Unterscheidung andere Abkürzungen wie VLM bzw. GLZ für englisch GeneraLiZed linear models (in STATISTICA) oder GzLM für englisch GeneraLiZed Linear Models (in SPSS) verwendet. Manche Autoren verwenden zu besseren Unterscheidung statt der Abkürzung GLM die Abkürzung GLiM.

Ebenso sind verallgemeinerte lineare Modelle nicht mit dem verallgemeinerten linearen Regressionsmodell der verallgemeinerten Kleinste-Quadrate-Schätzung (VKQ-Schätzung) zu verwechseln, bei der jedoch eine verallgemeinerte Struktur bzgl. der Störgrößen vorliegt.

Modellkomponenten

Die verallgemeinerten linearen Modelle bestehen aus drei Komponenten:

{\displaystyle \eta _{i}=\beta _{0}+x_{i1}\beta _{1}+x_{i2}\beta _{2}+\dotsc +x_{ik}\beta _{k}=\mathbf {x} _{i}^{\top }{\boldsymbol {\beta }}}. Hier erkennt man, dass der lineare Prädiktor den Vektor der Regressionskoeffizienten {\displaystyle {\boldsymbol {\beta }}=\left(\beta _{0}\,\beta _{1},\dots ,\beta _{k}\right)^{\top }} in das Modell miteinführt.

Exponentialfamilie

Die Verteilung einer Antwortvariablen Y_i gehört zur eindimensionalen Exponentialfamilie, wenn sich die Dichtefunktion bzw. Wahrscheinlichkeitsfunktion in folgender Form schreiben lässt:

{\displaystyle f(y_{i}\mid \theta _{i})=\exp \left({\frac {y_{i}\theta _{i}-b(\theta _{i})}{\phi }}\cdot w_{i}+c(y_{i},\phi ,w_{i})\right)},

wobei:

Für die Funktion {\displaystyle b(\theta _{i})} ist notwendig, dass {\displaystyle f(y_{i}\mid \theta _{i})} normalisiert werden kann und die erste {\displaystyle b^{\prime }(\theta _{i})={\frac {\mathrm {d} \,b(\theta _{i})}{\mathrm {d} \,\theta _{i}}}} und zweite Ableitung {\displaystyle b^{\prime \prime }(\theta _{i})={\frac {\mathrm {d} ^{2}\,b(\theta _{i})}{\mathrm {d} \,\theta _{i}^{2}}}} existiert. Die zweite Ableitung {\displaystyle b^{\prime \prime }(\theta _{i})}> bestimmt neben dem Skalenparameter \phi die Varianz der Verteilung und wird daher als Varianzfunktion bezeichnet. Für alle Verteilungen der Exponentialfamilie gilt:

  1. {\displaystyle \operatorname {E} (Y_{i})=\mu =b^{\prime }(\theta _{i})}
  2. {\displaystyle \operatorname {Var} (Y_{i})=\sigma ^{2}=\phi \cdot b^{\prime \prime }(\theta _{i})/w_{i}}

Beispiele für Verteilungen, die zur Exponentialfamilie gehören:

Verteilung
{\displaystyle \operatorname {E} (Y_{i})=\mu }
Kanonischer Parameter
\theta _{{i}}
Skalenparameter
\phi
vorspezifizierte Funktion
{\displaystyle a(\phi )}
vorspezifizierte Funktion
{\displaystyle b(\theta _{i})}
Normalisierungskonstante
{\displaystyle c(y_{i},\phi ,w_{i})}
Wahrscheinlichkeitsfunktion
{\displaystyle f(y_{i})}
Normalverteilung \mu \sigma ^{2} \phi {\displaystyle {\frac {\theta _{i}^{2}}{2}}} {\displaystyle {\frac {-y_{i}^{2}}{2\phi }}-\log \left({\sqrt {2\pi \phi }}\right)} {\displaystyle {\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left(-{\frac {(y_{i}-\mu )^{2}}{2\sigma ^{2}}}\right)}
Bernoulli-Verteilung \log\left(\frac{\mu}{1-\mu}\right) - 1 {\displaystyle \log(1+e^{\theta _{i}})} {\displaystyle 0} {\displaystyle \mu ^{y_{i}}(1-\mu )^{1-y_{i}}\,}
mit {\displaystyle y_{i}=0{\text{ oder }}1}
Binomialverteilung \log\left(\frac{\mu}{n-\mu}\right) - 1 {\displaystyle n\log(1+e^{\theta _{i}})} {\displaystyle \log {\binom {n}{y_{i}}}} {\displaystyle {\binom {n}{y_{i}}}\left({\frac {\mu }{n}}\right)^{y_{i}}\left(1-{\frac {\mu }{n}}\right)^{n-y_{i}}\;}
mit {\displaystyle \;y=0,1,\ldots ,n}
Poisson-Verteilung \log(\mu) - 1 {\displaystyle \exp(\theta _{i})} {\displaystyle -\log(y_{i}!)} {\displaystyle {\frac {\mu ^{y_{i}}}{y_{i}!}}\exp(-\mu )}
mit {\displaystyle y_{i}=0,1,\ldots }
Trenner
Basierend auf einem Artikel in: Wikipedia.de
Seitenende
Seite zurück
©  biancahoegel.de
Datum der letzten Änderung: Jena, den: 18.12. 2022