Globaler F-Test

Der globale F-Test (englisch Overall-F-Test), auch Globaltest, Gesamttest, Test auf Gesamtsignifikanz eines Modells, F-Test der Gesamtsignifikanz, Test auf den Gesamtzusammenhang eines Modells stellt eine globale Prüfung der Regressionsfunktion dar. Es wird geprüft, ob mindestens eine Variable einen Erklärungsgehalt für das Modell liefert und das Modell somit als Gesamtes signifikant ist. Falls diese Hypothese verworfen wird, ist das Modell nutzlos. Diese Variante des F-Tests ist die gebräuchlichste Anwendung des F-Tests.

Zugrundeliegendes Modell

Das zugrundeliegende Modell ist das der linearen Mehrfachregression, also

{\displaystyle y_{i}=\beta _{0}+x_{i1}\beta _{1}+x_{i2}\beta _{2}+\dotsc +x_{ik}\beta _{k}+\varepsilon _{i}=\mathbf {x} _{i}^{\top }{\boldsymbol {\beta }}+\varepsilon _{i}}.

Hierbei wird angenommen, dass die Störgrößen unabhängig und homoskedastisch sind und für sie gilt, dass sie einer Normalverteilung folgen, d.h.

{\displaystyle \varepsilon _{i}\sim {\mathcal {N}}(0,\sigma ^{2}),\quad i=1,\ldots ,n}.

Null- und Alternativhypothese

Die Nullhypothese H_{0} des globalen F-Tests sagt aus, dass alle erklärenden Variablen keinen Einfluss auf die abhängige Variable haben. Sowohl die abhängige Variable, als auch die unabhängigen Variablen können binär (kategorial) oder metrisch sein. Der Wald-Test kann dann die globale Nullhypothese (ohne Einbezug des Absolutglieds) testen:

{\displaystyle H_{0}\colon \beta _{1}=\beta _{2}=\ldots =\beta _{k}\;=\;0\Rightarrow \rho ^{2}=0}  gegen  {\displaystyle H_{1}:\beta _{j}\;\neq \;0\;\mathrm {f{\ddot {u}}r\;mindestens\;ein} \;j\in \{1,\ldots ,k\}\Rightarrow \rho ^{2}>0}.

Dieser Test lässt sich so interpretieren, als würde man die gesamte Güte der Regression, also das Populationsbestimmtheitsmaß {\displaystyle \rho ^{2}} der Regression, testen. Aus diesem Grund wird der globale F-Test auch als Anpassungsgüte-Test bezeichnet. Die Bezeichnung Anpassungsgüte-Test ist allerdings etwas irreführend, da streng genommen nicht die Anpassung der Regressionsgerade an die Daten überprüft wird, sondern ob wenigstens einer der erklärenden Variablen einen signifikanten Erklärungsbeitrag liefert. Bei Zutreffen der Nullhypothese H_{0} ergibt sich das sogenannte Nullmodell. Das Nullmodell ist ein Modell, das nur aus einem Absolutglied \beta _{0} besteht.

Teststatistik

Die Teststatistik dieses Tests bekommt man, wenn man zunächst die R-Quadrat-Schreibweise der F-Statistik betrachtet. Die allgemeine Form der F-Statistik ist gegeben durch

{\displaystyle F\equiv {\frac {\left(SQR_{H_{0}}-SQR\right)/q}{SQR/(n-k-1)}}},

wobei q die Anzahl der zu testenden Restriktionen und {\displaystyle SQR_{H_{0}}} Residuenquadratsumme des eingeschränkten und {\displaystyle SQR} die Residuenquadratsumme des uneingeschränkten Modells darstellt. Vorliegend werden, da die Nullhypothese {\displaystyle H_{0}\colon \beta _{1}=\beta _{2}=\ldots =\beta _{k}=0} lautet, {\displaystyle q=k} Restriktionen getestet. Dadurch kann man die Teststatistik auch schreiben als {\displaystyle F={\frac {\left({\mathit {R}}{}^{2}-{\mathit {R}}{}_{H_{0}}^{2}\right)/k}{\left(1-{\mathit {R}}{}^{2}\right)/(n-p)}}} und unter der Nullhypothese gilt

{\displaystyle {\begin{aligned}F={\frac {MQE}{MQR}}={\frac {SQE}{SQR}}{\frac {n-p}{k}}={\frac {{\mathit {R}}^{2}}{1-{\mathit {R}}^{2}}}{\frac {n-p}{k}}\;{\stackrel {H_{0}}{\sim }}\;F\left(k,n-p\right)\end{aligned}}},

wobei {\displaystyle {\mathit {R}}^{2}} das multiple Bestimmtheitsmaß darstellt. Die Teststatistik eines globalen F-Tests ist also gegeben durch den Quotienten aus dem „mittleren Quadrat der erklärten Abweichungen“ und dem „mittleren Residuenquadrat“. Sie ist unter der Nullhypothese F-verteilt mit k und {\displaystyle (n-p)} Freiheitsgraden. Die Berechnung der F-Teststatistik lässt sich in folgender Tafel der Varianzanalyse zusammenfassen:

Variationsquelle Abweichungsquadratsumme Anzahl der Freiheitsgrade Mittleres Abweichungsquadrat F-Teststatistik
Regression (erklärt) {\displaystyle SQE=\sum \nolimits _{i=1}^{n}({\hat {y}}_{i}-{\overline {\hat {y}}})^{2}} (erklärte Quadratsumme) k {\displaystyle MQE={\frac {SQE}{k}}} {\displaystyle F={\frac {MQE}{MQR}}}
Residuen (unerklärt) {\displaystyle SQR=\sum _{i=1}^{n}(y_{i}-{\hat {y}}_{i})^{2}} (Residuenquadratsumme) {\displaystyle (n-p)} {\displaystyle MQR={\frac {SQR}{n-p}}}
Gesamt {\displaystyle SQT=\sum _{i=1}^{n}\left(y_{i}-{\bar {y}}\right)^{2}} (totale Quadratsumme)    

Vorgehen und Interpretation

Überschreitet der empirische F-Wert bei einem a priori festgelegten Signifikanzniveau \alpha den kritischen F-Wert {\displaystyle F_{(1-\alpha )}(k,n-p)} (das (1-\alpha)-Quantil der F-Verteilung mit k und {\displaystyle (n-p)} Freiheitsgraden) so verwirft man die Nullhypothese:

{\displaystyle F>F_{(1-\alpha )}(k,n-p)\Rightarrow H_{0}\;{\text{verwerfen}}}.

Das {\displaystyle {\mathit {R}}^{2}} ist dann ausreichend groß und mindestens eine erklärende Variable trägt vermutlich genügend Information zur Erklärung von y bei. Es ist naheliegend, bei hohen F-Werten die Nullhypothese zu verwerfen, da ein hohes Bestimmtheitsmaß zu einem hohen F-Wert führt. Wenn der Wald-Test für eine oder mehrere unabhängige Variablen die Nullhypothese ablehnt, dann kann man davon ausgehen, dass die zugehörigen Regressionsparameter ungleich Null sind, so dass die Variablen in das Modell mit einbezogen werden sollten. Wenn es nur um eine unabhängige Variable geht (H_{0}\colon \beta _{i}=0  vs.  H_{1}\colon \beta _{i}\neq 0), dann wird ein t-Test benutzt, um zu überprüfen, ob der Parameter signifikant ist. Für einen einzelnen Parameter stimmt das Ergebnis der Wald-Statistik mit dem Ergebnis des Quadrates der t-Statistik überein.

Trenner
Basierend auf einem Artikel in: Wikipedia.de
Seitenende
Seite zurück
©  biancahoegel.de
Datum der letzten Änderung: Jena, den: 29.09. 2023