Verallgemeinerte Kleinste-Quadrate-Schätzung

In der Statistik ist die Verallgemeinerte Kleinste-Quadrate-Schätzung (kurz VKQ-Schätzung), verallgemeinerte Methode der kleinsten Quadrate, kurz VMKQ (englisch generalized least squares, kurz GLS) eine Prozedur, um unbekannte wahre Regressionsparameter in einer linearen Regressionsgleichung, unter problematischen Voraussetzungen (vorliegen von Autokorrelation und Heteroskedastizität), effizient zu schätzen. Die VKQ-Methode kann benutzt werden, um bei einem Modell mit einer allgemeinen Störgrößenstruktur zielführend eine lineare Regression durchzuführen. Eine verallgemeinerte Störgrößenstruktur liegt vor, wenn ein bestimmter Grad an Korrelation zwischen den Residuen und eine nicht konstante Störgrößenvarianz zulässig sind. In diesen Fällen können die gewöhnliche Kleinste-Quadrate-Schätzung und die gewichtete Kleinste-Quadrate-Schätzung statistisch ineffizient sein oder sogar zu falschen Resultaten der statistischen Inferenz führen. Aus diesem Grund wird, um valide Resultate der statistischen Inferenz zu erhalten, eine Transformation des klassischen linearen Modells durchgeführt, durch welche die benötigten Annahmen für die statistische Inferenz weiterhin erfüllt sind. Die VKQ-Methode minimiert im Gegensatz zur gewöhnlichen Methode der kleinsten Quadrate eine gewichtete Residuenquadratsumme. Sie wurde von Alexander Aitken entwickelt und 1934 veröffentlicht und wird daher auch Aitken-Schätzung genannt.

Geschichte

Carl Friedrich Gauß

Alexander Aitken

Am Neujahrstag 1801 entdeckte der italienische Astronom Giuseppe Piazzi den Zwergplaneten Ceres. 40 Tage lang konnte er die Bahn verfolgen, dann verschwand Ceres hinter der Sonne. Im Laufe des Jahres versuchten viele Wissenschaftler erfolglos, anhand von Piazzis Beobachtungen die Bahn zu berechnen – unter der Annahme einer Kreisbahn, denn nur für solche konnten damals die Bahnelemente aus beobachteten Himmelspositionen mathematisch ermittelt werden. Der 24-jährige Gauß hingegen konnte auch elliptische Bahnen aus drei Einzelbeobachtungen berechnen. Da aber deutlich mehr Bahnpunkte vorlagen, wandte er seine Methode der kleinsten Quadrate an, um so die Genauigkeit zu erhöhen. Als Franz Xaver von Zach und Heinrich Wilhelm Olbers im Dezember 1801 den Kleinplaneten genau an dem von Gauß vorhergesagten Ort wiederfanden, war das nicht nur ein großer Erfolg für Gauß’ Methode: Piazzis Ruf, der aufgrund seiner nicht zu einer Kreisbahn passen wollenden Bahnpunkte stark gelitten hatte, war ebenfalls wiederhergestellt.

Den Grundstein der verallgemeinerten Methode der kleinsten Quadrate legte Gauß schon 1795 im Alter von 18 Jahren. Basis war eine Idee von Pierre-Simon Laplace, die Beträge von Fehlern aufzusummieren, so dass sich die Fehler zu Null addieren. Gauß nahm stattdessen die Fehlerquadrate und konnte die Nullsummen-Anforderung an die Fehler weglassen. Unabhängig davon entwickelte der Franzose Adrien-Marie Legendre dieselbe Methode erstmals im Jahr 1805 am Schluss eines kleinen Werkes über die Berechnung der Kometenbahnen und veröffentlichte eine zweite Abhandlung darüber im Jahr 1810. Von ihm stammt der Name Méthode des moindres carrés (Methode der kleinsten Quadrate).

1809 publizierte Gauß dann im zweiten Band seines himmelsmechanischen Werkes Theoria motus corporum coelestium in sectionibus conicis solem ambientium (Theorie der Bewegung der Himmelskörper, welche in Kegelschnitten die Sonne umlaufen) sein Verfahren, inklusive der Normalgleichungen und des Gaußschen Eliminationsverfahrens. Dabei erwähnte er, dass er es schon vor Legendre entdeckt und benutzt habe, was zu einem Prioritätsstreit zwischen den beiden führte. Die Methode der kleinsten Quadrate wurde nun schnell das Standardverfahren zur Behandlung von astronomischen oder geodätischen Datensätzen.

Gauß benutzte dann das Verfahren intensiv bei seiner Vermessung des Königreichs Hannover durch Triangulation. 1821 und 1823 erschien die zweiteilige Arbeit sowie 1826 eine Ergänzung zur Theoria combinationis observationum erroribus minimis obnoxiae (Theorie der den kleinsten Fehlern unterworfenen Kombination der Beobachtungen), in denen Gauß eine Begründung liefern konnte, weshalb sein Verfahren im Vergleich zu den anderen so erfolgreich war: Die Methode der kleinsten Quadrate ist in einer breiten Hinsicht optimal, also besser als andere Methoden. Die genaue Aussage ist als der Satz von Gauß-Markow bekannt, da die Arbeit von Gauß wenig Beachtung fand und schließlich im 20. Jahrhundert von Andrei Andrejewitsch Markow wiederentdeckt und bekannt gemacht wurde. Die Theoria Combinationis enthält ferner wesentliche Fortschritte beim effizienten Lösen der auftretenden linearen Gleichungssysteme, wie das Gauß-Seidel-Verfahren und die LR-Zerlegung.

Schließlich veröffentlichte Alexander Aitken 1935 eine Arbeit, in der er das Konzept der verallgemeinerten kleinsten Quadrate und den viel verwendeten verallgemeinerten kleinsten Quadrate-Schätzer einführte. Ebenso bewies er dort, dass dieser von ihm eingeführte Schätzer Beste Lineare Erwartungstreue Schätzfunktion, kurz BLES (englisch Best Linear Unbiased Estimator, kurz: BLUE) ist, d.h. in der Klasse der linearen erwartungstreuen Schätzern derjenige mit der kleinsten Kovarianzmatrix ist. Aitken wendete außerdem die statistischen Methoden auf die Theorie der linearen Modelle an und entwickelte die Notation, die man heutzutage als Standard-Vektor-Matrix-Notation betrachtet. Aitken veröffentlichte zusammen mit einem seiner Studenten namens Harold Silverstone eine Arbeit, in der sie die untere Grenze der Varianz eines Schätzers einführten, auch bekannt als Cramér-Rao-Ungleichung. Im Gegensatz zu Vorgängern fand er einen effizienten Weg, um das Problem einer nicht konstanten Varianz und korrelierten Störtermen zu lösen. Die verallgemeinerte Kleinste-Quadrate-Schätzung baut auf der Gauß-Markov-Theorie auf und spielt immer noch eine große Rolle in theoretischen und praktischen Aspekten der statistischen Inferenz in verallgemeinerten linearen (multiplen) Regressionsmodellen.

Ausgangslage

Da viele Variablen des Interesses nicht nur von einer unabhängigen Variablen abhängen, betrachten wir eine abhängige Variable, die durch mehrere unabhängige Variablen erklärt werden soll. Zum Beispiel ist die Gesamtproduktion einer Volkswirtschaft von dessen Kapitaleinsatz, Arbeitseinsatz und dessen Fläche abhängig. Solch eine multiple Abhängigkeit kommt der Realität viel näher und man gibt die Annahme der einfachen linearen Regression auf, bei der die Variable des Interesses nur von einer Variablen abhängt. Um solch eine multiple Abhängigkeit zu modellieren, betrachten wir als Ausgangslage ein typisches multiples lineares Regressionsmodell mit gegebenen Daten $\{y_{t},x_{tk}\}_{t=1,\dots ,T,k=1,\dots ,K}$ für statistische Einheiten. Hierbei ist zu beachten, dass wir zusätzlich zur Dimension der unabhängigen Variablen auch eine zeitliche Dimension integrieren, wodurch sich ein lineares Gleichungssystem ergibt was sich auch matriziell darstellen lässt. Der Zusammenhang zwischen der abhängigen Variablen und den unabhängigen Variablen kann wie folgt dargestellt werden

$y_{t}=x_{t1}\beta _{1}+x_{t2}\beta _{2}+\ldots +x_{tK}\beta _{K}+\varepsilon _{t}=\mathbf {x} _{t}^{\top }{\boldsymbol {\beta }}+\varepsilon _{t},\quad t=1,2,\dotsc ,T$ .

In Vektor-Matrix-Form auch

${\begin{pmatrix}y_{1}\\y_{2}\\\vdots \\y_{T}\end{pmatrix}}_{(T\times 1)}\;=\;{\begin{pmatrix}x_{11}&x_{12}&\cdots &x_{1k}&\cdots &x_{1K}\\x_{21}&x_{22}&\cdots &x_{2k}&\cdots &x_{2K}\\\vdots &\vdots &\ddots &\vdots &\ddots &\vdots \\x_{T1}&x_{T2}&\cdots &x_{Tk}&\cdots &x_{TK}\end{pmatrix}}_{(T\times K)}\;\cdot \;{\begin{pmatrix}\beta _{1}\\\beta _{2}\\\vdots \\\beta _{K}\end{pmatrix}}_{(K\times 1)}\;+\;{\begin{pmatrix}\varepsilon _{1}\\\varepsilon _{2}\\\vdots \\\varepsilon _{T}\end{pmatrix}}_{(T\times 1)}$

oder in kompakter Schreibweise

$\mathbf {y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}$

Hier stellt ${\boldsymbol {\beta }}$ einen Vektor von unbekannten Regressionsparametern dar, die mithilfe der Daten geschätzt werden müssen. Des Weiteren wird angenommen, dass die Störgrößen im Mittel null sind: $\mathbb {E} ({\boldsymbol {\boldsymbol {\varepsilon }}})=\mathbf {0}$ , was bedeutet, dass wir davon ausgehen können, dass unser Modell im Mittel korrekt ist. Für gewöhnlich stellt man an ein solches Modell die Anforderung, dass die Gauß-Markow-Annahmen gelten sollen. Dies soll hier aber nicht der Fall sein, da man nicht opportunistisch von problematischen Voraussetzungen ausgeht. Aus diesem Grund wird ein Modell betrachtet, bei dem eine allgemeine Störgrößenstruktur zulässig ist.

Das verallgemeinerte lineare Regressionsmodell (VLR)

Weiterhin wird für das Modell angenommen, dass der Erwartungswert von $\mathbf{y}$ linear in ${\boldsymbol {\beta }}$ ist. Die Matrix $\mathbf {\Phi }$ stellt die Kovarianzmatrix der Störgrößen dar, wobei $\mathbf {\Psi }$ als eine beliebige bekannte reelle nichtsinguläre positiv definite $T \times T$ Matrix angenommen wird und $\sigma ^{2}$ ein noch unbekannter Skalar darstellt. Die Besonderheit im Gegensatz zur gewöhnlichen Methode der kleinsten Quadrate ist, dass Heteroskedastizität (d.h., dass die Varianz der Störterme bedingt auf die erklärenden Variablen nicht konstant ist) und Autokorrelation (d.h. ein Korrelieren der Störterme) erlaubt ist:

Die Varianz der Störgrößen könnte heteroskedastisch sein:

$\operatorname {Cov} [{\boldsymbol {\varepsilon }}]=\mathbb {E} ({\boldsymbol {\varepsilon }}{\boldsymbol {\varepsilon }}^{\top })=\sigma ^{2}\mathbf {\Psi } =\mathbf {\Phi } \neq \sigma ^{2}\mathbf {I} _{T}$

Wenn die Varianz der Residuen (und somit die Varianz der erklärten Variablen selbst) für alle Ausprägungen der Regressoren nicht unterschiedlich ist, liegt Homoskedastizität ((Residuen-)Varianzhomogenität) vor. Falls diese Annahme verletzt ist spricht man von Heteroskedastizität.
Die Störgrößen könnten voneinander nicht unabhängige Zufallsvariablen sein, d.h. autokorreliert sein:

$\forall \;t\neq s:\mathbb {E} (\varepsilon _{t}\varepsilon _{s})\neq 0$ .

D. h. die Annahme der Abwesenheit von Autokorrelation könnte verletzt sein.

Für die Matrix ${\boldsymbol {\Phi }}$ gibt es je nach Kontext unterschiedliche Definitionen. Bei Vorliegen von Heteroskedastizität nimmt sie folgende Form an

${\boldsymbol {\Phi }}=\sigma ^{2}{\boldsymbol {\Psi }}=\sigma ^{2}{\begin{pmatrix}w_{11}&0&\cdots &0\\0&w_{22}&\cdots &0\\\vdots &\vdots &\ddots &\vdots \\0&0&\cdots &w_{TT}\end{pmatrix}}={\begin{pmatrix}\sigma _{11}^{2}&0&\cdots &0\\0&\sigma _{22}^{2}&\cdots &0\\\vdots &\vdots &\ddots &\vdots \\0&0&\cdots &\sigma _{TT}^{2}\end{pmatrix}}$

und bei Vorliegen von Autokorrelation die Form

${\boldsymbol {\Phi }}=\sigma ^{2}{\boldsymbol {\Psi }}=\sigma ^{2}{\begin{pmatrix}1&a_{1}&\cdots &a_{T-1}\\a_{1}&1&\cdots &a_{T-2}\\\vdots &\vdots &\ddots &\vdots \\a_{T-1}&a_{T-2}&\cdots &1\end{pmatrix}}$ .

Ein Modell der Form $\mathbf {y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}$ mit ${\boldsymbol {\varepsilon }}\sim (\mathbf {0} ,\sigma ^{2}{\boldsymbol {\Psi }})$ , wobei $\operatorname {Rang} ({\boldsymbol {\Psi }})=T$ heißt verallgemeinertes (multiples) lineares Regressionsmodell (mit fixen Regressoren), kurz VLR. Es ist dabei zu beachten, dass sich $\sigma ^{2}$ immer als konstanter Faktor aus der Matrix ziehen lässt. Das Skalar $\sigma ^{2}$ stellt einen beliebigen konstanten Proportionalitätsfaktor dar. Manchmal ist es nützlich – insbesondere bei Heteroskedastizität – anzunehmen, dass $\sigma ^{2}=1$ . Die Annahme ist equivalent zu sagen, dass die Kovarianzmatrix $\mathbf {\Psi }$ vollständig bekannt ist. Wenn man $\mathbf {\Phi } =\sigma ^{2}\mathbf {\Psi }$ schreibt, wobei $\mathbf {\Psi }$ bekannt ist und $\sigma ^{2}$ unbekannt ist dann sagt man damit, dass es nicht notwendig ist anzunehmen, dass die Kovarianzmatrix $\mathbf {\Phi }$ vollständig bekannt sein muss; es ist ausreichend anzunehmen, dass $\mathbf {\Psi }$ bekannt ist (die Matrix die man erhält, nachdem man einen beliebigen unbekannten Skalierungsparameter $\sigma ^{2}$ herauszieht). Man kann das verallgemeinerte lineare Regressionsmodell mit heteroskedastischer Störgrößenkovarianzmatrix $\mathbf {\Phi } :=\sigma ^{2}\mathbf {\Psi }$ durch geeignete Wahl von $\mathbf {\Psi }$ auf das gewöhnliche multiple Regressionsmodell mit homoskedastischer Störgrößenkovarianzmatrix $\mathbf {\Sigma } :=\sigma ^{2}\mathbf {I}$ zurückführen.

Die Auswirkungen der Anwendung der gewöhnlichen Methode der kleinsten Quadrate (KQ)

Auswirkungen auf Eigenschaften der Punktschätzer

Als einen ersten naiven Ansatz nehmen wir an, der Kleinste-Quadrate-Schätzer $\mathbf{b}$ , der durch die Minimierung der Residuenquadratsumme gewonnen wird, wäre ein zielführender Kandidat für den Punktschätzer für ${\boldsymbol {\beta }}$ bei einem Modell mit einer allgemeinen Störgrößenstruktur; dann ist der Residualvektor ${\boldsymbol {\varepsilon }}$ gegeben durch $\mathbf {y} -\mathbf {X} \mathbf {b}$ . Es wird jedoch ersichtlich, dass der Punktschätzer ${\boldsymbol {\beta }}$ für bei einem Modell mit allgemeiner Störgrößenstruktur zwar erwartungstreu, aber nicht mehr effizient ist. Beim naiven Ansatz ist die Kovarianzmatrix nicht mehr gleich $\sigma ^{2}(\mathbf {X} ^{\top }\mathbf {X} )^{-1}$ , sondern sie ist gegeben durch

${\begin{aligned}\operatorname {Cov} ({\hat {\boldsymbol {\beta }}})&=\mathbb {E} \left((\mathbf {b} -\mathbb {E} (\mathbf {b} ))(\mathbf {b} -\mathbb {E} (\mathbf {b} ))^{\top }\right)=\mathbb {E} \left((\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }{\boldsymbol {\varepsilon }}{\boldsymbol {\varepsilon }}^{\top }\mathbf {X} (\mathbf {X} ^{\top }\mathbf {X} )^{-1}\right)=(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbb {E} (\mathbf {\boldsymbol {\varepsilon }} {\boldsymbol {\varepsilon }}^{\top })\mathbf {\mathbf {X} } (\mathbf {X} ^{\top }\mathbf {X} )^{-1}\\&=(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }{\boldsymbol {\Phi }}\mathbf {X} (\mathbf {X} ^{\top }\mathbf {X} )^{-1}=(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }(\sigma ^{2}{\boldsymbol {\Psi }})\mathbf {X} (\mathbf {X} ^{\top }\mathbf {X} )^{-1}=\sigma ^{2}(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {\Psi } \mathbf {X} (\mathbf {X} ^{\top }\mathbf {X} )^{-1}\\&\neq \sigma ^{2}(\mathbf {X} ^{\top }\mathbf {X} )^{-1}.\end{aligned}}$

Dies resultiert vor allem daraus, dass eine nichtkonstante Störgrößenvarianz (Heteroskedastizität) zulässig ist. Wenn man nämlich davon ausgeht, dass keine Heteroskedastizität gegeben ist ( ${\boldsymbol {\Psi }}=\mathbf {I}$ ), dann ergibt sich wieder die Kovarianzmatrix der gewöhnlichen Methode der kleinsten Quadrate ( $\operatorname {Cov} (\mathbf {b} )=\sigma ^{2}(\mathbf {X} ^{\top }\mathbf {X} )^{-1}$ ).

Bei Vorliegen einer nichtskalaren Einheits-Kovarianzmatrix lässt sich zeigen, dass die Eigenschaft der Erwartungstreue des Kleinste-Quadrate-Schätzers weiterhin erfüllt ist, jedoch ist sie nicht mehr für die Varianz der Störgrößen erfüllt. Für die Varianz der Störgrößen gilt nämlich, dass sie keine Erwartungstreue Schätzung der Varianz der Störgrößen ist

$\mathbb {E} ({\hat {\sigma }}^{2})=\sigma ^{2}{\frac {\operatorname {Spur} ({\boldsymbol {\Psi }}(\mathbf {I} -(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }))}{T-K}}\neq \sigma ^{2}$ .

Sie ist somit ein verzerrter Schätzer für die wahre Varianz $\sigma ^{2}$ .

Auswirkungen auf Hypothesentests

Eine wichtige Auswirkung ergibt sich für die Intervallschätzung und Prozeduren der Hypothesentests. Die Resultate der statistischen Inferenz sind nicht länger gültig, da die oben dargestellten Resultate für die Kovarianzmatrix von ${\mathbf b}$ implizieren, dass wir fälschlicherweise ${\hat {\sigma }}^{2}(\mathbf {X} ^{\top }\mathbf {X} )^{-1}$ benutzen um $\sigma ^{2}(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }{\boldsymbol {\Psi }}\mathbf {X} (\mathbf {X} ^{\top }\mathbf {X} )^{-1}$ zu schätzen. Da dies ein verzerrter Schätzer ist, führt dies zu nicht validen Resultaten der statistischen Inferenz. Eine weitere Konsequenz für die Inferenz ist, dass die benötigte Teststatistik für allgemeine lineare Hypothesen nicht mehr F-verteilt ist. Aus diesem Grund sollte man die Intervallschätzung auf dem verallgemeinerten Kleinste-Quadrate-Schätzer aufbauen oder robuste Standard-Fehler à la Eicker-Huber-White benutzen.

Gewinnung des verallgemeinerten Kleinste-Quadrate-Schätzers (VKQ)

Aus obigen ersten naiven Ansatz wird deutlich, dass die Methode der kleinsten Quadrate bei einer allgemeinen Störgrößenstruktur nicht zielführend ist, da sie zu Ineffizienzen führt. Aus diesem Grund besteht die Notwendigkeit diese Ineffizienzen zu beseitigen, indem das Verfahren der verallgemeinerten Methode der kleinsten Quadrate angewandt wird. Die verallgemeinerte Methode der kleinsten Quadrate schätzt ${\boldsymbol {\beta }}$ , indem der quadrierte Mahalanobis-Abstand des Residualvektors minimiert wird:

${\boldsymbol {\hat {\beta }}}={\underset {\mathbf {b} }{\rm {arg\,min}}}\,(\mathbf {y} -\mathbf {X} \mathbf {b} )^{\top }\,\mathbf {\Psi } ^{-1}(\mathbf {y} -\mathbf {X} \mathbf {b} )$ .^[1]^[2]

Da der Ausdruck eine quadratische Form in $\mathbf{b}$ ist, ist das Resultat der Minimierung:

${\hat {\boldsymbol {\beta }}}_{\text{VKQ}}=\left(\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}\mathbf {y}$ .

Der Schätzer ${\hat {\boldsymbol {\beta }}}_{\text{VKQ}}$ heißt verallgemeinerter Kleinste-Quadrate-Schätzer, kurz VKQ-Schätzer oder Aitken-Schätzer (englisch generalized least squares estimator, kurz: GLSE). Die Kovarianzmatrix des verallgemeinerten Kleinste-Quadrate-Schätzers ist gegeben durch:

$\mathbf {\Sigma } _{{\hat {\boldsymbol {\beta }}}_{\text{VKQ}}}=\sigma ^{2}(\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}\mathbf {X} )^{-1}$ .

Der durch das Minimierungsproblem gegebene Punktschätzer für ${\boldsymbol {\beta }}$ ist Beste Lineare Erwartungstreue Schätzfunktion (Best Linear Unbiased Estimator). Ein anderer Ansatz um den VKQ-Schätzer zu bekommen ist durch eine Transformation des multiplen linearen Modells.

Transformation des multiplen linearen Modells

Die VKQ-Methode ist äquivalent zu der Anwendung einer linearen Transformation auf die gewöhnliche Methode der kleinsten Quadrate (englisch ordinary least squares, kurz OLS). Der Transformationsfaktor $\mathbf {\Psi } ={\boldsymbol {P^{-1}}}{\boldsymbol {P^{-1}}}^{\top }$ kann durch die Cholesky-Zerlegung gewonnen werden. Anschließend werden beide Seiten des Modells $\mathbf {y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}$ mit ${\boldsymbol {P}}$ multipliziert. Das verallgemeinerte lineare Modell lässt sich über die Transformationen $\mathbf {y} ^{*}={\boldsymbol {P}}\mathbf {y}$ , $\mathbf {X} ^{*}={\boldsymbol {P}}\mathbf {X}$ , und ${\boldsymbol {\varepsilon }}^{*}={\boldsymbol {P}}{\boldsymbol {\varepsilon }}$ in ein klassisches lineares Modell überführen

$\mathbf {y} ^{*}=\mathbf {X} ^{*}{\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}^{*}$ .

Eigenschaften der transformierten Störgrößen

Weiterhin stellt sich die Frage, was die transformierten Störgrößen im Mittel ergeben. In diesem Modell gilt für die transformierten Störgrößen ${\boldsymbol {\varepsilon }}^{*}$ ebenfalls, dass sie im Mittel Null ergeben, da

$\mathbb {E} ({\boldsymbol {\varepsilon }}^{*})=\mathbb {E} ({\boldsymbol {P}}{\boldsymbol {\varepsilon }})={\boldsymbol {P}}\mathbb {E} ({\boldsymbol {\varepsilon }})=\mathbf {0}$ .

Die Eigenschaft gewährleistet, dass man im Mittel das wahre Modell schätzt und nicht eine verzerrte Form. Für die Kovarianzmatrix der transformierten Störgrößen gilt

$\operatorname {Cov} ({\boldsymbol {\varepsilon }}^{*})=\operatorname {Cov} ({\boldsymbol {P}}{\boldsymbol {\varepsilon }})={\boldsymbol {P}}\operatorname {Cov} ({\boldsymbol {\varepsilon }}){\boldsymbol {P}}^{\top }=\sigma ^{2}{\boldsymbol {P}}\mathbf {\Psi } {\boldsymbol {P}}^{\top }$ .

Damit die Homoskedastizitätsannahme erfüllt ist, wird ${\boldsymbol {P}}\mathbf {\Psi } {\boldsymbol {P}}^{\top }$ so bestimmt, dass ${\boldsymbol {P}}\mathbf {\Psi } {\boldsymbol {P}}^{\top }=\mathbf {I}$ , wobei $\mathbf {I}$ die Einheitsmatrix darstellt (weil ${\mathbf {\Psi }}$ eine positiv definite Matrix ist existiert immer eine Matrix mit der Eigenschaft ${\boldsymbol {P}}\mathbf {\Psi } {\boldsymbol {P}}^{\top }=\mathbf {I}$ ). Also ist für das transformierte Modell bei dieser Festlegung die Homoskedastizitätsannahme $\operatorname {Cov} [{\boldsymbol {\varepsilon }}^{*}]=\sigma ^{2}\mathbf {I}$ und auch alle anderen Gauß-Markov-Annahmen erfüllt. Dadurch, dass man ${\boldsymbol {P}}\mathbf {\Psi } {\boldsymbol {P}}^{\top }=\mathbf {I}$ setzt folgt

$\mathbf {\Psi } =({\boldsymbol {P}}^{-1})(({\boldsymbol {P}}^{\top })^{-1})\Leftrightarrow \mathbf {\Psi } ^{-1}={\boldsymbol {P}}^{\top }{\boldsymbol {P}}$ .

Dieses Resultat wird später noch für die Berechnung des VKQ-Schätzers benötigt. Da das transformierte Modell die Gauß-Markow-Annahmen erfüllt, muss der Kleinste-Quadrate-Schätzer dieses Modells gegeben sein durch

${\hat {\boldsymbol {\beta }}}=(({\boldsymbol {P}}\mathbf {X} )^{\top }{\boldsymbol {P}}\mathbf {X} )^{-1}({\boldsymbol {P}}\mathbf {X} )^{\top }({\boldsymbol {P}}\mathbf {y} )=(\mathbf {X^{*}} ^{\top }\mathbf {X} ^{*})^{-1}\mathbf {X^{*}} ^{\top }\mathbf {y} ^{*}$

und beste lineare erwartungstreue Schätzfunktion (BLES) sein. Anders ausgedrückt

${\hat {\boldsymbol {\beta }}}=(\mathbf {X} ^{\top }{\boldsymbol {P}}^{\top }{\boldsymbol {P}}\mathbf {X} )^{-1}\mathbf {X} ^{\top }{\boldsymbol {P}}^{\top }{\boldsymbol {P}}\mathbf {y}$ .

Mithilfe des obigen Resultates für $\mathbf {\Psi } ^{-1}$ ergibt sich schließlich bei diesem Ansatz ebenfalls der VKQ-Schätzer

${\hat {\boldsymbol {\beta }}}_{\text{VKQ}}=\left(\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}\mathbf {y}$ .

Man kann zeigen, dass multiplizieren der Störgrößenkovarianzmatrix mit einem Skalar den Wert des VKQ-Schätzer nicht ändert:

${\hat {\boldsymbol {\beta }}}_{\text{VKQ}}=\left(\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}\mathbf {y} =\left(\mathbf {X} ^{\top }\mathbf {\Phi } ^{-1}\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }\mathbf {\Phi } ^{-1}\mathbf {y}$ .

gilt.

Eigenschaften

Störgrößen-Kovarianzmatrix

Die Kovarianzmatrix der Störgrößen entspricht bei der verallgemeinerten Kleinste-Quadrate-Schätzung

${\hat {\sigma }}_{\text{VKQ}}^{2}={\frac {(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}}_{\text{VKQ}})^{\top }\mathbf {\Psi } ^{-1}(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}}_{\text{VKQ}})}{T-K}}$ .

Maximum-Likelihood-Schätzung (MLS)

Im Falle einer nichtskalaren Kovarianzmatrix, wie sie bei der verallgemeinerten Methode der kleinsten Quadrate zum Einsatz kommt, lässt sich die gemeinsame Wahrscheinlichkeitsdichte aus einer Maximum-Likelihood-Schätzung eines klassischen linearen Modells der Normalregression schreiben als:

$\prod _{t=1}^{T}f_{t}(y_{t}\mid \mathbf {x} _{t},{\boldsymbol {\beta }},\sigma ^{2})=f(\mathbf {y} \mid \mathbf {X} ,{\boldsymbol {\beta }},\sigma ^{2})=(2\pi \sigma ^{2})^{-{\frac {T}{2}}}|\mathbf {\Psi } |^{-{\frac {1}{2}}}\operatorname {exp} \left\{-{\frac {\left(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }}\right)^{\top }\mathbf {\Psi } ^{-1}\left(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }}\right)}{2\sigma ^{2}}}\right\}$ ,

wobei $|\mathbf {\Psi } |$ die Determinante von $\mathbf {\Psi }$ darstellt.

Erwartungstreue

Der VKQ-Schätzer ist erwartungstreu, d.h. er trifft im Mittel den wahren Parametervektor, da sein Erwartungswert gleich dem wahren Wert entspricht

${\begin{aligned}\mathbb {E} ({\hat {\boldsymbol {\beta }}}_{\text{VKQ}})&=\mathbb {E} ((\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}\mathbf {y} )\\&=\mathbb {E} ((\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}(\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}))\\&={\boldsymbol {\beta }}+\mathbb {E} ((\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}{\boldsymbol {\varepsilon }})\\&={\boldsymbol {\beta }}.\end{aligned}}$

Dies impliziert, dass keine Verzerrung vorhanden ist. Somit ist die Verteilung des VKQ-Schätzers gegeben durch

${\hat {\boldsymbol {\beta }}}_{\text{VKQ}}\sim {\mathcal {N}}({\boldsymbol {\beta }},\sigma ^{2}(\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}\mathbf {X} )^{-1})$ .

Beste lineare erwartungstreue Schätzfunktion (BLES)

Es lässt sich zeigen, dass der VKQ-Schätzer eine beste lineare erwartungstreue Schätzfunktion ist. Ein Schätzer ist „besser“ als ein anderer, wenn er eine kleinere Varianz aufweist, da die Varianz ein Maß für die Unsicherheit ist. Somit ist der beste Schätzer dadurch gekennzeichnet, dass er eine minimale Varianz und somit die geringste Unsicherheit aufweist. Für alle anderen linearen erwartungstreuen Schätzer ${\hat {\beta }}_{j}$ gilt somit

$\operatorname {Var} ({{\hat {\beta }}_{\text{VKQ}}}_{i})\leq \operatorname {Var} ({\hat {\beta }}_{j})$ .

Da der VKQ-Schätzer BLES ist, bedeutet dies, dass er mindestens so gut wie der gewöhnliche KQ-Schätzer sein muss. Die Effizienz dieses Ansatzes wird ersichtlich, weil die Differenz

$D=\operatorname {Cov} (\mathbf {b} )-\operatorname {Cov} ({\hat {\boldsymbol {\beta }}})=\sigma ^{2}((\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {\Psi } \mathbf {X} (\mathbf {X} ^{\top }\mathbf {X} )^{-1}-(\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}\mathbf {X} )^{-1})=\sigma ^{2}\mathbf {A} \mathbf {\Psi } \mathbf {A} ^{\top }$

positiv semidefinit ist, was bedeutet, dass die Kovarianzmatrix des KQ-Ansatzes (bei Vorliegen von Heteroskedastizität ( $\mathbf {\Phi } =\sigma ^{2}\mathbf {\Psi }$ )) die Variation überschätzt und somit „größer“ als die durch die verallgemeinerte Kleinste-Quadrate-Schätzung gewonnene Kovarianzmatrix ist (siehe auch Kovarianzmatrix). Der KQ-Schätzer entspricht dem VKQ-Schätzer wenn die Differenz gleich die Nullmatrix ist, also wenn:

$A:=(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }-(\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}=\mathbf {0}$ .

Asymptotische Eigenschaften

Eine asymptotische Eigenschaft ist, dass die über Summanden gemittelte Produktsummenmatrix in Wahrscheinlichkeit zu einer positiv definiten, endlichen, nichtsingulären Matrix ${\boldsymbol {V}}$ konvergiert:

$\operatorname {plim} \left({\frac {\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}\mathbf {X} }{T}}\right)={\boldsymbol {V}}$ .

Aus dieser Eigenschaft folgt die Konsistenz des VKQ-Schätzers und der Varianz des VKQ-Schätzers und die Eigenschaft, dass der Schätzer in Verteilung gegen eine Normalverteilung konvergiert. Die letzte Eigenschaft ist für die statistische Inferenz von Bedeutung.

Konsistenz

Der VKQ-Schätzer ist unter den bisherigen Annahmen erwartungstreu $\mathbb {E} ({\hat {\boldsymbol {\beta }}}_{\text{VKQ}})={\boldsymbol {\beta }}$ , wobei die Stichprobengröße keinen Einfluss auf die Unverzerrtheit hat (schwaches Gesetz der großen Zahlen). Ein Schätzer ist genau dann konsistent für den unbekannten Parameter, wenn er in Wahrscheinlichkeit gegen den wahren Wert konvergiert. Die Eigenschaft der Konsistenz bezieht also das Verhalten des Schätzers mit ein, wenn die Anzahl der Beobachtungen größer wird.

Für die Folge $({{\hat {\boldsymbol {\beta }}}_{\text{VKQ}}}_{t})_{t\in \mathbb {N} }$ gilt unter oben genanntem asymptotischem Resultat, dass sie in Wahrscheinlichkeit gegen den wahren Parametervektor konvergiert

$\forall \epsilon >0\colon \lim _{t\to \infty }\mathbb {P} (|{{\hat {\boldsymbol {\beta }}}_{\text{VKQ}}}_{t}-{\boldsymbol {\beta }}|\geq \epsilon )={\boldsymbol {0}}\Leftrightarrow {\hat {\boldsymbol {\beta }}}_{\text{VKQ}}\;{\stackrel {p}{\longrightarrow }}\;\mathbf {\boldsymbol {\beta }}$ ,

oder vereinfacht ausgedrückt:

$\operatorname {plim} ({\hat {\boldsymbol {\beta }}}_{\text{VKQ}})={\boldsymbol {\beta }}$

Der VKQ-Schätzer ist konsistent für ${\boldsymbol {\beta }}$ . Die Eigenschaft besagt, dass mit steigender Stichprobengröße die Wahrscheinlichkeit, dass der Schätzer ${\hat {\boldsymbol {\beta }}}_{\text{VKQ}}$ vom wahren Parameter ${\boldsymbol {\beta }}$ abweicht, sinkt. Für die Varianz der VKQ-Schätzers gilt ebenfalls, dass sie konsistent für $\sigma ^{2}$ ist:

$\operatorname {plim} ({\hat {\sigma }}_{\text{VKQ}}^{2})=\sigma ^{2}$ .

Konvergenz gegen Normalverteilung

Eine weitere Eigenschaft der VKQ-Schätzers ist, dass ${\sqrt {T}}({\hat {\boldsymbol {\beta }}}_{\text{VKQ}}-{\boldsymbol {\beta }})$ in Verteilung gegen eine Normalverteilung konvergiert

${\sqrt {T}}({\hat {\boldsymbol {\beta }}}_{\text{VKQ}}-{\boldsymbol {\beta }})\ {\xrightarrow {d}}\ {\mathcal {N}}\!\left({\boldsymbol {0}},{\sigma }^{2}{\boldsymbol {V}}^{-1}\right)$ .

Diese asymptotische Normalität ist vor allem für die statistische Inferenz von Bedeutung.

Prädiktionsmatrix

Die Prädiktionsmatrix des VKQ-Schätzers ist gegeben durch

$P=\mathbf {X} \left(\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}$

Es kann gezeigt werden, dass $P^{2}=P\cdot P=P$ , nicht mehr symmetrisch ist.

Durchführbare verallgemeinerte KQ-Schätzung (GVKQ)

In der Praxis ist die Kovarianzmatrix der Störgrößen $\mathbf {\Psi } ^{-1}$ oft unbekannt, sodass die verallgemeinerte Methode der kleinsten Quadrate nicht durchführbar ist. Ein konsistenter Schätzer für $\mathbf {\Psi } ^{-1}$ ist gegeben durch ${\hat {\mathbf {\Psi } }}^{-1}$ . In diesem Fall, bei dem die Matrix $\mathbf {\Psi } ^{-1}$ geschätzt werden muss, spricht man auch von der anwendbaren bzw. durchführbaren verallgemeinerten KQ-Schätzung (englisch Feasible Generalized Least Squares, kurz FGLS) oder auch von der geschätzten verallgemeinerten KQ-Schätzung bzw. GVKQ-Schätzung (englisch Estimated Generalised Least Squares, kurz EGLS); dessen Schätzer wird der geschätzte VKQ-Schätzer, kurz GVKQ-Schätzer genannt. Er ist gegeben durch:

${\boldsymbol {\hat {\hat {\beta }}}}_{\text{GVKQ}}=\left(\mathbf {X} ^{\top }{\hat {\mathbf {\Psi } }}^{-1}\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }{\hat {\mathbf {\Psi } }}^{-1}\mathbf {y}$ .

Dadurch, dass die unbekannte Kovarianzmatrix der Störgrößen $\mathbf {\Psi } ^{-1}$ durch eine Schätzung ersetzt wurde, ist der VKQ-Schätzer zu berechnen und man spricht auch von der durchführbaren verallgemeinerten KQ-Schätzung. Es ist wichtig zu erwähnen, dass die Kovarianzmatrix ${\mathbf {\Psi }}$ $(T(T+1))/2$ Elemente besitzt und somit nicht durch nur geschätzte Störgrößenvektoren ${\boldsymbol {\hat {\varepsilon }}}$ geschätzt werden kann. Aus diesem Grund wird angenommen, dass die Elemente in ${\mathbf {\Psi }}$ Funktionen einer kleinen Anzahl von unbekannten Parametern sind.

Gewichtete kleinste Quadrate (GKQ)

Ein Spezialfall der VKQ-Methode stellt die sogenannte gewichtete Methode der kleinsten Quadrate (englisch weighted least squares, kurz WLS) dar. Sie wird angewendet, wenn alle Elemente neben der Hauptdiagonalen von ${\mathbf {\Psi }}$ Null sind. Diese Methode wird angewendet, wenn die Varianzen der beobachteten Werte nicht konstant sind (d.h. es liegt Heteroskedastizität vor) und keine Korrelation zwischen den beobachteten Störgrößen vorliegt. Das Gewicht der Einheit ( $w_{i}$ ) ist proportional zum Reziproken der Varianz der endogenen Variablen der Einheit . Das Optimalitätskriterium ist die gewichtete Residuenquadratsumme

$GKQ({\boldsymbol {\beta }})={\underset {\boldsymbol {\beta }}{\operatorname {arg\,min} }}\sum _{i=1}^{n}{\frac {1}{w_{i}}}(y_{i}-\mathbf {x} _{i}^{\top }{\boldsymbol {\beta }})^{2}=(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\top }\,\mathbf {W} ^{-1}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})\quad {\text{mit}}\quad \mathbf {W} =\operatorname {diag} (w_{1},\ldots ,w_{n})$ .

Anwendungen

Multiplikative Heteroskedastizität

Falls die Annahme der Homoskedastizität nicht erfüllt ist, d.h. die Diagonalelemente der Kovarianzmatrix nicht identisch sind, ergibt sich folgendes Modell:

$y_{t}=\mathbf {x} _{t}^{\top }{\boldsymbol {\beta }}+\varepsilon _{t}\quad t=1,\dotsc ,T$ mit

$\mathbb {E} ({\boldsymbol {\varepsilon }})=\mathbf {0} \;$ und $\;\operatorname {Cov} ({\boldsymbol {\varepsilon }})=\mathbb {E} ({\boldsymbol {\varepsilon }}{\boldsymbol {\varepsilon }}^{\top })=\sigma ^{2}\mathbf {\Psi } =\mathbf {\Phi }$

Allgemeine Kovarianzmatrix bei Heteroskedastizität:

$\mathbb {E} ({\boldsymbol {\varepsilon }}{\boldsymbol {\varepsilon }}^{\top })={\begin{pmatrix}\sigma _{1}^{2}&0&\cdots &0\\0&\sigma _{2}^{2}&\ddots &\vdots \\\vdots &\ddots &\ddots &0\\0&\cdots &0&\sigma _{T}^{2}\end{pmatrix}}=\sigma ^{2}\mathbf {\Psi } =\mathbf {\Phi }$

Hierbei wird angenommen, dass $\mathbf {\Psi }$ eine bekannte, reelle, positiv definite und symmetrische Matrix der Dimension $T \times T$ ist.

Falls die spezielle Form der multiplikativen Heteroskedastizität vorliegt, nimmt die allgemeine Kovarianzmatrix folgende Form an:

$\mathbb {E} ({\boldsymbol {\varepsilon }}{\boldsymbol {\varepsilon }}^{\top })={\begin{pmatrix}\operatorname {exp} (\mathbf {z} _{1}^{\top }\mathbf {\alpha } )&0&\cdots &0\\0&\operatorname {exp} (\mathbf {z} _{2}^{\top }\mathbf {\alpha } )&\ddots &\vdots \\\vdots &\ddots &\ddots &0\\0&\cdots &0&\operatorname {exp} (\mathbf {z} _{T}^{\top }\mathbf {\alpha } )\end{pmatrix}}=\sigma ^{2}\mathbf {\Psi } =\mathbf {\Phi }$

Bei Vorliegen dieser Form der Heteroskedastizität lässt sich die verallgemeinerte Kleinste-Quadrate-Schätzung.

Scheinbar unverbundene Regression

Die scheinbar unverbundene Regression (englisch: seemingly unrelated regression, kurz SUR), welche eine Verallgemeinerung des linearen Regressionsmodells ist, beinhaltet eine Vielzahl von Regressionsgleichungen, die jede ihre eigene abhängige Variable und potentiell verschiedene erklärende Variablen hat. Jede Gleichung selbst ist eine valide lineare Regression und kann separat von den anderen geschätzt werden. Dadurch ergibt sich ein System von Gleichungen, welches scheinbar unverbunden genannt wird. Da die Störgrößenkovarianzmatrix der scheinbar unverbundenen Regression die Struktur:

${\begin{aligned}\operatorname {Cov} (\mathbf {e} )=\mathbb {E} (\mathbf {e} \mathbf {e} ^{\top })&={\begin{pmatrix}\operatorname {E} ({\boldsymbol {e}}_{1}{\boldsymbol {e}}_{1}^{\top })&\cdots &\operatorname {E} ({\boldsymbol {e}}_{1}{\boldsymbol {e}}_{N}^{\top })\\\\\vdots &\ddots &\vdots \\\\\operatorname {E} ({\boldsymbol {e}}_{N}{\boldsymbol {e}}_{1}^{\top })&\cdots &\operatorname {E} ({\boldsymbol {e}}_{N}{\boldsymbol {e}}_{N}^{\top })\end{pmatrix}}={\begin{pmatrix}\sigma _{11}\mathbf {I} _{T}&\cdots &\sigma _{1N}\mathbf {I} _{T}\\\\\vdots &\ddots &\vdots \\\\\sigma _{N1}\mathbf {I} _{T}&\cdots &\sigma _{NN}\mathbf {I} _{T}\end{pmatrix}}={\begin{pmatrix}\sigma _{11}&\cdots &\sigma _{1N}\\\\\vdots &\ddots &\vdots \\\\\sigma _{N1}&\cdots &\sigma _{NN}\end{pmatrix}}\otimes \mathbf {I} _{T}\\\\&=\mathbf {\Sigma } \otimes \mathbf {I} _{T}=\mathbf {\Phi } \end{aligned}}$

hat, ergibt sich bei der scheinbar unverbundenen Regression folgender VKQ-Schätzer:

${\hat {\boldsymbol {\beta }}}_{\text{VKQ}}=\left(\mathbf {X} ^{\top }(\mathbf {\Sigma } ^{-1}\otimes \mathbf {I} )\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }(\mathbf {\Sigma } ^{-1}\otimes \mathbf {I} )\mathbf {y}$ .

Es kann gezeigt werden, dass dieser VKQ-Schätzer äquivalent zum KQ-Schätzer ist, wenn man in obige Formel den Querschnitt ${\overline {\mathbf {X} }}$ der Daten einsetzt.

Beweis

${\begin{aligned}{\hat {\boldsymbol {\beta }}}_{\text{VKQ}}&=\left(\mathbf {X} ^{\top }(\mathbf {\Sigma } ^{-1}\otimes \mathbf {I} )\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }(\mathbf {\Sigma } ^{-1}\otimes \mathbf {I} )\mathbf {y} =\left((\mathbf {I} \otimes {\overline {\mathbf {X} }})^{\top }(\mathbf {\Sigma } ^{-1}\otimes \mathbf {I} )(\mathbf {I} \otimes {\overline {\mathbf {X} }})\right)^{-1}(\mathbf {I} \otimes {\overline {\mathbf {X} }})^{\top }(\mathbf {\Sigma } ^{-1}\otimes \mathbf {I} )\mathbf {y} \\&=\left(\mathbf {\Sigma } ^{-1}\otimes {\overline {\mathbf {X} }}^{\top }{\overline {\mathbf {X} }}\right)^{-1}\left(\mathbf {\Sigma } ^{-1}\otimes {\overline {\mathbf {X} }}^{\top }\right)\mathbf {y} =\left(\mathbf {\Sigma } \otimes ({\overline {\mathbf {X} }}^{\top }{\overline {\mathbf {X} }})^{-1}\right)\left(\mathbf {\Sigma } ^{-1}\otimes {\overline {\mathbf {X} }}^{\top }\right)\mathbf {y} \\&=\left(\mathbf {I} \otimes ({\overline {\mathbf {X} }}^{\top }{\overline {\mathbf {X} }})^{-1}{\overline {\mathbf {X} }}^{\top }\right)\mathbf {y} =\left((\mathbf {I} \otimes {\overline {\mathbf {X} }})^{\top }(\mathbf {I} \otimes {\overline {\mathbf {X} }})\right)^{-1}(\mathbf {I} \otimes {\overline {\mathbf {X} }})^{\top }\mathbf {y} \\&=(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {y} \\&=\mathbf {b} \end{aligned}}$ .

Anmerkungen

↑ $\arg \min(\cdot )$ bezeichnet analog zu $\arg\max(\cdot)$ (Argument des Maximums) das Argument des Minimums
↑ Bei der gewöhnlichen Methode der kleinsten Quadrate wird im Gegensatz zur verallgemeinerten Methode der kleinsten Quadrate eine ungewichtete Fehlerquadratsumme $(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\top }(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})$ minimiert

Basierend auf einem Artikel in:

Wikipedia.de