Datenmatrix

In der Statistik ist die Datenmatrix, auch Versuchsplanmatrix, Designmatrix (von englisch research design: deutsch Versuchsplan), Modellmatrix, Beobachtungsmatrix, oder Regressormatrix genannt eine Matrix, die Daten über mehrere Merkmale mehrerer Personen oder Objekte (statistische Einheiten) enthält. Sie ist Grundlage des klassischen Modells der linearen Mehrfachregression.

Der Begriff Versuchsplan- bzw. Designmatrix (bezeichnet mit {\mathbf  {X}}) kommt aus dem Teilgebiet der statistischen Versuchsplanung, die sich mit dem statistisch optimalen Entwurf von Experimenten beschäftigt. Wenn die Werte der x_{{ij}} geplant sind (vom Forscher festgelegt), enthält die {\mathbf  {X}}-Matrix im Wesentlichen den Versuchsplan und wird daher manchmal als Versuchsplanmatrix bezeichnet.

Definition

Geht man davon aus, dass n Untersuchungseinheiten vorliegen, an denen {\displaystyle p=k+1} Variablen beobachtet wurden, dann ist der an der iten Untersuchungseinheit beobachtete Wert der jten Variable x_{{ij}}. Die Datenmatrix ist definiert als die {\displaystyle n\times p}-Matrix:

{\displaystyle \mathbf {X} =(x_{ij})_{n\times p}=\quad {\begin{pmatrix}1&x_{11}&x_{12}&\cdots &x_{1k}\\1&x_{21}&x_{22}&\cdots &x_{2k}\\\vdots &\vdots &\vdots &\ddots &\vdots \\1&x_{n1}&x_{n2}&\cdots &x_{nk}\end{pmatrix}}}.

Die ite Zeile der Datenmatrix {\displaystyle \mathbf {X} } ist der – mit den am iten Objekt beobachteten Variablenwerten – gebildete Zeilenvektor {\displaystyle \mathbf {x} _{i\mathbf {.} }^{\top }=(x_{i0},x_{i1},\ldots ,x_{ik})}. Man kann das ite Objekt geometrisch als Punkt darstellen, indem man die Elemente als Koordinaten eines Punktes in einem p-dimensionalen Merkmalsraum deutet, der von p rechtwinkelig angeordneten Merkmalsachsen aufgespannt wird. Wenn man auf diese Art alle Zeilenvektoren von {\displaystyle \mathbf {X} } als Punkte darstellt, ergibt sich eine die Objekte (Untersuchungseinheiten) repräsentierende Verteilung von Punkten im Merkmalsraum.

Ebenso kann man die Datenmatrix als Zusammenfassung der Spaltenvektoren {\displaystyle \mathbf {x} _{\mathbf {.} j}=(x_{0j},x_{1j},\ldots ,x_{nj})^{\top },\;j=1,\ldots ,p} deuten. Jeder Spaltenvektor ist einer Variablen X_{j} zugeordnet und beinhaltet die an den Untersuchungseinheiten beobachteten Werte dieser Variablen. Mit diesen Werten können die Variablen in einem rechtwinkeligen Koordinatensystem, in dem die Achsen die n Untersuchungseinheiten repräsentieren, als Punkte dargestellt werden. Im von den n Achsen aufgespannten Objektraum lassen sich die Beziehungen zwischen den Variablen veranschaulichen.

Alternative Darstellungen

Die Datenmatrix {\displaystyle \mathbf {X} } kann als eine partitionierte Matrix bzgl. seiner {\displaystyle p=k+1} Spalten ausgedrückt werden als:

{\displaystyle \mathbf {X} =(\mathbf {1} ,\mathbf {x} _{(1)},\mathbf {x} _{(2)},\ldots ,\mathbf {x} _{(k)})}.

Die Spalten der Datenmatrix {\displaystyle \mathbf {X} } inklusive des Einsvektors {\displaystyle \mathbf {1} } sind alle n-dimensionale Vektoren und daher Punkte im Datenraum. Da für gewöhnlich angenommen wird, dass {\displaystyle \mathbf {X} } von Rang {\displaystyle k+1} ist, sind die Vektoren linear unabhängig. Die Menge aller möglichen Linearkombinationen der Spalten von {\displaystyle \mathbf {X} } bilden eine Teilmenge des Datenraums.

Trenner
Basierend auf einem Artikel in: Wikipedia.de
Seitenende
Seite zurück
©  biancahoegel.de
Datum der letzten Änderung: Jena, den: 04.03. 2020