Totale Varianz
Die totale Varianz (nicht zu verwechseln mit der totalen Varianz, die
sich aus der totalen
Quadratsumme berechnet) ist in der multivariaten
Statistik ein Maß für die Gesamtstreuung
eines multivariaten (mehrdimensionalen) Datensatzes (mit
Variablen
).
Ein weiteres Maß für die Gesamtstreuung eines multivariaten Datensatzes ist die
verallgemeinerte
Varianz.
Definition
Die totale Varianz ist definiert als
,
wobei
die
-te
Beobachtung in der Variable
,
das arithmetische
Mittel der Beobachtungen der Variablen
und
die quadrierte euklidische
Distanz zwischen der multivariaten Beobachtung
und dem Mittelpunkt der Daten
darstellt.
Sie ist damit eine Erweiterung der empirischen
Varianz
einer Variablen
auf den multivariaten Fall:
Eine wichtige Eigenschaft der totalen Varianz ist ihre Invarianz unter einer Rotation des Datensatzes, d.h. die totale Varianz der rotierten Daten ist gleich der totalen Varianz der unrotierten Daten. Dies gilt, da die totale Varianz der mittlere Abstand der Beobachtung zum Datensatzmittelpunkt ist.
Zusammenhang mit der Kovarianzmatrix
Die totale Varianz steht in einem engen Zusammenhang mit der Kovarianzmatrix der Daten, welche ebenfalls als eine Verallgemeinerung der univariaten Varianz betrachtet werden kann, aber von der gewählten Basis abhängt. Die totale Varianz ist dann gerade die Spur dieser Matrix, sie ist also gleichzeitig die Summe der Eigenwerte der Kovarianzmatrix. Der Anteil der erklärten totalen Varianz wird daher in der Hauptkomponentenanalyse, der Faktoranalyse und der Clusteranalyse als ein Maß benutzt, ob die vorgenommene Datenreduktion den multivariaten Datensatz gut widerspiegelt. Bei der Verwendung dieses Maßes in der Clusteranalyse spricht man von einer „internen Validierung“, da sie ohne zusätzliche externe Information auskommt.
Literatur
- Ludwig Fahrmeir, Wolfgang Brachinger, Alfred Hamerle, Gerhard Tutz: Multivariate statistische Verfahren, Gruyter, 2. Auflage, 1996



© biancahoegel.de
Datum der letzten Änderung: Jena, den: 20.02. 2021