Stichprobenkovarianz

Die Stichprobenkovarianz oder empirische Kovarianz (oft auch einfach Kovarianz (von lateinisch con- = „mit-“ und Varianz von variare = „(ver)ändern, verschieden sein“)) ist in der Statistik eine nichtstandardisierte Maßzahl für den (linearen) Zusammenhang zweier statistischer Variablen. Die korrigierte Stichprobenkovarianz ist eine erwartungstreue Schätzung der Kovarianz einer Grundgesamtheit mittels einer Stichprobe.

Ist die Kovarianz positiv, dann gehen kleine Werte der einen Variable überwiegend einher mit kleinen Werten der anderen Variable und gleichfalls für große Werte. Für eine negative Kovarianz ist das genau umgekehrt.

Definition

Ist (x_i, y_i) eine Datenreihe (Stichprobe) zweier statistischer Variablen X und Y, dann ist die Stichprobenkovarianz definiert als „durchschnittliches Abweichungsprodukt

{\displaystyle s_{xy}:={\tfrac {1}{n}}SP_{xy}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}

mit \textstyle {\bar  {x}}={\frac  1n}\sum _{{i=1}}^{n}x_{i} und \textstyle {\bar  {y}}={\frac  1n}\sum _{{i=1}}^{n}y_{i} die arithmetischen Mittel der Daten.

Die Stichprobenkovarianz misst die gemeinsame Streuung („Mitstreuung“) der Beobachtungsdaten einer Stichprobe. Dabei wird die mittlere Abweichung der Beobachtungsdaten von den Mittelwerten ({\bar  {x}},{\bar  {y}}) berechnet.

Oft wird auch die korrigierte Stichprobenkovarianz genutzt:

{\hat  {\sigma }}_{{xy}}:={\frac  1{n-1}}\sum _{{i=1}}^{n}(x_{i}-{\bar  {x}})(y_{i}-{\bar  {y}})

Konstruktion der Kovarianz

Konstruktion der Kovarianz.

Der blaue Datenpunkt rechts oben in der Grafik hat einen positiven Beitrag zur Kovarianz:

\underbrace {(x_{i}-{\bar  {x}})}_{{>0}}\times \underbrace {(y_{i}-{\bar  {y}})}_{{>0}}>0.

Dies gilt für alle Datenpunkte im Quadranten I, mit x_{i}>{\bar  {x}} und y_{i}>{\bar  {y}}. Diese Betrachtungen kann man analog für die Datenpunkte in den anderen Quadranten fortsetzen:

Gibt es einen "positiven" Zusammenhang zwischen den Datenpunkten, dann werden die meisten Datenpunkte (wie im rechten Beispiel) im Quadranten I und III liegen und viele positive Beiträge zur Kovarianz liefern. Die wenigen Datenpunkte in den Quadranten II und IV liefern zwar negative Beiträge, aber die positiven Beiträge werden überwiegen, d.h. die Kovarianz ist positiv. Gibt es einen "negativen" Zusammenhang, dann folgt mit der gleichen Argumentation, dass die Kovarianz negativ ist.

Korrigierte Stichprobenkovarianz

Um aus einer Stichprobe eine Schätzung der unbekannten Kovarianz \sigma_{xy} der Grundgesamtheit zu erhalten wird die korrigierte Stichprobenkovarianz genutzt:

{\hat  {\sigma }}_{{xy}}={\frac  {1}{n-1}}\sum _{{i=1}}^{n}{(x_{i}-{\bar  {x}})(y_{i}-{\bar  {y}})}

Bei einer einfachen Zufallsstichprobe haben die Stichprobenvariablen X_{i} und Y_i die Kovarianz {\displaystyle \operatorname {Cov} (X_{i},Y_{i})=\sigma _{xy}}. Unter Annahme einer zweidimensionalen Normalverteilung der Stichprobenvariablen (X_{i},Y_{i}) und mit Hilfe der Maximum-Likelihood-Methode ergibt sich die Schätzfunktion

S_{{XY}}={\frac  {1}{n}}\sum _{{i=1}}^{n}(X_{i}-{\bar  {X}})(Y_{i}-{\bar  {Y}}).

Es stellt sich jedoch heraus, dass der Erwartungswert {\displaystyle \operatorname {E} (S_{XY})={\tfrac {n-1}{n}}\sigma _{xy}} ist, d.h. die Schätzfunktion S_{{XY}} ist nicht erwartungstreu (also verzerrt) für \sigma_{xy}.

Die korrigierte Stichprobenkovarianz ist jedoch unverzerrt. Im Rahmen der induktiven Statistik wird daher immer die korrigierte Stichprobenkovarianz verwendet.

Stichprobenkovarianz vs. Korrigierte Stichprobenkovarianz

Im Rahmen der deskriptiven Statistik stellt sich die Frage, ob man besser den Faktor {\tfrac  1{n-1}} oder \tfrac1n verwenden soll. Allgemein hängt es vom Ziel der Analyse (bzw. den Eigenschaften der Stichprobe) ab.

Bei großen Stichprobenumfängen ist der Unterschied zwischen {\hat  {\sigma }}_{{xy}} und s_{xy} ohnehin klein, so dass die obige Überlegung nur bei kleinen Stichprobenumfängen angestellt werden muss.

Eigenschaften

Die folgenden Eigenschaften gelten sowohl für die Stichprobenkovarianz als auch für die korrigierte Stichprobenkovarianz.

Interpretation der Kovarianz

Die Kovarianz gibt zwar die Richtung eines Zusammenhangs zwischen zwei Variablen an, über die Stärke des Zusammenhangs kann aber, aufgrund der Linearität der Kovarianz, keine Aussage getroffen werden. Um einen Zusammenhang vergleichbar zu machen, muss die Kovarianz normiert werden. Die gebräuchlichste Normierung mittels der Standardabweichung führt zum Korrelationskoeffizienten.

Beziehung zur Varianz

Die Kovarianz ist eine Erweiterung der Varianz, denn es gilt

  • s'^{2}=s_{{xx}} bzw.
  • s^{2}={\hat  {\sigma }}_{{xx}}.

Dabei ist s'^{2} und s^{2} die empirischen Varianzen mit passendem Vorfaktor. Das heißt, die Varianz ist die Kovarianz einer Variable mit sich selbst.

Verschiebungssatz

Der Verschiebungssatz liefert eine alternative Darstellung der Kovarianz

  • s_{{xy}}={\frac  {1}{n}}\left(\sum _{{i=1}}^{n}{(x_{i}y_{i})-n{\bar  {x}}{\bar  {y}}}\right)
  • {\hat  {\sigma }}_{{xy}}={\frac  {1}{n-1}}\left(\sum _{{i=1}}^{n}{(x_{i}y_{i})-n{\bar  {x}}{\bar  {y}}}\right)

. Diese Formeln ermöglichen in vielen Fällen eine einfachere Berechnung der Kovarianz. Bei numerischer Rechnung muss dabei allerdings auf unerwünschte Stellenauslöschung bei der Subtraktion großer Zahlen geachtet werden.

Symmetrie und Linearität

Die Kovarianz ist linear und symmetrisch, d.h. es gilt:

Symmetrie
Beim Vertauschen der Rollen von x_{i} und y_{i} ergibt sich der gleiche Wert für die Kovarianz:
  • s_{{xy}}=s_{{yx}} bzw.
  • {\hat  {\sigma }}_{{xy}}={\hat  {\sigma }}_{{yx}}
Linearität
Wird eine der Variablen einer linearen Transformation unterzogen, z.B. {\displaystyle u_{i}=a+b\cdot x_{i}}, so gilt
  • s_{{uy}}=bs_{{xy}} bzw.
  • {\hat  {\sigma }}_{{uy}}=b{\hat  {\sigma }}_{{yx}}
Wegen der Symmetrie ist die Kovarianz auch im zweiten Argument linear.

Die Linearität der Kovarianz hat zur Folge, dass die Kovarianz von der Maßeinheit der Variablen abhängt. So erhält man beispielsweise die zehnfache Kovarianz, wenn man anstatt X die Variable 10X betrachtet. Da diese Eigenschaft die absoluten Werte der Kovarianz schwer interpretierbar macht, betrachtet man häufig stattdessen den maßstabsunabhängigen Korrelationskoeffizienten.

Beispiele

1.) Die folgende Grafik zeigt für 21 verschiedene Datensätze jeweils das Streudiagramm zusammen mit der Kovarianz s_{xy} und der Korrelation r_{xy} des Datensatzes. Die erste Reihe zeigt sieben Datensätze mit unterschiedlich starkem linearen Zusammenhang, wobei die Korrelation r_{xy} von +1 über 0 nach −1 geht. Da die Kovarianz ein nicht-standardisiertes Maß ist, geht sie von +2 auf Null bis auf −2. D.h., wenn es keinen linearen Zusammenhang gibt, dann ist die Kovarianz genauso Null wie die Korrelation. Das Vorzeichen der Kovarianz zeigt die Richtung des Zusammenhangs an; jedoch zeigt sie nicht die Stärke des Zusammenhangs.

Noch deutlicher wird es in der zweiten Zeile, wo alle sieben Datensätze einen perfekten linearen Zusammenhang haben. Doch die Kovarianz s_{xy} nimmt ab auf Null und wird dann negativ. Die Korrelation r_{xy} ist für diese Datensätze entweder +1 oder −1 (bzw. undefiniert). Die dritte Zeile zeigt schließlich, dass sowohl die Kovarianz als auch die Korrelation Null ist, obwohl ein deutlicher Zusammenhang zwischen beiden Variablen sichtbar ist. D.h. die Kovarianz misst nur den linearen Zusammenhang und nicht-lineare Zusammenhänge werden nicht erkannt.

Kovarianz '"`UNIQ--postMath-0000003D-QINU`"' und Korrelation '"`UNIQ--postMath-0000003E-QINU`"' für unterschiedliche Datensätze.

2.) In einer Schule soll überprüft werden, ob es einen Zusammenhang gibt zwischen der Anzahl der unterrichteten Stunden der Lehrer am Tag und der Anzahl der getrunkenen Tassen Kaffee. Es wurden zehn Datenpaare erhoben und ausgewertet (so nicht durchgeführt, nur der Anschauung halber!):

Nummer 1 2 3 4 5 6 7 8 9 10
Anzahl Stunden (x_{i}) 5 6 8 4 6 6 5 7 5 4
Anzahl Tassen (y_{i}) 2 1 4 1 2 0 2 3 3 1

Die Kovarianz wird nun folgendermaßen berechnet:
a.) Zunächst wird das arithmetische Mittel beider Variablen ermittelt:

\textstyle {\bar  {x}}={\frac  1n}\sum _{{i=1}}^{n}x_{i}={\frac  {(5+6+8+4+6+6+5+7+5+4)}{10}}=5{,}6 und \textstyle {\bar  {y}}={\frac  1n}\sum _{{i=1}}^{n}y_{i}={\frac  {(2+1+4+1+2+0+2+3+3+1)}{10}}=1{,}9

b.) Die Kovarianz wird nun berechnet über: s_{{xy}}:={\frac  1n}\sum _{{i=1}}^{n}(x_{i}-{\bar  {x}})(y_{i}-{\bar  {y}})

={\tfrac  {(5-5{,}6)(2-1{,}9)+(6-5{,}6)(1-1{,}9)+(8-5{,}6)(4-1{,}9)+(4-5{,}6)(1-1{,}9)+(6-5{,}6)(2-1{,}9)+(6-5{,}6)(0-1{,}9)+(5-5{,}6)(2-1{,}9)+(7-5{,}6)(3-1{,}9)+(5-5{,}6)(3-1{,}9)+(4-5{,}6)(1-1{,}9)}{10}}
=0{,}76

Da die Kovarianz größer als null ist, ist für diese Stichprobe ein positiver Zusammenhang zwischen der Anzahl der Unterrichtsstunden und der Anzahl der Tassen Kaffee ersichtlich. Ob dies auf die Grundgesamtheit, hier das Lehrerkollegium, generalisierbar ist, hängt von der Qualität der Stichprobe ab.

Siehe auch

Trenner
Basierend auf einem Artikel in: Wikipedia.de
Seitenende
Seite zurück
©  biancahoegel.de
Datum der letzten Änderung: Jena, den: 17.05. 2020