Streudiagramm

Beispiel eines Streudiagramms, in dem die Länge und Breite von verschiedenen Artillerieschiffen dargestellt ist

Ein Streudiagramm, auch Punktwolke genannt (engl. scatter plot), ist die graphische Darstellung von beobachteten Wertepaaren zweier statistischer Merkmale. Diese Wertepaare werden in ein kartesisches Koordinatensystem eingetragen, wodurch sich eine Punktwolke ergibt. Die Darstellung der Punkte kann durch verschiedene kleine Symbole erfolgen.

Anwendung

Man erhofft sich durch das Muster der Punkte im Streudiagramm Informationen über die Abhängigkeitsstruktur der beiden Merkmale zu erkennen, die durch die Koordinaten repräsentiert sind.

Nebenstehendes Beispieldiagramm enthält Punkte, die die beiden Merkmale „Länge“ und „Breite“ von verschiedenen Artillerieschiffen darstellen. Die Schiffe sind in vier Klassen eingeteilt, denen unterschiedliche Farben zugewiesen sind (Zerstörer, leichter Kreuzer, schwerer Kreuzer, Schlachtschiff). Man erkennt durch ein solches Streudiagramm auf einen Blick verschiedene Korrelationen in den erfassten Daten.

Häufig auftretende Korrelationen sind Cluster (Ballungen) und lineare Strukturen. Cluster können mit der Clusteranalyse untersucht werden. Zur Quantifizierung von linearen Korrelationen bietet sich vor allem die Regressionsanalyse an.

Falls ein drittes (metrisches) Merkmal auch noch mit dargestellt werden soll, kann das durch die Größe der Punkte (bzw. Kreise) geschehen. Den dabei entstehenden Diagrammtyp nennt man Blasendiagramm.

Streudiagramme bei diskreten Merkmalen

Es sind im Allgemeinen nur stetig verteilte Daten für Streudiagramme geeignet. Beobachtungen diskret verteilter Merkmale überlagern sich, wenn gleiche Werte mehrfach vorliegen. Es gibt jedoch auch Möglichkeiten, ordinalskalierte Merkmale in Streudiagramme darzustellen:

Das folgende Beispiel zeigt beide Möglichkeiten anhand der Evaluation einer Statistik-Vorlesung, bei der die Merkmale „Stoff ist verständlich“ und „Gesamtnote Statistik“ (Noten von 1 bis 4) in ein Streudiagramm eingetragen wurden.

Sonnenblumen-Streudiagramm Jittered scatter plot
StreuSonne.svg StreuJit.svg

Dot-Plot

Box-Plot der Pferdetritt Daten von Bortkewitsch.
Box-Plot der Pferdetritt Daten von Bortkewitsch.

Der Dot-Plot bzw. das Punktdiagramm wird auch als das eindimensionale Streudiagramm bezeichnet. In ihm wird eine Variable entweder auf der x-Achse oder auf der y-Achse (wie in den Grafiken) dargestellt. Je nachdem wie viele Werte die Beobachtungen der Variablen annehmen, ergibt sich das Problem, dass man nur einen Datenpunkt sieht, obwohl sich hinter ihm (viele) weitere Beobachtungen verbergen können.

Ähnlich wie beim Sonnenblumen-Streudiagramm können Symbole genutzt werden, um die Anzahl der Punkte darzustellen. In der Grafik links symbolisiert ein größerer Kreis, dass sich hinter ihm mehr Beobachtungen verbergen als bei einem kleineren Kreis. In der Grafik rechts wird für jeden Datenpunkt ein Kreis gezeichnet. Tritt der gleiche Wert mehrfach auf, werden rechts neben dem ersten Kreis weitere Kreise gezeichnet.

Eine weitere Möglichkeit ist, auf der einen Achse den Beobachtungswert zu zeichnen und für die andere Achse einen zufälligen, z.B. aus einer Gleichverteilung stammenden, Wert zu wählen. Auch kann man eine Dichteschätzung einzeichnen.

Der Dotplot erlaubt Einblicke in die Verteilung einer Variablen, z.B. wo die Beobachtungen besonders dicht sind oder sich die Beobachtungen auf nur wenige Werte verteilen.

 

Streudiagramm-Matrix

Streudiagramm-Matrix eines Datensatzes mit fünf Variablen

In einer Streudiagramm-Matrix wird für einen multivariaten Datensatz für Paare von Variablen jeweils ein Streudiagramm gezeichnet. Dabei unterscheiden sich die Streudiagramme oben rechts von denen unten links in der Grafik nur dadurch, welche Variable auf die x-Achse bzw. y-Achse abgebildet wird. D.h. die entsprechenden Punktwolken sind nur an der 45-Grad-Linie gespiegelt. In Variationen der Streudiagramm-Matrix werden statt der gespiegelten Punktwolken auch weitere Informationen, z.B. Korrelationskoeffizienten oder Regressionsfunktionen dargestellt.

Auf der Diagonalen sind in der Grafik rechts nur die Variablennamen eingetragen. Es gibt jedoch auch hier eine Vielzahl von Variationen, z.B. mit weiteren Informationen (Box-Plots, Dichteschätzungen) über die jeweilige Variable.

Die Streudiagramm-Matrix hat einige Nachteile:

Trenner
Basierend auf einem Artikel in: Wikipedia.de
Seitenende
Seite zurück
©  biancahoegel.de
Datum der letzten Änderung: Jena, den: 17.05. 2020