Streudiagramm
Ein Streudiagramm, auch Punktwolke genannt (engl. scatter plot), ist die graphische Darstellung von beobachteten Wertepaaren zweier statistischer Merkmale. Diese Wertepaare werden in ein kartesisches Koordinatensystem eingetragen, wodurch sich eine Punktwolke ergibt. Die Darstellung der Punkte kann durch verschiedene kleine Symbole erfolgen.
Anwendung
Man erhofft sich durch das Muster der Punkte im Streudiagramm Informationen über die Abhängigkeitsstruktur der beiden Merkmale zu erkennen, die durch die Koordinaten repräsentiert sind.
Nebenstehendes Beispieldiagramm enthält Punkte, die die beiden Merkmale „Länge“ und „Breite“ von verschiedenen Artillerieschiffen darstellen. Die Schiffe sind in vier Klassen eingeteilt, denen unterschiedliche Farben zugewiesen sind (Zerstörer, leichter Kreuzer, schwerer Kreuzer, Schlachtschiff). Man erkennt durch ein solches Streudiagramm auf einen Blick verschiedene Korrelationen in den erfassten Daten.
Häufig auftretende Korrelationen sind Cluster (Ballungen) und lineare Strukturen. Cluster können mit der Clusteranalyse untersucht werden. Zur Quantifizierung von linearen Korrelationen bietet sich vor allem die Regressionsanalyse an.
Falls ein drittes (metrisches) Merkmal auch noch mit dargestellt werden soll, kann das durch die Größe der Punkte (bzw. Kreise) geschehen. Den dabei entstehenden Diagrammtyp nennt man Blasendiagramm.
Streudiagramme bei diskreten Merkmalen
Es sind im Allgemeinen nur stetig verteilte Daten für Streudiagramme geeignet. Beobachtungen diskret verteilter Merkmale überlagern sich, wenn gleiche Werte mehrfach vorliegen. Es gibt jedoch auch Möglichkeiten, ordinalskalierte Merkmale in Streudiagramme darzustellen:
- Durch „Sonnenblumen“: Es wird an jedem Koordinatenpaar ein Kreis eingetragen. Die Zahl der Wertepaare, die auf diesem Punkt liegen, wird durch Striche an den Kreis dargestellt, so dass sich eine stilisierte Sonnenblume ergibt.
- Durch einen „Jittered Scatterplot“ („Verwackeltes Streudiagramm“): Es werden auf die Daten kleine Zufallszahlen addiert, so dass die Werte leicht auseinandergezogen werden und eine Punktwolke ergeben. Man muss sich allerdings im Klaren sein, dass die Werte eigentlich übereinanderliegen. Man könnte sie als „pseudometrisch“ bezeichnen.
Das folgende Beispiel zeigt beide Möglichkeiten anhand der Evaluation einer Statistik-Vorlesung, bei der die Merkmale „Stoff ist verständlich“ und „Gesamtnote Statistik“ (Noten von 1 bis 4) in ein Streudiagramm eingetragen wurden.
Sonnenblumen-Streudiagramm | Jittered scatter plot |
---|---|
Dot-Plot
Der Dot-Plot bzw. das Punktdiagramm wird auch als das eindimensionale Streudiagramm bezeichnet. In ihm wird eine Variable entweder auf der x-Achse oder auf der y-Achse (wie in den Grafiken) dargestellt. Je nachdem wie viele Werte die Beobachtungen der Variablen annehmen, ergibt sich das Problem, dass man nur einen Datenpunkt sieht, obwohl sich hinter ihm (viele) weitere Beobachtungen verbergen können.
Ähnlich wie beim Sonnenblumen-Streudiagramm können Symbole genutzt werden, um die Anzahl der Punkte darzustellen. In der Grafik links symbolisiert ein größerer Kreis, dass sich hinter ihm mehr Beobachtungen verbergen als bei einem kleineren Kreis. In der Grafik rechts wird für jeden Datenpunkt ein Kreis gezeichnet. Tritt der gleiche Wert mehrfach auf, werden rechts neben dem ersten Kreis weitere Kreise gezeichnet.
Eine weitere Möglichkeit ist, auf der einen Achse den Beobachtungswert zu zeichnen und für die andere Achse einen zufälligen, z.B. aus einer Gleichverteilung stammenden, Wert zu wählen. Auch kann man eine Dichteschätzung einzeichnen.
Der Dotplot erlaubt Einblicke in die Verteilung einer Variablen, z.B. wo die Beobachtungen besonders dicht sind oder sich die Beobachtungen auf nur wenige Werte verteilen.
Streudiagramm-Matrix
In einer Streudiagramm-Matrix wird für einen multivariaten Datensatz für Paare von Variablen jeweils ein Streudiagramm gezeichnet. Dabei unterscheiden sich die Streudiagramme oben rechts von denen unten links in der Grafik nur dadurch, welche Variable auf die x-Achse bzw. y-Achse abgebildet wird. D.h. die entsprechenden Punktwolken sind nur an der 45-Grad-Linie gespiegelt. In Variationen der Streudiagramm-Matrix werden statt der gespiegelten Punktwolken auch weitere Informationen, z.B. Korrelationskoeffizienten oder Regressionsfunktionen dargestellt.
Auf der Diagonalen sind in der Grafik rechts nur die Variablennamen eingetragen. Es gibt jedoch auch hier eine Vielzahl von Variationen, z.B. mit weiteren Informationen (Box-Plots, Dichteschätzungen) über die jeweilige Variable.
Die Streudiagramm-Matrix hat einige Nachteile:
- Die Anzahl der dargestellten Variablen sollte nicht zu groß werden, da sonst die Fläche für jedes Streudiagramm zu klein und damit unübersichtlich wird. Die Brüder Tukey haben daher Maßzahlen, zusammenfassend mit Scagnostics bezeichnet, vorgeschlagen, die die Eigenschaft der Punktwolke charakterisieren:
- Die Streudiagramm-Matrix zeigt bei Variablen genau Projektionen der multivariaten Daten. Eine interessante Datenstruktur muss jedoch nicht in diesen Projektionen sichtbar sein. Dann sollte man entweder auf die Grand Tour oder Projection-Pursuit-Verfahren zurückgreifen.
© biancahoegel.de
Datum der letzten Änderung: Jena, den: 07.04. 2023