Zufallsstichprobe

Eine Zufallsstichprobe (auch Wahrscheinlichkeitsauswahl, Zufalls-Stichprobe, Zufallsauswahl, Random-Sample) ist eine Stichprobe aus der Grundgesamtheit, die mit Hilfe eines speziellen Auswahlverfahrens gezogen wird. Bei einem solchen Zufallsauswahlverfahren hat jedes Element der Grundgesamtheit eine angebbare Wahrscheinlichkeit (größer null), in die Stichprobe zu gelangen. Nur bei Zufallsstichproben sind, streng genommen, die Methoden der induktiven Statistik anwendbar.

Mathematische Definition

Eine Stichprobe ist zunächst einmal eine Teilmenge einer Grundgesamtheit. Für eine Zufallsstichprobe werden zusätzliche Bedingungen gestellt:

Des Weiteren unterscheidet man zwischen einer uneingeschränkten und einer einfachen Zufallsstichprobe:

uneingeschränkte Zufallsstichprobe
  • Jedes Element der Grundgesamtheit hat die gleiche Wahrscheinlichkeit, in die Stichprobe zu gelangen.
Einfache Zufallsstichprobe
  • Jedes Element der Grundgesamtheit hat die gleiche Wahrscheinlichkeit, in die Stichprobe zu gelangen, und
  • die Ziehungen aus der Grundgesamtheit erfolgen unabhängig voneinander.

Eine uneingeschränkte Zufallsstichprobe erhält man z.B. bei einem Ziehen ohne Zurücklegen und eine einfache Zufallsstichprobe z.B. bei einem Ziehen mit Zurücklegen.

Beispiele

Literary Digest Desaster

Das Literary Digest Desaster (Präsidentschaftswahlen in den Vereinigten Staaten) von 1936 zeigt auf, was passieren kann, wenn keine Zufallsstichprobe aus der Grundgesamtheit gezogen wird. Eine verzerrte Stichprobe führte zu einer vollständig falschen Wahlprognose.

Wahlbefragung

Eine Befragung von Wählern, nachdem sie aus der Wahlkabine gekommen sind, bzgl. ihres Wahlverhaltens ist eine uneingeschränkte Zufallsstichprobe (wenn kein Befragter die Antwort verweigert) bzgl. der Wähler. Sie ist jedoch keine (uneingeschränkte) Zufallsstichprobe bzgl. der Wahlberechtigten.

Taschenkontrolle

Der Einzelhandel beklagt immer wieder, dass durch Diebstahl von Waren durch eigene Mitarbeiter große Schäden verursacht werden. Deswegen führen größere Supermärkte unter anderem eine Taschenkontrolle durch, wenn Mitarbeiter den Supermarkt verlassen. Da eine vollständige Taschenkontrolle aller Angestellten zu aufwändig wäre (und dies vermutlich auch als Arbeitszeit bezahlt werden müsste), gehen die Angestellten beim Verlassen des Supermarktes durch den Personalausgang an einer Lampe vorbei. Sie zeigt computer-gesteuert entweder ein grünes Licht (Angestellter wird nicht kontrolliert) oder ein rotes Licht (Angestellter wird kontrolliert). Diese Auswahl ist dann eine einfache Zufallsauswahl.

Zufallsstichproben in der mathematischen Statistik

In der mathematischen Statistik sind Zufallsstichproben die Grundlage für den Rückschluss von der Stichprobe auf Eigenschaften der Grundgesamtheit. Eine konkrete Stichprobe x_1, \dotsc, x_n wird dann als Realisierungen der Zufallsvariablen X_1, \dotsc, X_n betrachtet. Diese Zufallsvariablen werden als Stichprobenvariablen bezeichnet und geben an, mit welcher Wahrscheinlichkeit bei der iten Ziehung mit einem bestimmten Auswahlverfahren ein bestimmtes Element der Grundgesamtheit gezogen werden kann.

Wurde eine einfache Zufallsstichprobe gezogen, so kann man zeigen, dass die Stichprobenvariablen X_{i} unabhängig und identisch verteilt sind (Abkürzung i.i.d., aus dem engl. independent and identically distributed). D.h. der Verteilungstyp und die Verteilungsparameter aller Stichprobenvariablen sind gleich der Verteilung in der Grundgesamtheit (identically distributed), und aufgrund der Unabhängigkeit der Ziehungen sind die Stichprobenvariablen auch unabhängig voneinander (independent).

Bei vielen Problemen in der induktiven Statistik wird vorausgesetzt, dass die Stichprobenvariablen i.i.d. sind.

Abhängige und unabhängige Stichproben

Bei Analysen mit mehr als einer Stichprobe muss zwischen abhängigen und unabhängigen Stichproben unterschieden werden. Statt von einer abhängigen Stichprobe spricht man auch von verbundenen Stichproben.

Abhängige Stichproben treten meist bei wiederholten Messungen an dem gleichen Untersuchungsobjekt auf. Zum Beispiel besteht die erste Stichprobe aus Personen vor der Behandlung mit einem bestimmten Medikament, und die zweite Stichprobe aus denselben Personen nach der Behandlung, d.h. die Elemente von zwei (oder mehr) Stichproben können einander jeweils paarweise zugeordnet werden.

Bei unabhängigen Stichproben besteht kein Zusammenhang zwischen den Elementen der Stichproben. Dies ist beispielsweise der Fall, wenn die Elemente der Stichproben jeweils aus unterschiedlicher Population kommen. Die erste Stichprobe besteht beispielsweise aus Frauen, und die zweite Stichprobe aus Männern, oder wenn Personen nach dem Zufallsprinzip in zwei oder mehrere Gruppen aufgeteilt werden.

Formal bedeutet dies für die Stichprobenvariablen X_{{ij}} (mit i das ite Untersuchungsobjekt und j die jte Messung):

Einstufige Zufallsstichproben

Hauptartikel: Urnenmodell

Eine reine (auch: einfache) oder uneingeschränkte Zufallsstichprobe kann mittels eines Urnenmodells beschrieben werden. Dazu wird ein fiktives Gefäß mit Kugeln gefüllt, welche anschließend zufällig gezogen werden: Ziehen mit Zurücklegen ergibt eine einfache Zufallsstichprobe, Ziehen ohne Zurücklegen ergibt eine uneingeschränkte Zufallsstichprobe. Durch ein Urnenmodell lassen sich so verschiedene Zufallsexperimente, etwa eine Lottoziehung, simulieren.

Stichprobenumfang

Der Stichprobenumfang (oft auch Stichprobengröße genannt) ist die Anzahl der für eine Prüfung benötigten Proben einer Grundgesamtheit, um statistische Kenngrößen mit einer vorgegebenen Genauigkeit mittels Schätzung zu ermitteln. Der Stichprobenumfang wird aber häufig durch Normen bzw. Erfahrungswerte festgelegt.

Wenn \theta der unbekannte Parameter in der Grundgesamtheit ist, dann wird eine Schätzfunktion \Theta =\Theta (X_{1},\dotsc ,X_{n}) in Abhängigkeit von der Stichprobenvariablen X_1, \dotsc, X_n konstruiert. Der Erwartungswert der Zufallsvariablen \Theta ist meist \operatorname {E}(\Theta )=\theta , und es gilt:

P(\theta -e\leq \Theta \leq \theta +e)=1-\alpha ,

wobei {\hat {\theta }} eine Punktschätzung des unbekannten Parameters ist, e der absolute Fehler und 1-\alpha die Wahrscheinlichkeit, dass \Theta eine Realisation im zentralen Schwankungsintervall annimmt.

Der absolute Fehler ist gleich e=c_{{1-\alpha /2}}{\sqrt  {\operatorname {Var}(\Theta )}}, also

P\left(\theta -c_{{1-\alpha /2}}{\sqrt  {\operatorname {Var}(\Theta )}}\leq \Theta \leq \theta +c_{{1-\alpha /2}}{\sqrt  {\operatorname {Var}(\Theta )}}\right)=1-\alpha ,

wobei c_{{1-\alpha /2}} meist vom Verteilungstyp von \Theta abhängt und für die Varianz \operatorname {Var}(\Theta )\propto {\tfrac  1n} gilt. Die folgende Tabelle gibt für den unbekannten Mittelwert \mu bzw. den unbekannten Anteilswert \pi eine Abschätzung des Stichprobenumfanges an.

Unbekannter
Parameter
Bedingung e Abschätzung
Stichprobenumfang
c_{{1-\alpha /2}} {\sqrt  {\operatorname {Var}(\Theta )}}
\mu X_{i}\sim N(\mu ;\sigma ) und \sigma bekannt z_{1-\alpha/2} \sigma /{\sqrt  {n}} n\geq {\frac  {z_{{1-\alpha /2}}^{2}\sigma ^{2}}{e^{2}}}
X_{i}\sim N(\mu ;\sigma ) und \sigma unbekannt t_{{n-1;1-\alpha /2}} s/{\sqrt  {n}} n\geq {\frac  {t_{{n-1;1-\alpha /2}}^{2}s^{2}}{e^{2}}}
X_{i}\sim (\mu ;\sigma ) und n>30 z_{1-\alpha/2} s/{\sqrt  {n}} n\geq {\frac  {z_{{1-\alpha /2}}^{2}s^{2}}{e^{2}}}
\pi np(1-p)\geq 9 z_{1-\alpha/2} {\sqrt  {p(1-p)/n}} n\geq {\frac  {z_{{1-\alpha /2}}^{2}}{4e^{2}}}\geq {\frac  {z_{{1-\alpha /2}}^{2}p(1-p)}{e^{2}}}

Beispiel (Wahl)

Benötigte Stichprobenumfänge bei einfacher Zufallsauswahl

Eine Partei hat in einer Umfrage kurz vor der Wahl 6 % erreicht. Welchen Umfang muss eine Wählerbefragung am Wahltag mit 1-\alpha =95\,\% Sicherheit haben, damit der wahre Anteilswert mit einer Genauigkeit von e=1\,\% ermittelt werden kann?

n\geq {\frac  {1{,}96^{2}}{4\cdot 0{,}01^{2}}}=9604

bzw. etwas genauer

n\geq {\frac  {1{,}96^{2}\cdot 0{,}06\cdot 0{,}94}{0{,}01^{2}}}\approx 2167.

D.h. bei der etwas genaueren Abschätzung des Stichprobenumfanges für den Anteilswert ergibt sich, dass immer noch 2167 Wähler befragt werden müssen, um mit einer Genauigkeit von 1 % das Wahlergebnis zu erhalten. Die Grafik rechts zeigt, welche Stichprobenumfänge nötig sind für einen bestimmten geschätzten Anteilswert und eine gegebene Sicherheit.

Beispiel (Werkstoffprüfung)

In der Werkstoffprüfung ist ein Stichprobenumfang von 10 pro 1000 produzierten Teilen durchaus üblich. Er ist u.a. von der Sicherheitsrelevanz des Bauteils oder des Werkstoffes abhängig. Bei den zerstörenden Prüfungen wie zum Beispiel beim Zugversuch wird versucht, den Prüfaufwand und damit die Stichprobe möglichst klein zu halten. Bei der zerstörungsfreien Prüfung – z.B. bei Bildverarbeitungssystemen für die Vollständigkeitsprüfung – wird häufig eine 100-%-Kontrolle durchgeführt, um Fehler in der Produktion möglichst schnell zu erkennen.

Mehrstufige Zufallsauswahl (auch komplexe Zufallsauswahl)

Insbesondere sind folgende Auswahlverfahren von Bedeutung, wobei die ersten beiden als Zweistufige Auswahlverfahren bezeichnet werden:

  1. Stufungskriterien (Merkmale) bestimmt,
  2. die Grundgesamtheit nach diesen Merkmalen in einander ausschließende Teilgesamtheiten (Primäreinheiten) aufteilt,
  3. nun eine zufällige Auswahl der Teilgesamtheiten trifft und sich auf eine bestimmte Anzahl von Primäreinheiten begrenzt, die man untersucht. Die restlichen Teilgesamtheiten werden ignoriert.
  4. Aus den zufällig ausgewählten Primäreinheiten ermittelt man nun die Zufallsstichprobe der Merkmalsträger (Objekte, Individuen, Fälle). Ein Institut will bspw. 500 Personen nach ihrem Konsumverhalten befragen. In Schritt 2 wurde die Grundgesamtheit, z. B. anhand geographischer Merkmale, in Ost-, Nord-, Süd- und Westdeutschland aufgeteilt. In Schritt 3 wurde festgelegt, dass das Konsumverhalten in ost- und süddeutschen Supermärkten (Sekundäreinheiten) im Mittelpunkt der Untersuchung steht, so dass in jeder der beiden Regionen 250 Leute (Tertiäreinheiten) befragt werden.
  5. Die Teilgesamtheiten (der beiden untersuchten Regionen) werden nun zu einer Gesamtstichprobe zusammengefügt.

Anwendungsmodelle

Probleme der Zufallsziehung

In der praktischen Forschung (v. a. im Bereich der Sozialwissenschaften) kann nur sehr selten eine „echte“ Zufallsstichprobe ausgewählt werden. Dies hat mehrere Gründe:

  1. Grundgesamtheiten werden statistisch als Menge im mathematischen Sinn aufgefasst. Dies bedeutet, dass eindeutig definiert ist, welche Merkmalsträger zur Grundgesamtheit gehören und welche nicht, was eine zeitliche, räumliche und auf das Merkmal bezogene eindeutige Abgrenzbarkeit verlangt. Dies gelingt oft nicht, da die Grundgesamtheit gar nicht bekannt ist (z. B. sind nicht alle Personen, die momentan eine Depression in Deutschland haben, bekannt) oder diese sich zeitlich ändert (z. B. durch Geburten und Todesfälle).
  2. Aufgrund ethisch und datenschutzrechtlicher Bedenken kann nicht auf eine Liste der gesamten Population (z. B. alle Personen in Deutschland oder einer bestimmten Stadt) zugegriffen und Personen daraus ausgewählt werden.
  3. Nicht alle aus einem Register gezogenen Personen sind bereit, an einer Untersuchung (z. B. Telefonbefragung) teilzunehmen. Zusätzlich ist davon auszugehen, dass teilnehmende Personen sich von nicht teilnehmenden Personen in bestimmten Merkmalen (sozialer Status, Bildungsniveau, etc.) unterscheiden.

In der Praxis wird deshalb oft auf eine Ad-hoc-Stichprobe zurückgegriffen, d. h. es werden diejenigen Personen erhoben, die sich freiwillig bereit erklären, an einer Untersuchung teilzunehmen. Deshalb ist zu überprüfen, ob die Erhebungsgrundgesamtheit (frame population; Grundgesamtheit, die faktisch erhoben wird) der angestrebten Grundgesamtheit (target population, Grundgesamtheit, für welche die Aussagen der Untersuchung gelten sollen) entspricht.

Trenner
Basierend auf einem Artikel in: Wikipedia.de
Seitenende
Seite zurück
©  biancahoegel.de
Datum der letzten Änderung:  Jena, den: 05.10. 2023