Robuste Schätzverfahren

Robustes Schätzverfahren ist ein Begriff der Schließenden Statistik. Ein Schätzverfahren oder Testverfahren heißt robust, wenn es nicht sensibel auf Ausreißer (Werte außerhalb eines aufgrund einer Verteilung erwarteten Wertebereiches) reagiert.

Die klassischen Schätzmethoden, die in der ersten Hälfte des 20. Jahrhunderts entwickeln wurden, tendieren häufig dazu, bei Vorliegen von Ausreißern in der Stichprobe irreführende Ergebnisse zu liefern. Ein robustes Schätzverfahren orientiert sich deshalb an der Masse der Daten und integriert eine Ausreißeranalyse, um den Einfluss von Modellabweichungen zu reduzieren und ihn bei zunehmender Devianz gegen Null streben zu lassen.

Die Entwicklung robuster Schätzer zur Effizienzsteigerung von Schätzverfahren ist seit den 1980er Jahren ein wichtiges Forschungsanliegen in der mathematischen Statistik. Zu den robusten Verfahren gehören zum Beispiel der RANSAC-Algorithmus und Verfahren, die eine hohe Bruchpunktresistenz aufweisen.

Beispiel

Der Erwartungswert einer t-Verteilung mit 2 Freiheitsgraden wird durch eine Stichprobe der Größe 10 geschätzt.

Ein einfaches robustes Schätzverfahren stellt der (empirische) Median dar, den man anstelle des arithmetischen Mittels verwenden kann, um den Erwartungswert einer symmetrischen Verteilung zu schätzen. Den empirischen Median erhält man, indem man die Beobachtungen der Größe nach sortiert und dann den der Reihenfolge nach mittleren Beobachtungswert als Schätzwert wählt. Ein Beispiel: Es werden eine gewisse Zahl von Messungen durchgeführt, um eine physikalische Größe (etwa die Gravitationskonstante) experimentell zu bestimmen. Man nimmt an, dass die auftretenden Messfehler unsystematisch sind und in beide Richtungen gehen können, die Messwerte also mal zu groß, mal zu klein sind; formal genauer: unabhängige und identisch verteilte Beobachtungen mit symmetrischer Verteilung und dem wahren Wert der zu bestimmenden Größe als Erwartungswert. Es gibt nun gelegentlich einzelne Messwerte, die deutlich von den übrigen abweichen („Ausreißer“, die oben beschriebenen Modellabweichungen); sie sind in der Regel auf Fehler bei der Durchführung des Experiments zurückzuführen („Verwackeln“ der Apparatur, „Verschreiben“ o.ä.). Obwohl extreme Abweichungen eher auf einen Fehler hindeuten und daher solche Beobachtungen eher weniger Einfluss auf das Ergebnis haben sollten, beeinflussen sie das arithmetische Mittel stark; der Einfluss wird sogar umso größer, je deutlicher die Abweichung ist. Der Median hingegen ist gegen solche Ausreißer unempfindlich, also „robust“. Sofern keine Ausreißer vorliegen, liefert er allerdings bei gleicher Zahl von Messwerten im Allgemeinen eine ungenauere Schätzung, da „im Kleinen“ der Schätzwert nur durch eine einzige – nämlich die mittlere – Beobachtung bestimmt wird.

Bei normalverteilten Zufallsvariablen sind Ausreißer eher unwahrscheinlich und der arithmetische Mittelwert liefert eine gute Schätzung für den Erwartungswert. Dagegen ist bei einer t-Verteilung mit einer geringen Anzahl von Freiheitsgraden aufgrund der schweren Verteilungsschwänze die Wahrscheinlichkeit für Ausreißer deutlich erhöht. In der nebenstehenden Abbildung sind beide Schätzer erwartungstreu, aber der Median weist eine geringere Varianz auf als der arithmetische Mittelwert, was für die Robustheit des Medians gegenüber Ausreißern spricht. Mit steigender Anzahl von Freiheitsgraden konvergiert die t-Verteilung gegen die Normalverteilung und Ausreißer werden unwahrscheinlicher. In diesem Fall ist die Varianz des arithmetischen Mittelwerts geringer, weil mehr Information aus den Daten verwendet wird.

Basierend auf einem Artikel in:

Wikipedia.de