Likelihood-Funktion
Die Likelihood-Funktion (oft einfach nur Likelihood), gelegentlich auch Plausibilitätsfunktion, oder Mutmaßlichkeitsfunktion genannt, ist eine spezielle reellwertige Funktion in der mathematischen Statistik, die aus einer Wahrscheinlichkeitsdichtefunktion oder einer Zähldichte gewonnen wird, indem man einen Parameter der Dichte als Variable behandelt. Zentrale Verwendung der Likelihood-Funktion ist die Konstruktion von Schätzfunktionen durch die Maximum-Likelihood-Methode. Zudem werden aus ihr weitere Funktionen wie die Log-Likelihood-Funktion und die Score-Funktion abgeleitet, die beispielsweise als Hilfsfunktionen bei der Maximum-Likelihood-Methode oder zur Konstruktion von Optimalitätskriterien in der Schätztheorie verwendet werden.
Das Konzept stammt von Ronald Aylmer Fisher in den 1920er Jahren, der glaubte, es sei ein in sich geschlossenes Rahmenwerk für statistische Modellierung und Inferenz. Später führten George Alfred Barnard und Allan Birnbaum eine wissenschaftlichen Schule an, die das Plausibilitätsprinzip vertrat das postulierte, dass alle relevanten Informationen für die statistische Inferenz in der Likelihood-Funktion enthalten sind.
Definition
Gegeben sei eine Wahrscheinlichkeitsdichtefunktion oder eine Zähldichte
,
welche noch zusätzlich von einem oder mehreren Parametern
aus einer Parametermenge
abhängt. Es ist also
.
Dann heißt die Funktion
,
die durch
definiert wird, die Likelihood-Funktion.
Die Dichtefunktion wird somit zur Likelihood-Funktion, indem man den Parameter
als Variable auffasst und die Variable
als Parameter behandelt. Wird ein konkretes
fixiert, so nennt man auch
die Likelihood-Funktion zum Beobachtungswert
.
Im Falle einer Zähldichte gibt die
somit die Wahrscheinlichkeit von
an bei gegebenem Parameter
.
Beispiele
Wahrscheinlichkeitsdichte
Betrachtet man
unabhängig
und identisch normalverteilte
Zufallsvariablen
mit unbekanntem Erwartungswert
und unbekannter Varianz
,
so besitzt
aufgrund der Unabhängigkeitsannahme die Wahrscheinlichkeitsdichtefunktion
Somit ist der Parameter gegeben als
und stammt aus der Parametermenge
.
Folglich ist die Likelihood-Funktion
,
sie stimmt also mit der Dichtefunktion überein, mit dem Unterschied, dass
und
die Variablen sind und
als Parameter behandelt wird. Setzt man
und
,
so ist die Likelihood-Funktion zum Beobachtungswert
.
Zähldichte
Ist
eine zum Parameter
binomialverteilte
Zufallsvariable bei fixiertem
,
also
,
so besitzt sie die Zähldichte
für .
Folglich ist die Likelihood-Funktion von der Form
mit
und
.
Die Likelihood-Funktion zum Beobachtungswert
ist dann gegeben durch
.
Verwendung
Hauptverwendung findet die Likelihood-Funktion bei der
Maximum-Likelihood-Methode, einer intuitiv gut zugänglichen Schätzmethode
zur Schätzung eines unbekannten Parameters .
Dabei geht man bei einem Beobachtungsergebnis
davon aus, dass dieses ein „typisches“ Beobachtungsergebnis ist in dem Sinne,
dass es sehr wahrscheinlich ist, solch ein Ergebnis zu erhalten. Die
Wahrscheinlichkeit dafür,
zu erhalten hängt von der Wahrscheinlichkeitsdichtefunktion
und damit auch von
ab. Daher gibt man als Schätzung für den unbekannten Parameter denjenigen
Parameter
an, für den die Wahrscheinlichkeit des Eintretens von
maximal ist. Dafür betrachtet man die Likelihood-Funktion zum Beobachtungswert
und sucht ein
,
so dass
.
Dies entspricht der Bestimmung einer Maximalstelle der Likelihood-Funktion, welche meist durch Nullsetzen der Ableitung bestimmt wird:
.
Ist diese Gleichung schwer zu lösen, bietet sich die Log-Likelihood-Funktion als Hilfsmittel an.
Aufbauende Begriffe
Log-Likelihood-Funktion
Definition
Die Log-Likelihood-Funktion (auch logarithmische
Plausibilitätsfunktion genannt)
ist definiert als der (natürliche) Logarithmus aus der Likelihood-Funktion,
also
.
Teils wird sie auch mit
bezeichnet.
Beispiele
Aufbauend auf den obigen beiden Beispielen für die Likelihood-Funktion gilt im Falle der unabhängig und identisch normalverteilten Zufallsvariablen für die Log-Likelihood-Funktion
.
Im Falle der Binomialverteilung gilt für die Log-Likelihood-Funktion
.
Beides folgt aus den Rechenregeln für den Logarithmus (siehe Logarithmengesetze).
Eigenschaften
Da der Logarithmus eine streng monoton wachsende Funktion ist, ist jedes Minimum der Log-Likelihood-Funktion auch ein Minimum der Likelihood-Funktion. Ebenso ist jedes Maximum der Log-Likelihood-Funktion auch ein Maximum der Likelihood-Funktion.
Außerdem ist die Log-Likelihood-Funktion bei unabhängig und identisch
verteilten Zufallsvariablen additiv. Das bedeutet, dass wenn
unabhängig
und identisch verteilte Zufallsvariablen mit Dichte
und Log-Likelihood-Funktion
sind, so besitzt
die Log-Likelihood-Funktion
.
Dies folgt direkt aus der Tatsache, dass die Dichten von
als Produkt gebildet werden, und den Rechenregeln des Logarithmus.
Verwendung
Da die Log-Likelihood-Funktion dieselben Maximalstellen besitzt wie die Likelihood-Funktion, ist sie ein gängiges Hilfsmittel zur Lösung der Gleichung
,
welche bei der Maximum-Likelihood-Methode anfällt. Anstelle dieser Gleichung wird dann die Gleichung
gelöst. Insbesondere die Additivität der Log-Likelihood-Funktion bei unabhängig und identisch verteilten Zufallsvariablen erleichtert das Lösen der Gleichung in vielen Fällen.
Score-Funktion
Definition
In einparametrigen Modellen definiert man die Score-Funktion als erste Ableitung der Log-Likelihood-Funktion
Sie ist also die logarithmische Ableitung der Likelihood-Funktion. Die Score-Funktion gibt die Steigung der Log-Likelihood-Funktion an der jeweiligen Stelle an und muss nicht immer existieren. Sie taucht ebenfalls bei der Fisher-Information auf.
Beispiel
Für die Binomialverteilung wurde oben bereits gezeigt, dass die Likelihood-Funktion von der Form
ist. Daher ist
.
Leitet man diese Funktion nach
ab, so fällt der erste Term als Konstante weg und mit den Ableiteregeln für den
Logarithmus (siehe Ableitung
und Integral) folgt
für die Score-Funktion.
Verteilung
Die Score-Funktion ist asymptotisch
normalverteilt mit Erwartungswert
Null und Varianz
als Erwartungswert der Fisher-Information
(auch Erwartete
Fisher-Information genannt):
bzw.
.
Pseudo-Likelihood-Funktion
Für die Lösung des Maximum-Likelihood-Problems ist nur das Auffinden des Maximums der Likelihood-Funktion von Belang. Dies ist einer der Gründe, warum die Maximum-Likelihood-Methode oft auch funktioniert, obwohl die Voraussetzungen nicht erfüllt sind. In den folgenden Fällen spricht man von einer Pseudo-Likelihood-Funktion:
- die Verteilungsvoraussetzungen für die Maximum-Likelihood-Methode sind nicht erfüllt: Man nennt dann die Likelihood-Funktion eine Pseudo-Likelihood-Funktion und
- die eigentliche Likelihood-Funktion oder Log-Likelihood-Funktion ist zu schwierig zu maximieren und wird z.B. durch eine geglättete Version ersetzt und diese Pseudo-Likelihood-Funktion wird dann maximiert.
Kern der Likelihood-Funktion
Den Kern der Likelihood-Funktion (Kern der Plausibilitätsfunktion) erhält man aus der Likelihood-Funktion, indem man
alle multiplikativen Konstanten vernachlässigt. Für gewöhnlich wird mit
sowohl die Likelihood-Funktion als auch deren Kern bezeichnet. Die Verwendung
der Log-Likelihood-Funktion
ist häufig numerisch sinnvoll. Multiplikative Konstanten in
wandeln sich dann in additive Konstanten in
,
die wiederum häufig ignoriert werden können. Eine Log-Likelihood-Funktion ohne
additive Konstanten wird Kern der Log-Likelihood-Funktion genannt. Auch
hier wird gewöhnlich wird mit
sowohl die Log-Likelihood-Funktion als auch deren Kern bezeichnet.
Beispielsweise wäre der Kern der Log-Likelihood-Funktion einer Normalverteilung
mit unbekanntem Erwartungswert
und bekannter Varianz
:
.



© biancahoegel.de
Datum der letzten Änderung: Jena, den: 27.06. 2020