3.7. Maximum likelihood elv

A becslések kapcsán felvetődik a kérdés, hogy hogyan lehet olyan becsléseket konstruálni, amelyek a becslésekkel szemben megfogalmazott fenti kívánságaink közül a legtöbbet teljesíti. Általánosságban azt fogalmazhatjuk meg, hogy adott kísérleti anyag (minta, vagyis mérések) esetén a paraméterek azon értékeit fogadjuk el legjobb becslésnek, amelyeknek a valószínűsége a maximális.

Ezt egy diszkrét valószínűsűgi eloszlás esetén, annak valószínűsége, hogy egy a paraméterű statisztikai sokaságból származó minta pont x értéket vesz fel:

(3.62)

Egy konkrét  értékekből álló minta esetén az adott minta és az a paraméter együttes valószínűsége:

(3.63)

Az egyes valószínűségek szorzatából álló L függvényt likelihood függvénynek nevezzük. Ez tehát annak a valószínűsége, hogy éppen az adott mintát kapjuk véletlen mintavétel során. Ez az adott mintaértékek és az a paraméter együttes valószínűsége. Egy konkrét minta esetén, ez az a paraméter valószínűsége. Konkrét minta esetén tehát az a paraméter különböző értékeihez különböző valószínűség tartozik.

Ezt felhasználhatjuk az a paraméter becslésére: legyen az a paraméter becslése az az érték, ahol a fenti függvénynek maximuma van.

A maximum likelihood becslés során az a paraméter valódi értékét azzal a speciális értékkel becsüljük, amely – ha a paraméter valódi értéke volna – akkor éppen az adott minta bekövetkezése volna a legvalószínűbb az összes lehetséges n-elemű minták közül.

Folytonos eloszlású sokaság esetén a

(3.64)

Függvény maximumát keressük, ahol az  függvény a sokaság sűrűségfüggvénye. (A sűrűségfüggvény definíciójából fakadóan egy konkrét xi értékű minta bekövetkezésének a valószínűsége nulla, azonban rögzített esetén beszélhetünk annak valószínűségéről, hogy a minta elemei rendre a  intervallumokba essenek. Ez a valószínűség kis Δx-ek esetén

(3.65)

Valószínűséggel egyenlő. Ekkor az a paraméter valódi értéke becsléseként azt az értéket fogadjuk el, melyet a helyébe téve, a fenti szorzat maximális.

A fenti szorzatok maximumhelyének meghatározásához felhasználhatjuk, hogy a függvények az a szerint differenciálhatók. Elsősorban célszerűségi okokból, a fenti szorzatfüggvénynek a logaritmusát véve (a folytonos esetben):

(3.66)

Látjuk, hogy a szorzat helyett a fenti képletben a sűrűségfüggvények logaritmusának összege áll. Mivel a logaritmusfüggvények monoton függvények, a fenti (3.66) függvény maximumhelye megegyezik a megfelelő likelihood-függvény (3.65) maximumhelyével.

Ekkor az a paraméter becslését az

(3.67)

ún. Likelihood-egyenlet a-ra való megoldásával határozhatjuk meg. (Feltéve, hogy az lnL az a változó szerint differenciálható, és a fenti egyenlet a maximumhelyet szolgáltatja, vagyis

(3.68)

feltétel is teljesül a minimumhelyen.)

Ha létezik az a paraméternek egy minimális szórású vagyis hatásos (effektív) becslése, akkor a likelihood egyenletnek egy megoldása van, és az egyenlő -val.

A maximum likelihood elv alkalmazását nézzük meg ismeretlen m várható érték és szórásnégyzet paraméterekkel jellemezhető normális eloszlásból vett minta paramétereinek becslésére. A sűrűségfüggvény a mostani jelölésekkel:

(3.69)

Amiből a likelihood függvény logaritmusa:

(3.70)

Ebből m és a szerinti parciális differenciálással kapjuk a likelihood-egyenletet:

 és

(3.71)

(3.72)

Ebből a két egyenletből:

 

(3.73)

valamint

(3.74)

Vagyis ha a=σ2 ismert, és csak m-et becsüljük, akkor az (empírikus várható érték) adódik, ha viszont m-et ismerjük, és csak a-t becsüljük, akkor

(3.75)

Ami torzítatlan becslése σ2-nak.

Vizsgáljuk meg azt az esetet, amikor a mintáról azt feltételezzük, hogy azonos várható értékű, de különböző szórású normális eloszlásból származnak. Ekkor az i-ik valószínűségi változó várható értéke a, szórása pedig σi. Ekkor a likelihood függvény az alábbi alakú:

(3.76)

Aminek a logaritmusa:

(3.77)

Az a paraméter szerinti derivált

(3.78)

amiből következik:

(3.79)

Vagyis a várható érték becslésére a súlyozott átlagot használjuk.

A XIX. század elején ismert volt Gauss tétele, hogy a szórásnégyzetek reciprokával súlyozott átlag a közös várható érték minimális szórású becslése a lineáris becslések között. A maximum likelihood elvből levezethettük, hogy ennek szórása az összes becslések közül is a minimális.

A maximum likelihood elvet alkalmazhatjuk más (nem normális) eloszlásokra is. Nézzünk erre két példát!

Laplace (kétoldali exponenciális) eloszlásból vett mintán, az eloszlás μ  paraméterének – a várható értéknek – véges minta esetén effektív, torzítatlan becslése a tapasztalati medián: A minta elemeit növekvő sorba rendezzük, és a középső (páros mintaszám esetén valamelyik mellette levő) elem a becsült érték.

Egyenletes eloszlás esetén a várható érték effektív, torzítatlan becslését úgy kapjuk, ha a mintaelemeket növekvő sorrendbe rendezzük, és a legnagyobb és legkisebb mintaelem számtani átlagát tekintjük a várható érték becslésének.