5.3. A kritériumfüggvény lehetséges alakjai

Ebben a fejezetben láttuk, hogy hogyan lehet a maximum likelihood elv segítségével egy olyan függvényt előállítani, amelynek szélsőértéke a keresett paraméterek optimális becslését szolgáltatja. (Optimálisnak nevezünk egy becslést, ami aszimptotikusan torzítatlan és effektív.) Láttuk, hogy normális hibaeloszlás esetén a maximum likelihood módszer a legkisebb négyzetek módszerére vezet. A legkisebb négyzetek módszerénél is egy függvény szélsőértékének – minimumhelyének – meghatározása segítségével szolgáltatja a paraméterek becsült helyét. (Ebben az esetben analitikus formában tudjuk kifejezni a paramétereket.) Általánosságban elmondhatjuk, hogy a becslési eljárás valamilyen függvény szélső értékének megtalálásából áll.

Általánosítsuk a fenti meghatározást! Kritériumfüggvénynek nevezzük a mérési adatok (az u mérések), a p paraméterek és a rendelkezésre álló információk olyan függvényét, amelynek a p paraméterek szerinti szélsőértéke a paraméterek becslését szolgáltatja. Ezek a kritériumfüggvények lehetnek szuboptimálisak is, ha a használatuk valamilyen szempontból célszerű.

Vizsgáljuk meg még egyszer a legkisebb négyzetek módszerben szereplő kritériumfüggvényt:

(5.44)

Ebben a függvényben az eltérésvektor (n) elemeinek a négyzeteinek az összege szerepel. Az eltérésvektor elemei pedig a mérési pontokban a mért érték és az elméleti modell (direkt feladat) által mondott értékek különbsége.

A kritériumfüggvény azt fejezi ki, hogy a modell mennyire tér el a mért értékektől, milyen „távol” van tőle.

Ha N darab mérésünk van, akkor ezek a mérések egy N-dimenziós teret feszítenek ki. Az N darab mérési adatból képzett vektor (u) egy vektor ebben a térben, amelynek elemei: u1, u2,…, uN, A mérési helyekre valamilyen paraméterértékekkel kiszámolva a direktfeladatot ugyancsak egy N dimenziós vektort kapunk (f), amelynek elemei: f1, f2, …, fN. A (5.44) képlettel kifejezett mennyiség, e két vektor elemeinek különbségeiből képzett négyzetek összege. Ez pontosan az N-dimenziós térben a Pitagorasz-tétel általánosításával nyert Euklédeszi távolság négyzete. A következőkben megmutatjuk, hogy a fenti módon képzett mennyiség, a vektortereken általánosan bevezettet távolságfogalom egy speciális esete.

A távolság, és hosszúság fogalmának általánosítása véges dimenziós vektortereken a norma fogalma. A norma egy vektortéren értelmezett leképezés, ami a nullvektor kivételével minden x vektorhoz egy pozitív számot rendel. Érvényesek rá, az abszolútértékhez hasonló tulajdonságok:

 

(5.45, 5.46, 5.47, 5.48)

Ekkor a -et az x vektor normájának nevezzük.

A véges (n-dimenziós) valós vektortereken a p-normákat használják:

(5.49)

A (5.44) és a (5.49) egyenletek összehasonlításával látszik, hogy a legkisebb négyzetes becslés kritériumfüggvényében a szereplő mennyiség a p = 2 értékhez tartozó, L2 norma négyzete. Az L2 norma tehát megegyezik az Euklédeszi terekben definiálható távolsággal. A 2-dimenziós síkon felvett koordinátarendszer középpontjától egységnyi távolságra levő pontok halmaza az origó köré rajzolt egység sugarú körön van.

Az eltérések négyzeteinek összegét tartalmazó kritériumfüggvényekkel történő becslést, L2 norma szerinti becslésnek nevezzük. Ehhez abból indultunk ki, hogy a hibák normális eloszlásúak, ennek segítségével írtuk fel a likelihood függvényt, amelynek a szélsőértékét (maximumát) meghatározva kapjuk a legkisebb négyzetek formuláját.

Említettük a „A valószűnűségszámítás alapjai” c. fejezetben, hogy a hibák normális eloszlásának feltételezését a centrális határeloszlás tétel indokolja, másrészt amennyiben a hibakomponens eloszlása nem ismert, rögzített első két momentum esetén a legnagyobb szabadsági fokkal (más megfogalmazás szerint a maximális entrópiával) rendelkező eloszlást, a normális eloszlás választjuk a maximum likelihood függvényben.

Vizsgáljuk meg a p = 1 esetet, vagyis az L1 normát!

(5.50)

 Ebben az esetben az eltéréseink abszolút értékeinek összegét fejezi ki a fenti norma. Az így képzett távolság a koordinátatengelyek mentén mért távolságok összege. Ez 2 dimenzióban olyan, mintha egy derékszögű utcahálózattal rendelkező városban mérnénk a két pont közötti eljutáshoz szükséges távolságot, úgy, hogy csak az utcákon tudunk haladni. Emiatt ez az angol nyelvű szakirodalomban taxicab vagy Manhattan távolságnak is nevezik. Ennek a távolságdefiníciónak a használatával a síkon felvett 2-dimenziós koordinátarendszer középpontjától egységnyi távolságra levő pontok egy esetén csúcsára állított négyzet oldalainak pontja, amely négyzet csúcsai rendre a (0,1), (1,0) (0,-1) (-1,0) pontok. Természetesen a fenti szemléletes képet több dimenzióra is általánosíthatjuk.

Ennek a mennyiségnek a minimalizálásával történő becslést L1 norma szerinti becslésnek nevezzük.

Amennyiben előzetes ismereteink alapján feltételezhetjük, hogy a hibakomponens Laplace (kétoldali exponenciális) eloszlású, akkor a hibakomponens vektor elemeiből képzett likelihood függvényben a Laplace eloszlás (3.28) összefüggéssel megadott képlete szerepel. Továbbra is feltételezzük, hogy a méréseink függetlenek, a méréseinkből egyetlen csoportot képezünk, amelyben a mérések változékonyságát jellemző b (skála paraméter) valamennyi mérésre azonos. Tételezzük fel továbbá, hogy nincsenek előzetes a priori ismereteink a paramétervektor elemeivel kapcsolatban, így a lehetséges paraméterkombinációk valószínűsége egyforma (). Irjuk fel a mért (u) és a direkt feladatból számolt (f(p)) elméleti értékek különbségeivel a likelihood függvényt:

(5.51)

A függvény maximuma (a vektorelemekkel kiírva) megegyezik az alábbi függvény minimumával:

(5.52)

Láthatjuk tehát a (5.50) és (5.52) egyenletek összehasonlításával, hogy az L1 norma szerinti becslés a Laplace eloszlás esetén megegyezik a maximum likelihood becsléssel.

Vizsgáljuk meg a p→∞ határátmenet képzésével kapott eredményt! Ezt L normának nevezzük. Ekkor a vektor elemek abszolút értékeinek egyre növekvő kitevőjű hatványait képezzük. A kitevő növelésével a legnagyobb abszolút értékű vektorelemből képzett hatványhoz képest kevésbé növekszik a többi vektorelem, és kimutatható, hogy a hatványok összegéből a p-edik gyökvonás hatására csak a legnagyobb abszolút értékű vektorelem marad meg:

(5.53)

Ennek a távolságdefiníciónak a használatával a 2-dimenziós esetben, a síkon felvett koordinátarendszer középpontjától egységnyi távolságra levő pontok egy olyan négyzet oldalainak pontja, amely négyzet csúcsai a (1,1) (1,-1) (-1,-1) (-1,1) pontok.

Ezt a normát nevezik angolul chessboard (=sakktábla) normának, mivel azt adja meg két mező távolságaként, hogy az egyik mezőre helyezett király hány lépésben tud eljutni a másik mezőre. Az első definiálójáról Csebisev normának is nevezik.

Az L normát használó becsléseket minimax becslésnek is nevezzük. Ezt a becslést először Laplace alkalmazta a XVIII. század végén, amikor a különböző földrajzi szélességeken mért meridián ívhosszokból a föld alakját közelítő ellipszoid paramétereit számolta ki.

Amennyiben a hibakomponens vektor elemeiről előzetes ismeretek alapján tudjuk, hogy azok egy egyenletes eloszlásból származnak, akkor a hibakomponens vektor elemei segítségével felírt likelihood függvény szélsőértékének meghatározása, azonos az alábbi feltétellel:

(5.54)

Az L1 és L  becslések előnye az L2 norma szerinti becslésekkel szemben, hogy sokkal kevésbé érzékenyek a durva hibákra, általában függetlenek a véletlen komponens eloszlásától. Az ilyen becsléseket robusztusnak nevezzük.