5.2. Statisztikai becslési eljárások a geofizikai inverz feladat megoldására

Ebben a fejezetben bemutatjuk, hogy a geofizikai inverz feladatot hogyan tudjuk megfogalmazni a matematikai statisztikában nagy sikerrel alkalmazott alapelvek segítségével.

A maximum likelihood elv

Az előző fejezetben láttuk, hogy a meghatározandó paraméterek bonyolult függvénykapcsolatban állnak a méréseinkkel, amik valószínűségi változóknak tekinthetők. Minthogy a direkt feladatban szereplő paramétereinket a méréseinkből akarjuk meghatározni, ezért a paramétereink is valószínűségi változóknak tekinthetők.

A matematikai statisztikában egy minta alapján a statisztikai sokaság eloszlásfüggvényében szereplő paramétereket a maximum likelihood elv segítségével becsüljük. Alkalmazzuk ezt az elvet a geofizikai inverz feladat megoldására!

A maximum likelihood elv azt mondja ki, hogy a paraméterek azon értékeit fogadjuk el a paraméterek becslésének, amelyek a megvalósuló mérések (adott minta) esetén a legvalószínűbbek. Ez a maximumfeltétel a minőségi, mennyiségi és az összetett interpretáció esetén az alábbi együttes valószínűségekkel fejezhető ki:

 

(5.15, 5.16, 5.17)

(Mivel a minőségi interpretáció során diszkrét értékekhez rendelünk valószínűségeket, ezért itt a valószínűség szerepel, míg a mennyiségi és összetett interpretációnál a paraméterek folytonos függvénye, a valószínűség sűrűség szerepel.) A likelihood függvény (3.65) ezeknek a valószínűség- és sűrűségfüggvények logaritmusából áll:

(5.18, 5.19, 5.20)

Ezeket a valószínűség- és sűrűségfüggvényeket Bayes (1701-1761) tétele segítségével fejezhetjük ki:

(5.21, 5.22, 5.23)

Ezek a fenti valószínűség- és sűrűségfüggvények tartalmazzák a modellre vonatkozó, a méréssel megszerzett információt is, így ezeket a posteriori valószínűség- és sűrűségfüggvényeknek nevezhetjük. Az egyenletek bal szélén álló mennyiségeket a jobb szélen felírt képlet segítségével tudjuk kiszámolni. Elemezzük ezeket a mennyiségeket!

Az jobboldali egyenletek jobb oldalán a , és  feltételes valószínűségsűrűségek állnak, amelyeknek az alakját az előző fejezetben (5.8, 5.9, 5.10) már meghatároztuk!

A jobboldali egyenletek első tagja rendre a valószínűség- és , sűrűségfüggvények. Ezek rendre a lehetséges ν állapotok, valamint a p és pν paraméterértékek előzetes – a priori – valószínűségei illetve valószínűség sűrűségei. Ezek a mennyiségek nem függenek a mérésektől. (Ezért nevezzük előzetes mennyiségeknek.) Ezek a mennyiségek tartalmazhatják az objektum állapotára vonatkozó – már a mérés elvégzése előtt meglevő – ismereteket.

Ilyen előzetes információ minőségi interpretáció esetén a ν-edik modellállapot előzetes valószínűsége. (A műholdkép osztályozási példa esetén, a ν-edik osztály valószínűsége a képen, például ha a kép felét erdő borítja, akkor az erdő osztály a priori valószínűsége 0,5.)

Mennyiségi interpretáció esetén az a priori valószínűségek az egyes paraméterekre vonatkozó előzetes ismereteket foglalja magába. Ilyen feltétel lehet, hogy egy pj paraméter csak egy tartományban vehet fel értékeket. (Példa lehet erre, a mélyfúrási adatok inverziója során a kőzet porozitása: csak 0 és 30% közötti porozitás-értékeket fogadunk el reálisnak. Ekkor a porozitást leíró paraméter valószínűség-sűrűségfüggvénye egy 0 és 30% közötti egyenletes eloszlás sűrűségfüggvényével adható meg.) Később látni fogjuk, hogy az a priori valószínűségek segítségével a paraméterek közötti függvénykapcsolatokat is leírhatjuk. (Amennyiben ezek determinisztikus függvénykapcsolatot jelentenek, akkor az ilyen függvénykapcsolatot kényszerfeltételeknek nevezzük.)

Az összetett interpretáció esetén az valószínűségsűrűség a ν-edik modellhez tartozó paraméterek sűrűségfüggvénye. Ez a sűrűségfüggvény tartalmazhatja a ν-edik modell előzetes valószínűségét is.

A három interpretációs folyamat mindegyikében tehát a döntési kritérium, az a posteriori valószínűségből és sűrűségfüggvényekből képzett likelihood függvény maximalizálása. Vizsgáljuk meg a likelihood függvény alakját a három interpretáció során!

A maximum likelihood elv alkalmazása minőségi interpretációra

Minőségi interpretáció esetén a likelihood függvény minden lehetséges modell objektumhoz rendel egy számot (valószínűséget).

Ekkor az egyes modellekhez tartozó

(5.24)

Értékek sorozatát kritériumfüggvénynek nevezzük. A becslési algoritmus tehát abból áll, hogy megkeressük, melyik ν modellállapothoz tartozik a függvény maximuma.

Tegyük most fel, hogy az egyes modellek előzetes a priori valószínűsége megegyezik, ekkor a likelihood függvényben csak a (5.8) alakú feltételes valószínűségek szerepelnek. Ekkor a korábban bemutatott normális eloszlású additív modell segítségével a kritériumfüggvény

(5.25)

alakú lesz. (Ez a konkrét példa világít rá arra, hogy miért célszerű a likelihood függvényt, mint a valószínűségek logaritmusát definiálni. Ekkor ugyanis a normális eloszlás sűrűségfüggvényében szereplő exponenciális függvényt logaritmálva, csak a kitevőben szereplő összegzés jelenik meg a kritériumfüggvényben, ami így matematikalag jól kezelhető függvénnyé válik.)

A maximum likelihood elv alkalmazása mennyiségi interpretációra

Vizsgáljuk meg részletesen a mennyiségi interpretáció esetét. Írjuk fel a likelihood függvény konkrét alakját az additív, normális hibaeloszlású modell esetére azzal a feltételezéssel, hogy az a priori valószínűs-sűrűségek valamennyi paraméterre megegyeznek. Ekkor a (5.9) egyenlet logaritmálásával az alábbi képlet adódik:

(5.26)

Ennek a függvénynek a maximumához tartozó argumentum jelenti a keresett függvényt.

A maximum likelihood becslés azért nevezhetjük optimálisnak, mert a független kísérleti eredmények (a méréseink) számának határtalan megnövelése esetén ezek a becslések torzítatlanok (vagyis szisztematikus hibától mentesek), effektívek (vagyis a paraméterek szórása minimális) és normális eloszlásúak.

A mennyiségi interpretáció esetében tehát a likelihood függvény maximumát akarjuk meghatározni a paraméterek függvényében. Ez egy többváltozós függvény szélsőértékének meghatározását jelenti. (A függvény annál bonyolultabb lehet, minél több elemű a paramétervektor.) Egy többváltozós függvény szélsőértéke az argumentumában szereplő paramétervektor elemei által kifeszített paramétertér több pontján is felveheti a maximumát. Ezt a jelenséget ekvivalenciának nevezzük, és azt fejezi ki, hogy a kritériumfüggvény alapján nem tudunk a több különböző paraméterkombináció között dönteni. A feladat teljes megoldásához meg kell találnunk valamennyi ilyen maximumhelyet. A függvény szélsőértékének megkeresését általában iterációs algoritmusok segítségével végezzük. Az iterációt valamilyen kezdő paraméterkombinációból indítjuk el, és az eljárás valamilyen lokális maximumhelyre konvergál. Nagyon sok kezdő paraméterkombinációból elindítva az eljárást, csaknem biztosan meg tudunk találni valamennyi maximumhelyet.

A maximum likelihood elv alkalmazása lineáris elméleti terű modellek minőségi interpretációjára

A függvény alakja, és a maximumhely keresése jelentősen leegyszerűsödik, ha a direkt feladat megoldást, mint a paraméterek lineáris függvényét tudjuk felírni, vagyis lineáris elméleti terű modellünk van (lásd fentebb).

Ekkor – emlékezzünk vissza – a direkt feladat az alábbi formában írható fel:

(5.27)

Ennek felhasználásával a (5.9) egyenlettel definiált függvény maximalizálása, egy mérési csoport esetén az alábbi függvény minimalizálásával egyenértékű:

(5.28)

Ennek az egyenletnek a szélsőértéke – vagyis a p vektor  becslése – analitikusan is megadható:

(5.29)

Ahol A mátrix a struktúra mátrix, R mátrix a mérések véletlen hibakomponens vektorából (n) készített kovariancia mátrix, u pedig a méréseinkből kialakított vektor.

Módosítsuk annyiban ezt a kifejezést, hogy a méréseinket egyforma súlyúnak tekintjük, ez annyit jelent, hogy a véletlen eltérés vektor elemekből képzett R kovarianciamátrix egy egységmátrix (I) lesz.

Ekkor a (5.28) egyenletet az alábbi formában is felírhatjuk:

(5.30)

Az egyenletben szerepel a véletlen eltérés komponens vektor (n) saját transzponáltjával vett skalárszorzata. Ez a vektorelemekre felírva:

(5.31)

Vagyis a véletlen komponens vektorban szereplő eltérések négyzetösszege.

Ennek a függvénynek a minimalizálásából adódó feltételt a legkisebb négyzetek elvének nevezzük. Komoly tudományos jelentősége van ennek az eredménynek, ugyanis a fenti becslési forma már a XIX. század elején ismert volt. Mivel a módszer segítségével a becsült paraméterek egy lineáris egyenletrendszer megoldásával megkaphatók voltak, (ahogyan a 5.29 egyenletből látszik) a számítógépek elterjedése előtti időben ez volt a paraméterbecslések egyetlen gazdaságosan végrehajtható módja.

A legkisebb négyzetes becslés csak abban az esetben adja ugyanazt a becslési eredményt, mint a maximum likelihood becslés, amikor a véletlen komponens normális eloszlású, centírozott (nulla várható értékű) és korrelálatlan a mérési pontokban. (A fenti levezetésben ennek megfelelő feltételeket vezettünk be.)

A legkisebb négyzetes módszert (és annak változatait) – egyszerűségük, és könnyen programozhatóságuk miatt – részletesen ismertetjük jelen jegyzet későbbi fejezeteiben.

A maximum likelihood elv alkalmazása minőségi interpretációra a priori valószínűségek felhasználásával

Vizsgáljuk meg a maximum likelihood módszert a minőségi interpretáció esetén, ha nem tételezzük fel, hogy az egyes becsült paraméterek egyforma valószínűségűek, vagyis a becslésben fel szeretnénk használni a paraméterekre vonatkozó előzetes (a priori) ismereteinket! Ekkor – felhasználva az a posteriori valószínűség (5.22) alakját – a maximalizálandó likelihood függvény logaritmusa:

(5.32)

Ahogy említettük, az  a paraméterekre vonatkozó előzetes információ alapján megkonstruált valószínűségsűrűség-függvény.

A maximum likelihood elv alkalmazása összetett interpretáció esetén

Az összetett (minőségi-mennyiségi) interpretáció során a lehetséges modellekhez ki kell választani a  direkt feladat összefüggések típusát, és a mérési anyagból meg kell határozni minden típusra a pνs (s = 1,2,…,S) paraméterek becsült értékeit.

Ennek során minden modellre a mennyiségi interpretációnál bemutatott folyamatot alkalmazzuk a pνs paraméterek becslésére. Ennek eredményeképpen minden modellre rendelkezésre állnak a paraméterek becsült értékeiből álló  vektorok. Ezeket az egyes modellekhez tartozó, a minőségi interpretációhoz felhasznált likelihood függvényekbe visszahelyettesítve, megkapjuk a likelihood függvények maximum értékeiből álló számsorozat elemeit. A becslés ezek közül kiválasztani a maximális értékűt. Ezáltal az összetett interpretációt visszavezettük egymás után elvégzett minőségi és mennyiségi interpretációra.

Az additív modellek véletlen eltérés komponensének analízise

Vizsgáljuk meg a mennyiségi interpretációnál a maximum likelihood feltételből levezetett maximalizálandó függvényt:

(5.33)

Ennek a függvénynek keressük a maximumát a paraméterek függvényében, ám utaltunk arra, hogy p paraméterek megváltozása esetén változik a direkt feladat megoldás, ezzel változnak a véletlen eltérés komponens vektor elemei, ami visszahat az ezekből képzett Rk kovarianciamátrixokra is.

A megfigyeléseink 2K+1 csoportra osztásánál feltételeztük, hogy az véletlen eltérés kompones vektor nik  elemeire igaz, hogy normális eloszlásúak, centírozottak, k szerint függetlenek és i szerint stacionáriusak. Ekkor a k-adik méréscsoporthoz egyetlen σk szórásérték tartozik, ami az k-adik csoportra állandó. Ennek segítségével az Rk kovarincia mátrixot felírhatjuk a szórás és a korrelációs mátrix (3.24) szorzataként: (Figyeljünk az eltérő jelölésekre!)

(5.34)

Ennek felhasználásával írjuk fel újra, a mennyiségi interpretáció esetén maximalizálandó függvényt (5.22):

(5.35)

Vizsgáljuk először a legegyszerűbb esetet, amikor a szórásnégyzetek és a p paramétervektor elemei ismeretlenek, és az r korrelációs mátrix elemeit ismertnek tételezzük fel. Ekkor a fenti függvény -ek szerinti maximuma adja a -ek becslését. (A fenti függvényt -ek szerint lederiváljuk, és ahol a derivált nulla, az a szélsőérték.) A kapott egyenlet átrendezésével kapjuk a -k becslését:

(5.36)

A kapott becsült szórásokat visszaírva a (5.35) egyenletbe, és az egyszerűsítések elvégzése után:

(5.37)

Ez a formula csak az ismeretlen p vektortól függ.

Először tehát ennek a formulának a segítségével meghatározzuk a becslést, és azt visszahelyettesítve (5.36) egyenletbe számítjuk ki a -eknek a becslését.

Vizsgáljuk meg azt a speciális esetet, amikor a méréseinkből alkotott k-darab csoportban az elemek száma (Ik) mindegy csoportban azonos (I-vel egyenlő) és az nik véletlen komponens pedig azonos szórású: . Ekkor az egyszerűsítések után adódik:

(5.38)

És ezzel a becsléshez felhasznált függvény, amelynek a maximumát keressük:

(5.39)

 Ebből, felhasználva, hogy a logaritmusfüggvény az argumentumának monoton függvénye, kapjuk, hogy:

(5.40)

Ez az eredmény azt fejezi ki, hogy ismeretlen szórások esetén is ugyanolyan alakú a maximalizálandó függvény, mint ismert szórások esetén. Megjegyezzük, hogy a méréseink korreláltságát jellemző korrelációs mátrixot itt is ismertnek tételeztük fel.

Ezt az eredményt alkalmazhatjuk a lineáris additív terű modelljeinkre is. Minthogy az itt levezetésre kerülő mennyiségek már átvezetnek minket a legkisebb négyzetes becslések témakörébe, vezessük be az ott alkalmazásra kerülő súlymátrixot:

(5.41)

Ahol a W súlymátrix a kovariancia-mátrix inverzének konstansszorosa. A szorzót az egységnyi súlyú méréshez tartozó szórásnégyzetnek nevezzük.

Ekkor – ismét felhasználva, hogy a direkt feladat megoldás a paraméterek lineáris függvénye (5.27 egyenlet) – kapjuk, hogy :

(5.42)

Az egységnyi súlyú méréshez tartozó szórásnégyzet () torzítatlan becslése:

(5.43)

A nevezőben a mérések számának (K) és a paraméterek számának (S) különbsége, vagyis a szabadsági fokok száma áll.