5. fejezet - A geofizikai inverzió statisztikai megközelítése

Tartalom

5.1. A geofizikai inverz feladat megfogalmazása
A kísérleti anyag additív modellje
A normális eloszlású additív modell
Lineáris elméleti terű additív modell
5.2. Statisztikai becslési eljárások a geofizikai inverz feladat megoldására
A maximum likelihood elv
A maximum likelihood elv alkalmazása minőségi interpretációra
A maximum likelihood elv alkalmazása mennyiségi interpretációra
A maximum likelihood elv alkalmazása lineáris elméleti terű modellek minőségi interpretációjára
A maximum likelihood elv alkalmazása minőségi interpretációra a priori valószínűségek felhasználásával
A maximum likelihood elv alkalmazása összetett interpretáció esetén
Az additív modellek véletlen eltérés komponensének analízise
5.3. A kritériumfüggvény lehetséges alakjai
5.4. Minimum kereső eljárások
Lineáris egyenletek megoldására visszavezethető eljárások
Gradiens módszer
Konjugált vektor módszer
Konjugált gradiens módszer
Intervallum keresés
Szimplex módszer
A szimulált hűtés (Simulated Annealing)
Az genetikus algoritmus
5.5. A statisztikai becslések minőségét ellenőrző eljárások

Az előző fejezetben bevezettük a modell fogalmát. Megállapítottuk, hogy egy modellhez mindig kapcsolni tudunk egy direkt feladatot. A direkt feladat alkalmas arra, hogy segítségével a „megjósoljuk” a mérési eredményeinket. Ebben a fejezetben megvizsgáljuk azt, hogy hogyan kell felépíteni a matematikai statisztikai alapelveinek a figyelembevételével az inverz feladatot megoldó algoritmusainkat.

A fejezet első részében bemutatjuk, hogy a valószínűségelmélet segítségével hogyan fogalmazhatjuk meg a geofizikai inverz feladatot.

A fejezet második részében bemutatjuk az inverz feladat megoldási menetét.

A harmadik részben a „kritériumfüggvény” lehetséges alakjait vizsgáljuk.

A negyedik részben a paraméterek becsléséhez használt minimumkereső eljárásokat mutatjuk be.

A fejezet utolsó részében mutatjuk be becsült paraméterek statisztikai elemzését szolgáló algoritmusokat, ami az eredmények minőségellenőrzését szolgálja.

5.1. A geofizikai inverz feladat megfogalmazása

A valószínűségelmélet diszkrét és folytonos változókra felírt összefüggéseiből kiindulva a három modell típust különböztetünk meg. Ezeket, mivel a mérési anyagból kiindulva von le következtetést a geológiai-geofizikai valóságra, a mérési anyag interpretációjának nevezzük.

Az első típus a tiszta minőségi interpretáció (diszkrét eset). Ekkor a mérések segítségével valamilyen diszkrét értéket akarunk az adott mérési adatrendszerhez hozzárendelni. Erre példa az osztályozás: Egy műholdkép egyetlen képpontjáról el akarjuk dönteni, hogy az növényzetet, csupasz talajt vagy vizet ábrázol.

A második típus a tiszta mennyiségi interpretáció (folytonos eset): a geológia-geofizikai modellt definiáljuk, ebből következik a direkt feladat, és a méréseink segítségével csak a modellben szereplő paraméterek becsült értékeire vagyunk kíváncsiak. Példa erre a gravitációs kutatási példa, amelyben csak a vető elvetésének nagyságát és térképi nyomvonalát akarjuk meghatározni.

A harmadik típusba az összetett (mennyiségi-minőségi) interpretáció tartozik. A méréseinkre többféle modell is illeszkedik, többféle modell alapján is el tudnánk végezni a mennyiségi interpretációt. A kitűzött cél, hogy miután elvégeztük a szóba jöhető modellekre a mennyiségi interpretációt (meghatároztuk a paramétereket) megpróbáljuk eldönteni, hogy melyik modell a legvalószínűbb. Erre példa lehet a vulkáni kürtő kitöltését vizsgáló mágneses kutatás: a kürtőt kitöltő vulkáni test geometriai modellje lehet az általunk eddig használt négyzetes hasáb, de lehet álló henger vagy csonka-kúp. A különböző modellekhez így más paraméterek tartoznak, és modellenként más és más lehet a paraméterek száma is. Összefoglalva tehát ez esetben az interpretáció azt jelenti, hogy a méréseket feldolgozom a különböző modellekkel, és a feldolgozási eredmények alapján döntöm el, hogy melyik modellt fogadom el a valóság megfelelő reprezentációjának.

A geofizikai kutatás elengedhetetlen része a vizsgált objektumról előzetesen – a priori – rendelkezésre álló valamennyi ismeret összegyűjtése. Ez nem csak a vizsgált területre, a modell-objektumra, a környezetében levő hatókra, hanem az alkalmazott módszerre a hatók és a mérési eredmények közötti kapcsolatra is vonatkozik. Ezeket az a priori információkat a legteljesebb mértékben figyelembe kell venni a sikeres kiértékelés érdekében. Ezeknek az ismereteknek az elhagyása esetén – szélsőséges esetben – nem tudunk a méréseinkből semmilyen következtetést levonni. Az előzetes feltételezések tehát nemcsak térben, de gondolati szinten is lehatárolják a vizsgálatainkat. Ez utóbbit a kísérleti anyag matematikai modelljének tekintjük.

A kísérleti anyag additív modellje

Vizsgáljuk a Földfelszín egy darabját, – olyat, amelyet geológiailag (pl. fúrásokkal) elfogadhatóan ismerünk – valamilyen felszíni geofizikai mérési módszerrel. Megalkotva a terület geológia-geofizikai modelljét, jóslásokat tehetünk a mérési értékekre a direkt feladat segítségével. A mért értékeink – szinte biztosan – eltérnek majd ezektől az elméletileg meghatározott értékektől. Ezt az eltérést hibának tekintjük. Az eltérés oka lehet – ahogy az előző fejezet végén láttuk – a nem modellezett hatók hatása, a hatók egyszerűsítése, a pontatlanul ismert vagy megadott direkt feladat. Ezeket a hibaforrásokat együttesen modellhibának nevezzük. A mérőműszer pontatlansága, vagy egyéb a mérés során fellépő zavaró tényezőket összefoglalva mérési hibának nevezzük. Előfordulhatnak olyan hibák is, amelyek (általában) ritkán fordulnak elő, és hatásuk nagyon megváltoztatja a mérési eredményt. Ezeket durva hibáknak nevezzük. (Nevezhetjük baklövésnek, az angol nyelvű szakirodalomban blunder vagy outlier.) Ilyen hibák lehetnek például a műszer rossz leolvasásából, a jegyzőkönyvben hibásan felírt adatból, vagy a mérési tartomány túllépéséből eredő hibák. Ezek a hibák, mivel ritkán fordulnak elő, általában nem kezelhetők a statisztika segítségével. A durva hibákat általában az inverzió első lépésében, sokszor manuálisan vagy félig automatizált módon, de el kell távolítani az adatrendszerből, ezeket a méréseket ki kell hagyni a további feldolgozásból.

A mérési mennyiségeket eszerint – meghagyva az általános kezelés lehetőségét – az alábbi formában írhatjuk:

(5.1)

(a vastagon szedett betűk itt is a vektorokat jelölik). Az u vektor jelöli a kísérleti anyagot, vagyis a méréseket, ennek elemei az egyes mérések.

Az f vektorba vannak összefoglalva a direkt feladat megoldásai, vagyis minden mérési adathoz van egy elméleti megoldásunk. Ahogy korábban említettük, ez mennyiségi interpretációnál a paraméterek függvénye. Ennek alakját úgy választják meg, hogy ne legyen túlságosan bonyolult (lehetőleg kevés paramétertől függjön) de a reális objektumnak lehetőleg minden – a mérési eredményeket befolyásoló – tulajdonságát vegye figyelembe.

Az n vektor a hibavektor, ami a mért és az ideális tér eltérését jellemzi a megfigyelési pontokban. Ezt a továbbiakban véletlen komponensnek (összetevőnek) nevezzük.

Az u vektor, vagyis a méréseink véletlen jellegét az adja, hogy elkerülhetetlenül léteznek mérési hibák. A felírt egyenlőségben vizsgáljuk meg az ismert és ismeretlen mennyiségek számát! Mivel a mérést elvégeztük, az u vektor elemei ismertek, ezek együttesen N darab mérés. Az f vektort, vagyis a direkt feladat (N darab, u-val megegyező darabszámú) elemét általában néhány (S darab) paraméter segítségével ki tudjuk számolni. A paraméterek S száma általában kisebb N-nél. Ha az n elemeire semmilyen előzetes ismeretünk nincs, akkor a feladat alulhatározott, mert összességében több ismeretlenünk van (N+S), mint mérési eredményünk (N). 

Mivel a modellünk a valóság egyszerűsítéséből adódott, ezért a modell alkalmazásával tudatosan kizártunk bizonyos nem véletlen jellegű hatásokat is. Ezeknek a nem véletlen jellegű hatások – terek – figyelembe vételével a mérések modellje

(5.2)

Alakú lesz, ahol a vektor jelöli a terek nem véletlen jellegű eltérését. Egy ilyen modell esetén a méréseinkkel azonos számú ismeretlenünk lesz az a vektorban és – hasonlóan az előző esethez – a feladat alulhatározott lesz. Emiatt az egyik lehetőség, hogy az a nem véletlen komponens elemeit valamilyen egyszerű függvénnyel közelítjük – ekkor tulajdonképpen a direkt feladatot bonyolítjuk el. A másik lehetőség, hogy az n véletlen komponenst bővítjük ki, úgy, hogy tartalmazza az nem véletlen komponens hatását is, például a modellhibákat. Ez, ahogy később látni fogjuk, torzíthatja a meghatározott paramétereinket.

Ez utóbbi esetben f vektort hasznos jelnek, az a+n elemeit összevonva tartalmazó új n vektort zajnak nevezzük.

Írjuk fel a méréseink „hasznos jel + zaj” szerinti felbontásával adódó modelljét!

(5.3)

A mérési adatok ilyen modelljét additív modellnek nevezzük.

Általában a mérési anyagban a méréseinket csoportosítani tudjuk. Az adataink átláthatóbb kezelése érdekében képezzünk összesen 2K+1 csoportot, és a csoportjainkat számozzuk meg: a k index –K-tól +K-ig fusson.  A csoportosítást úgy végezzük el, hogy két mérési adat, amit különböző k indexű csoportból vettünk statisztikailag független legyen. Ugyanakkor az ugyanazon k indexű csoportból származó mérések korrelációs kapcsolatban legyenek egymással. A k-adik csoportba tartozó méréseket számozzuk be az i indexszel, amelynek értéke a k-tól függő –Ik-tól +Ik-ig fusson, így i összesen 2Ik+1 különböző értéket vehet fel. Ez a felírást Wiener (1949) alkalmazta, aki az információ átvitel kapcsán, időben változó, egymástól független drótvégeken mérhető, egyenletesen mintavételezett elektromos jeleket vizsgált. Itt a nagyszámú drótvégek közül kiválasztott egyetlen drótvég környezetében levő drótvégeket jelöljük a k indexszel (így a k = 0 a kiválasztott drótvég), az i index pedig egy kiválasztott pillanat (i = 0) előtti és utáni időpillanatokban mérhető feszültségek indexe. A felírást megtartását az indokolja, hogy a mérések ilyen csoportosításával alkalmazhatjuk a matematikai modellt több mérési módszerrel végzett méréscsoport együttes, vagy különböző körülmények között (eltérő időpontokban, más pontosságú műszerrel) végzett mérések kiértékelésére. A következőkben bemutatott esetekben általában megtehetjük, hogy egyetlen méréscsoportot alakítunk ki a méréseinkből, ekkor k = 0. Az ettől eltérő eseteket külön jelöljük.

Vizsgáljuk meg az egyes modell típusainkra, hogy az additív modell milyen konkrét alakoknak felel meg!

Minőségi interpretáció esetén azt keressük, hogy a mérési anyag az N darab lehetséges modell közül melyiket valószínűsíti leginkább. Ekkor:

(5.4)

A ν=1,2,…,N index az fνkvektor jelölésében a modell-objektum lehetséges állapotától függő funkcionális összefüggést jelöli. Az inverz feladat megfogalmazása ezen állapotok közötti választás optimális eljárásának a meghatározása. (A minőségi interpretációra példaként a műholdkép osztályozását hoztuk fel. Ebben az esetben egy fνk vektor a ν-edik osztályhoz tartozó, osztályközéppontokból képzett vektor. A véletlen eltérés komponens pedig megadja, a vizsgált képpont (u) és az adott osztályközéppont (f) különbségvektorát.)

A mennyiségi interpretáció esetén a modell alakja:

(5.5)

Itt fk(p) vektor a direkt feladat megoldás, adott alakú az alkalmazott geológiai geofizikai modell által meghatározott alakú függvény, a p vektor pedig a ps elemekből álló paramétervektor, amelynek s=1,2,…,S darab eleme van.

Az összetett (mennyiségi-minőségi) interpretáció esetén a modell alakja:

(5.6)

Ahol fνk(pν) a ν = 1,2,…,N lehetséges modellekhez tartozó direkt feladat megoldások, amelyek mindegyikéhez tartozik egy pν paramétervektor, amelynek elemei pνs elemek (s = 1,2,…,Sν). Az Sν elemek száma függ az adott modelltől: a különböző modellekhez különböző számú paraméter tartozhat.

A normális eloszlású additív modell

Az interpretáció csak akkor válik lehetővé, ha az ismeretlenek kutatási területe valamiképpen lehatárolt. Ez esetünkben azt jelenti, hogy az a priori ismeretek alapján elengedhetetlen meghatározni a modell véletlen eltérés komponensének (n) valószínűségeloszlását jellemző sajátosságokat.

A legegyszerűbb eset, ha előzetesen ismert a véletlen eloszlás vektor elemeinek együttes eloszlása és az eloszlás paraméterei. Ezt hatómentes területen végzett mérések eredményeinek statisztikai elemzéséből lehet meghatározni. Lehetséges azonban, magából a kísérleti anyagból is meghatározni a véletlen komponens eloszlásának típusát és az eloszlás paramétereit, ekkor ezeket a mennyiségeket is meg kell határozni az inverz feladat megoldása során a direkt feladatban szereplő paraméterek mellett.

Gyakori eset, hogy a véletlen komponens valószínűségi eloszlása nem ismert. Ebben az esetben az alábbi gondolatmenetet követhetjük.

Egy eloszlást egyértelműen megad az összes momentumának értéke. Amennyiben csak az első néhány momentum ismert, akkor az eloszlások egész csoportja létezik azonos momentumokkal. Az algoritmust olyan eloszlás feltételezésével érdemes levezetni, amelyik a legkevesebb megkötést jelenti. Ilyen, a legnagyobb szabadsági fokkal (más megfogalmazás szerint a maximális entrópiával) rendelkező eloszlás, rögzített első két momentum esetén a normális eloszlás. Eszerint függetlenül az eloszlás tényleges típusától, az első két momentum esetén helyettesítőként a normális eloszlást kell választani.

A fentiek figyelembevételével a kísérleti anyag modelljében szereplő n véletlen eltérés komponens vektor elemeinek egy csoportjából felépített nk vektor elemeit normális eloszlásúnak tekinthetjük. Ez a gyakorlatban általában teljesül, az eloszlások közel vannak a normálishoz. A mérési anyag csoportosítása során képzett csoportok a fent elmondottak értelmében k szerint függetlenek i szerint stacionáriusak (vagyis időben állandó eloszlással és momentumokkal rendelkeznek). Ekkor a véletlen komponens vektor elemeinek együttes valószínűségsűrűsége:

(5.7)

Itt az Rk mátrix az nk vektor valószínűség eloszlásának második momentumaiból felépített kovariancia mátrix. (A kovarianciamátrixot a (3.21) egyenlettel definiáltuk.) Az exponenciális függvény kitevőjében egy kvadratikus alak áll.

Ha a méréseinkből egyetlen mérési csoportot alkotunk (vagyis k = 0 és (2Ik+1) megegyezik a méréseink számával) akkor a fenti képlet a „A valószűnűségszámítás alapjai” c. fejezetben, a többdimenziós normális eloszlás sűrűségfüggvényét (3.34) adja.

A fenti valószínűség-sűrűségfüggvénybe írjuk be a minőségi, mennyiségi és az összetett interpretációra vonatkozó additív modellek (5.4, 5.5, 5.6) alakját külön-külön! A fenti egyenletekből fejezzük ki az n véletlen komponens vektort, és ezt írjuk be az egyenlet jobb oldalán az n vektor helyére. Az eredményül kapott képletek felírásához (5.8, 5.9, 5.10) előbb vizsgáljuk meg, hogy mi kerül az egyenlet bal oldalára!

A minőségi interpretációra vonatkozóan azt látjuk, hogy a sűrűségfüggvény arra fog vonatkozni, hogy ha egy konkrét ν-edik modellt fogadjuk el, akkor a különböző u mérési eredményekhez mekkora valószínűség fog tartozni. Ez nem más, mint az f(u|ν) feltételes valószínűségsűrűség! (A műholdkép osztályozós példánál maradva ez azt jelenti, hogyha egy vizsgált képpont egy adott osztályba tartozik (ν), mennyi a valószínűsége annak, hogy a vizsgált képpont csatornánkénti értékei pont az u vektor elemeit adják.) Képelttel felírva:

(5.8)

Itt fνk a ν-edik osztály osztályközéppontjának csatornánkénti értékeiből képzett vektor, Rνk pedig a ν-edik modellállapothoz tartozó k-adik méréscsoport kovariancia mátrixa.

A gondolatmenetet a mennyiségi interpretációra alkalmazva, azt kapjuk, hogy a bal oldalon az a feltételes valószínűség áll, hogy mennyi a valószínűsége annak, hogy pont az u vektor elemeivel megegyező mennyiségeket mérünk egy konkrét rögzített p   modellparaméter vektor esetén. Ez az f(u|p) feltételes valószínűségsűrűség!

(5.9)

Az összetett interpretációnál egy valószínűség sűrűség függvényekből álló sorozatot kapunk, amelynek elemei egy adott ν-edik modell és a hozzá tartozó rögzített paramétervektor esetén azt adják meg, hogy mi annak a valószínűsége, hogy pont az u mérési eredmény valósul meg.

(5.10)

A fenti esetekben teljesen általános függvényt tételeztünk fel (fν , fés fνk).

Lineáris elméleti terű additív modell

A mennyiségi interpretáció egy – a gyakorlatban gyakran előforduló – speciális esetét vizsgáljuk meg, ahol a direkt feladat (fk) a paraméterek lineáris függvénye. Ezeket lineáris elméleti terű additív modelleknek nevezzük. Ebben az esetben a mérési eredményekre vonatkozó általános formula (egyetlen mérési csoportot vizsgálva, és elhagyva a k indexet):

(5.11)

ahol

(5.12)

 Az A mátrix neve: strukturális vagy konstruktív mátrix. Ha N darab mérésünk van, akkor a mérések – és így a direkt feladat megoldás – vektora egy N elemű oszlopvektor, amelynek elemei ui-k (i=1,2,…,N). Ha a paramétereink száma M, akkor a p vektor egy M elemű oszlopvektor, amelynek elemei pj-k (j=1,2,…,M). Ekkor az A mátrix egy N sorból, és M oszlopból álló mátrix, amelynek elemei Aij-k.

A modellre vonatkozó feltevésünk, hogy az N elemű hibavektor elemei azonos eloszlásúak és nulla várható értékűek:

(5.13)

Ekkor a méréseink várható értéke:

(5.14)