3.6. Statisztikai sokaság

A statisztikai vizsgálat tárgyát képező egyedek összességét a hozzájuk rendelhető számértékekkel együtt statisztikai sokaságnak nevezzük. A statisztikai sokaság elemeit egy halmaz elemeinek tekinthetjük, és a hozzájuk rendelhető számértékeket pedig ezen elemeken értelmezett függvényként. Egy sokaság lehet véges, vagy végtelen számú. A későbbiekben egy adott mennyiségre többször elvégzett  mérést egy elvileg végtelen sok elemű sokaság egy véges számú elemet tartalmazó részhalmazának tekinthetünk.

A mérést tehát egy elem kiválasztásának tekinthetjük egy statisztikai sokaságból. Egy elem kiválasztása egy halmazból matematikai szempontból a halmaz részhalmazain egy valószínűség eloszlás értelmezését jelenti. Eszerint egy statisztikai sokaság valószínűségi mezővé, az egyeden értelmezett számértékekből felépülő függvény pedig egy ξ valószínűségi változóvá lesz. Ennek a ξ valószínűségi változónak az eloszlását a statisztikai sokaság eloszlásának nevezzük.

A statisztikai sokaság eloszlásának, vagy egyes paramétereinek (pl. várható érték, szórás) meghatározására statisztikai vizsgálatot végzünk. Ehhez a sokaságból mintát veszünk. A mintavétel a sokaság n elemének véletlenszerű kiválasztásából áll.

Jelöljék x1, x2, … xn a kiválasztott elemekhez tartozó számértékeket a kiválasztás sorrendjében. Kiválaszthatunk visszatevéses és visszatevés nélküli módon, minket csak a visszatevéses mintavétel érdekel, mivel a geofizikai méréseink eleget tesznek ennek a kritériumnak.

Az egymástól független és ξ-vel megegyező eloszlású x1, x2, … xn valószínűségi változók összességét  n-elemű mintának nevezzük. Ha ξ eloszlásfüggvénye F(x) akkor azt mondjuk, hogy x1, x2, … xn egy, az F(x) eloszlású sokaságból vett (n-elemű véletlen) minta. Az xi valószínűségi változókat mintaelemeknek nevezzük.

A mintavételezés – mérés – célja, hogy valamit megismerjünk. A statisztikai következtetések alapelve megegyezik a logikai következtetésekkel, azzal a különbséggel, hogy a következményt nem logikai bizonyossággal állítjuk, hanem csak valamilyen – általában 1-hez közeli – valószínűséggel. (Ebből következik, hogy adott esetben tévedhetünk is.)

Egy x1,x2,…,xn elemekből álló mintára meghatározhatjuk a tapasztalati (empírikus) eloszlást, (ezt a mintaelemekből képzett hisztogram adja meg)  valamint az empirikus jellemző adatokat, amelyek közül a legfontosabbakat megadjuk.

Az empirikus várható érték, (amit a mintaelemek átlagaként kapunk meg):

(3.53)

Az empírikus szórásnégyzetet (s2-t):

(3.54)

Az empírikus mennyiségek bevezetésével értelmet nyer, hogy bevezessük az elméleti jellemző adatokat, amik az adott statisztikai sokaságot jellemzik, és amiknek a meghatározása a célunk.

A tapasztalat szerint statisztikai sokaságból vett kis számú minta esetén az empírikus szórásnégyzet várható értéke nem egyezik meg a statisztikai sokaság elméleti szórásnégyzetével. Ezért az elméleti szórásnégyzet közelítésére a korrigált tapasztalati szórásnégyzetet használjuk:

(3.55)

Amennyiben a minta valószínűségi vektorváltozókat tartalmaz, és a vektorváltozó k elemű, a minta pedig n-elemű, akkor a vektorváltozó egyes elemeiből is képezhetjük az egyes elemek empírikus várható értékét, amit egy k-elemű vektorba rendezhetünk:

 

(3.56)

Ennek segítségével a korrigált tapasztalati szórásnégyzet mintájára képezhetjük a k×k méretű korrigált tapasztalati kovarianci mátrixot, amelynek elemeit a

(3.57)

képlet segítségével definiálhatjuk.

A statisztikai becslések

A statisztikai minta alapján a statisztikai sokaság eloszlását akarjuk meghatározni. Az eloszlás, vagy valamilyen jellemző mennyiségének (paraméterének) meghatározási eljárását becslésnek nevezzük. Választva egy ismert eloszlású statisztikai sokaságot, amelynek valamely paraméterére kiváncsiak vagyunk, a sokaságból vett minta elemein értelmezett

 

(3.58)

függvényt használjuk az a paraméter „valódi“ értékének becslésére. Ezt a tetszőleges függvényt statisztikai függvénynek, vagy statisztikának nevezzük. Minden becslés valószínűségi változót eredményez, amelynek van eloszlása. Az a paraméter becslése annál jobb, minél inkább koncentrálódik eloszlása az a paraméter valódi értéke körül. Ezt konkretizálva, a statisztikákkal szemben az alábbi elvárásokat fogalmazhatjuk meg:

Az a paraméter becslését torzítatlannak nevezzük, ha az  várható értéke a-val egyenlő: . Eszerint például egy statisztikus sokaságból vett mintán, a korrigált empírikus szórásnégyzet kiszámítása a statisztikai sokaság szórásnégyzetének torzítatlan becslését szolgáltatja.

Ha és az a paraméter torzítatlan becslése, és , akkor az becslést az becslésnél hatásosabbnak (effektívebbnek) nevezzük.

Ha van olyan torzítatlan becslés, amelynek szórása minimális az a paraméter összes torzítatlan becslése körében akkor ezt hatásos becslésnek nevezzük. (A becsült paraméter szórása általában nem csökkenthető minden határon túl.)

Mivel egy adott becslés különböző elemszámokra is alkalmazható, a minta n elemszámának növelésével nem egyetlen becslésünk, hanem egy becslés-sorozatunk van. Az a paraméter egy  becsléssorozatát aszimptotikusan torzítatlannak nevezzük, ha

(3.59)

Példa erre az empirikus szórásnégyzetekből alkotott becsléssorozat, ami aszimptotikusan torzítatlan becslése az elméleti szórásnégyzetnek.

Egy becslési eljárást konzisztensnek nevezünk, ha a mérések n számának növekedésével a paraméterek becsült értékei a valódi értékekhez tartanak (sztochasztikus értelemben):

(3.60)

minden n-re és pozitív ε-ra.

Konfidencia intervallumok

Említettük, hogy a statisztikai következtetések esetén a következményt csak valamilyen (1-hez közeli) valószínűséggel állíthatjuk.

Általában lehetőségünk van az x1, x2, …, xn elemekből álló mintára támaszkodva olyan és statisztikák konstruálására, amelyre teljesül, hogy:

(3.61)

Ahol p egy általunk megválasztott pozitív szám, amelytől az és statisztikák függnek. Jelen esetben az a paramétert egy intervallummal becsüljük, ezt intervallumbecslésnek nevezzük. Az (, ) véletlen helyzetű intervallumot konfidencia-(megbízhatósági) intervallumnak, az (1-p)·100%-ot megbízhatóság szintjének, az intervallum kezdő- és végpontját pedig konfidencia határoknak nevezzük.