8.4. Kovariancia és korreláció

Két változó együttes elemzésénél gyakran alkalmazott mennyiség a kovariancia-, illetve a korrelációs együttható. Ezek a mennyiségek megmutatják, hogy a két idősor milyen mértékben változik „együtt”, s azt is, hogy a változások előjele azonos-e. Két N elemű minta (Xi és Yi, i = 1, …, N) kovarianciáját úgy számítjuk ki, hogy külön-külön mindkét mintára vesszük minden mintaelem különbségét a mintaelemek átlagától (X , illetve Y ), majd páronként összeszorozzuk őket. A szorzatok összegét képezzük, melyet elosztunk a mintaelemszám 1-gyel csökkentett értékével. Ezt az összefüggést az alábbiak szerint írhatjuk fel:

.

(8.5)

A pozitív kovariancia értékek azt jelentik, hogy amennyiben az egyik változó átlag feletti értéket vesz fel, akkor nagy eséllyel a másik változó értéke is az átlag felett lesz és fordítva. Amennyiben a kovariancia érték negatív tartományban van, úgy nagy valószínűséggel az egyik változó értéke pozitív, míg a másik negatív. A 0 körüli kovariancia értékek arra utalnak, hogy a két változó egymástól függetlenül változik. A kovarianciák értékei nehezen értelmezhetők, ezért leggyakrabban azok normalizált változatát alkalmazzuk, melyet korrelációs együtthatónak (r) nevezünk:

.

(8.6)

A korrelációs együttható a (–1, +1) intervallumban veheti fel értékeit. A +1 körüli értékek azt jelzik, hogy a két minta idősora együtt, azonos irányban változik, a –1 körüli értékek is szoros összefüggésre utalnak, de a minták közötti ellentétes irányú változásokat jelzik. A 0 körüli értékek – a kovarianciához hasonlóan – a két minta közötti függetlenségre utalnak (valójában az ok-okozati kapcsolat fordított: két minta lineáris függetlenségéből következik az, hogy korrelációs együtthatójuk értéke 0).

Az éghajlati változók mintáinak összefüggését értékelve az is fontos, hogy a korrelációs együttható értékére hipotézis vizsgálatot végezzünk. Ehhez ún. kétmintás t-próbával ellenőrizhetjük, hogy a korreláció 0-tól szignifikánsan eltér-e. Ennek során az alábbi A próbastatisztikát kell meghatározni az N mintaelem-szám felhasználásával:

.

(8.7)

Ennek az értéket kell összehasonlítani az N–2 szabadsági fokú t-eloszlás (8.1. táblázat) kritikus értékével 0,95 valószínűség esetére (ez a valószínűség adja meg a szignifikancia szintet). Amennyiben a próbastatisztika értéke abszolút értékben meghaladja a t-eloszlás kritikus értékét, akkor a kapott korrelációs együttható szignifikánsan eltér 0-tól.

Két példát mutatunk be a korrelációs együttható alkalmazására. Elsőként a XX. századi budapesti és három hazai állomás (Debrecen, Szeged, Szombathely) havi középhőmérsékleteire elvégzett korrelációs elemzés eredményét közöljük, melyre t-próbával ellenőriztük, hogy a kapott együtthatók 0-tól szignifikánsan eltérnek-e. A 8.2. táblázatból egyértelműen leolvasható, hogy a korrelációs együtthatók értékei mind pozitívak és magasak, minden esetben meghaladják 0,81-et. A t-próba eredménye azt jelzi, hogy az összes korrelációs együttható 95%-os szinten szignifikáns (a próbastatisztikák értéke 14 és 36 közötti, melyek mindegyike meghaladja az 1,984 kritikus t-eloszlási értéket). Az ország különböző részei közötti hőmérsékletviszonyok télen szorosabb összefüggésben vannak egymással, mint nyáron, melyet a magasabb korrelációs értékek jeleznek.

8.2. táblázat. Három hazai állomáson mért havi középhőmérséklet idősorok korrelációs együtthatói a budapesti havi középhőmérsékleti idősorokkal, 1901-2000. A világoskék szín jelzi a 0,9-nél kisebb korrelációs együtthatókat, a sötétebb kék a 0,9 és 0,95 közöttieket, a piros szín pedig a 0,95-öt elérőket. (Adatok forrása: www.met.hu)

A másik példában Budapest januári havi középhőmérsékleti idősorának kapcsolatát nézzük a többi hónapra vonatkozó havi középhőmérsékleti idősorokkal. Az előző példával ellentétben itt sokkal gyengébb kapcsolatokat kaptunk, s mindösszesen négy hónap esetén (február, március, június és november) találhatunk 95%-os szinten szignifikáns lineáris korrelációs együtthatót.

8.3. táblázat. A budapesti januári havi középhőmérsékleti idősor korrelációs együtthatói a többi hónap középhőmérsékleti idősoraival, 1901-2000. A lila kiemelés jelzi a 95%-os szinten szignifikáns korrelációs együtthatókat, melyek esetén a meghatározott próbastatisztika értéke abszolút értékben meghaladja az 1,984-et. Az autokorrelációs együttható értéke januárra értelemszerűen 1, és itt nem értelmezhető a próbastatisztika. (Adatok forrása: www.met.hu)