KURZUS: Statisztika II.

MODUL: III. modul: Korreláció- és regresszió-számítás

7. lecke Kétváltozós korreláció- és regresszió-számítás: Lineáris

Követelmények

Ön akkor sajátította el megfelelően a tananyagot, ha

  • tudja a korreláció és a regresszió jelentését,
  • tudja a korrelációs együttható által felvehető értékeket,
  • a felsorolásból ki tudja választani a regressziós paraméterek, a relatív hiba és a rugalmassági együttható jelentését,
  • a megadott adatokból ki tudja számolni a regressziós függvény paramétereit, a korrelációs együtthatót, a determinációs együtthatót, a relatív hibát, a rugalmassági együtthatót,
  • értelmezni tudja a kiszámolt értékeket,
  • becslés tud végezni a regressziós paraméterek ismeretében,
  • ki tudja számolni a regressziós paraméterek konfidencia intervallumát.
Tananyag
7.1. Kétváltozós korreláció-számítás

A mennyiségi ismérvek között meglévő kapcsolat szorosságát és irányát a korreláció-számítással állapíthatjuk meg.

Ha a mennyiségi ismérvek között nincs kapcsolat, azaz függetlenek egymástól, akkor a szorosság mérőszáma a korrelációs együttható (r) nullával egyenlő.

Ha egyértelmű kapcsolat van a két mennyiségi ismérv között, akkor a korrelációs együttható (r) értéke (-1;1) közé esik. Ha a korrelációs együttható pozitív, akkor a két ismérv közötti kapcsolat azt jelenti, hogy az egyik ismérv növekedése maga után vonja a másik ismérv növekedését. Negatív kapcsolat esetén az egyik ismérv növekedése a másik ismérv csökkenését okozza.

A mennyiségi ismérvek eloszlásainak speciális paramétere a kovariancia, amely az átlagtól való eltérések szorzatának számtani átlaga. Az együttes szóródás nagyságrendjét jellemzi, az előjele pedig kifejezi a kapcsolat irányát.

C= ( x i x ¯ )*( y i y ¯ ) n

A kovariancia felhasználásával kiszámítható a lineáris korrelációs együttható:

r= C σ x * σ y

ahol
C: a kovariancia,
σ x : az egyik változó szórása
σ y : a másik változó szórása

Ha a változók szórására nincs külön szükségünk, akkor a korrelációs együttható másképp is kiszámolható:

r= ( x i x ¯ )*( y i y ¯ ) ( x i x ¯ ) 2 *Σ ( y i y ¯ ) 2

Vagy:

r= x i * y i -n* x ¯ * y ¯ ( x i 2 -n* x ¯ 2 )Σ( y i 2 -n* y ¯ 2 ) = β 1 * σ x σ y

A korrelációs együttható négyzete a determinációs együttható, amely százalékban adunk meg, és azt fejezi ki, hogy az egyik ismérv hány százalékban befolyásolja a másik ismérv változását.

R= r 2

7.2. Kétváltozós regresszió-analízis

Ha két mennyiségi változó közötti függőségi viszonyt valamilyen matematikai képlettel írunk le, akkor regresszió-analízisről beszélünk.

Az ismérvek közötti függőségi viszonyok feltárásával, az összefüggésekben rejlő tendenciák matematikai függvényekkel történő leírásával a regresszióanalízis foglalkozik.

A gyakorlati elemző munkában a korreláció- és regresszió-számítást általában együtt, egymást kiegészítve alkalmazzák.

A regresszió-számítás a statisztikai modellezés egyik egyszerű eszköze, ám egyszerűsége ellenére szinte minden, korábban megismert módszertani elemet felhasznál.

A regresszió-számításkor általában meg szoktuk különböztetni a két- a többváltozós eseteket. A kétváltozós regresszió analíziskor két változó kapcsolatát vizsgáljuk, az x változó az egyik, ez a magyarázó változó, és az y-lal jelölt (eredményváltozó) változó a másik, amelynek alakulását x változó befolyásolja. A regresszió-számítás során feltételezzük, hogy az eredményváltozónk (y) sztochasztikus kapcsolatban áll a magyarázó változóval Y=f(x)

A regresszió típusának kiválasztásához először ábrázolni kell az adatokat, mivel az ismérvek közötti kapcsolat lényegének megismerésében fontos szerepet játszik a grafikus ábrázolás. Általában pontdiagramot készítünk.

Ezután meg kell határozni a regresszió típusát, ehhez azonban szükséges az adott terület szakmai ismerete is. Lineáris esetben az alábbi függvényt használjuk:

y= β 0 + β 1 x

A függvénytípus kiválasztásával azonban a regressziós függvény meghatározásának problémája még nincs megoldva. A végtelen sok egyenes közül azt az egyet keressük, amely az összefüggést a lehető legjobban leírja. A függvény paramétereit a legkisebb négyzetek módszere segítségével határozzuk meg, vagyis:

S= ( y i y i ) 2 minimum .

Azt a becslőfüggvényt keressük tehát, amelyik a mintabeli és a számított értékek közötti különbségek négyzetösszege minimális. Lineáris összefüggés esetén a függvényünk:

y= β 0 + β 1 x     vagy    y=a+b*x

Ezt behelyettesítve S-egyenletébe a következőt kapjuk:

S= ( y i β 0 β 1 x ) 2

A függvénynek ott van minimuma, ahol a két együttható szerinti parciális differenciahányadosa egyenlő nullával. Az egyenlet levezetéséből azt kapjuk, hogy:

β 1 = ( x i x ) *( y i y ) ( x i x ) 2 = x i * y i n * x ¯ * y x i 2 n* x 2 β 0 = y β 1 * x

A β 0 paraméter azt fejezi ki, hogy az x=0 helyen a függvény éppen ezt az értéket veszi fel, ha a nulla szerepel x lehetséges értékei között.

A β 1 paraméter geometriai értelemben az egyenes meredekségét meghatározó iránytangens, regressziós együtthatóként választ ad arra, hogy az x változó egységnyi változása átlagosan mekkora változást okoz az y változóban.

A kétváltozós kapcsolatok esetében megvizsgáljuk, hogy a becslőfüggvény mennyire közelítette meg a mintabeli tapasztalati értéket. Ezt fejezi ki az (- érték, azaz a reziduális szórás, amelyet a regressziós becslés abszolút hibája is egyben:

σ e = ( y i y i ' ) 2 n2 = e i 2 n2

Ami tulajdonképpen az xi pontban vett mintabeli yi értékek és az adott xi ponthoz tartozó becsült y'i értékek közötti eltérések négyzetösszegének a gyöke.

A gyakorlatban kiszámítjuk ennek relatív nagyságát is:

C V σ e = σ e y *100

A relatív hiba kifejezi, hogy a regressziós becslések értékei átlagosan hány százalékkal térnek el az eredményváltozó megfigyelt értékeitől. Általában jónak mondjuk a becslőfüggvény illeszkedését, ha: C V σ e <10-15%.

Az eredményváltozó relatív változásának fontos szerepe van a közgazdasági elemzésekben. A relatív változást fejezi ki a rugalmassági együttható:

E= dy dx * x 0 y 0

Az x-magyarázóváltozó adott értékének 1%-os növekedése átlagosan milyen változást eredményez az y-változó értékében. Ez az érték természetesen minden x-értékre kiszámítható:

E= β 1 * x i y i

7.3. A lineáris függvények paramétereinek konfidencia intervalluma

Általában a statisztikai elemzés során ritkán van lehetőség több mintavételre, ezért arra kell törekedni, hogy egy minta paraméterei fejezzék ki az alapsokasági paramétereket.

A regressziós paraméterek ( β 0 és β 1 ) maguk is valószínűségi változók, amelyeknek van várhatóértékük és standard hibájuk.

Az alapsokasági regressziós függvények paramétereinek standard hibája a következő:

σ β 0 = σ e * x i 2 n* ( x i x ) 2 σ β 1 = σ e ( x i x ) 2

Az intervallum meghatározására a t-próbafüggvényt alkalmazzuk, amelynek szabadságfoka: Szf= n-2.

A valószínűségi intervallum pedig:

β 0 = β 0 ± t 1 α 2 * σ β 0 β 1 = β 1 ± t 1 α 2 * σ β 1

7.4. A regressziós becslések, prognózisok

A regressziós függvény két ismérv közötti összefüggés tendenciáját írja le. Ez egy becslőfüggvény, ezért felhasználható a tényezőváltozó egy rögzített értékének becslésére, azaz az eredményváltozó átlagos színvonalát becsüljük meg, azaz egy tetszőleges x0-értéket behelyettesítve a regressziós függvény képletébe, megkapjuk a hozzá tartotó y 0 becsült értékét. Mivel y 0 becsült érték, ezért kiszámolhatjuk azt az intervallumot, amely a megadott szignifikancia szinten tartalmazni fogja a keresett értéket.

σ y 0 = σ e * 1 n + ( x 0 x ¯ ) 2 (x x ¯ ) 2

A konfidencia intervallum meghatározásához a t-eloszlás próbafüggvényét alkalmazzuk, így az intervallum:

( y 0 ± t 1 α 2 Szf * σ y 0 )

A becsléskor az is előfordulhat, hogy egy hiányzó y0-értéket kívánunk megbecsülni az x0-helyen, a magyarázóváltózónak a függvény értelmezési tartományába illeszkedő, konkrét értékeit helyettesítjük be (nem átlagosnak tekintett értékét). Ebben az esetben a standard hiba:

σ y 0 = σ e * 1 n + ( x 0 x ¯ ) 2 (x x ¯ ) 2 +1

A konfidencia intervallum meghatározásához ebben az esetben is a t-eloszlás próbafüggvényét alkalmazzuk, így az intervallum:

( y 0 ± t 1 α 2 Szf * σ y 0 )

7.5. A regressziós függvény eredményeinek hipotézisvizsgálata

A becsléskor elkövetett hibák alapvetően kétféle okra vezethetők vissza:

  • A regressziós paramétereket a mintából számítottuk, tehát becsült értékek, azaz szóródnak az elméleti érték körül. Ezt a szóródást az együtthatók standard hibája fejezi ki.
  • A hiba másik forrása a sztochasztikus kapcsolatban rejlik, mivel a becslés nem a tényleges y-értékeket, hanem azoknak csak az x-től függő részeit adja meg.

Ezért beszélhetünk a regressziós együtthatók hibájáról, amelyeket az előző alfejezetben 7.3.már tárgyaltunk.

7.5.1. A regressziós függvény együtthatóinak hipotézisvizsgálata

Az ellenőrzés gondolatmenete a következő. Feltételezzük, hogy valójában nincs korreláció, az elméleti paraméter ( β 1 ) nullával egyenlő, és a tapasztalati adatokból számított (b1) paraméter nullától való eltérését csak a véletlen okozza. A regressziós együttható tesztelése t-próbával történik.

H0: β 1 =0   illetve H1: β 1 0

A nullhipotézis helyességének ellenőrzését próbafüggvénnyel ellenőrizhetjük. Az ellenőrzés α szignifikancia szinten azt jelenti, hogy a | t |= | β 1 | σ β 1 t 1α/2 teljesülése esetén fogadjuk el ezen a szignifikancia szinten a nullhipotézist.

Konkrét esetben:

t 0 = β 1 σ β 1

A próbafüggvény nem más, mint a regressziós együttható becsült értékének és a hozzá tartozó standard hibának a hányadosa. A szabadságfok n-2. Ha a számított t-érték kisebb, mint a táblázatbeli t-érték, akkor a nullhipotézist fogadjuk el, ellenkező esetben pedig az alternatív hipotézist.

7.5.2. Variancianalízis alkalmazása a regresszió számításban

A regressziós együttható tesztelése mellett magának a regressziófüggvénynek a hipotézisellenőrzése is elvégezhető. Ez varianciaanalízissel történik. Ehhez az alábbi számításokat kell elvégezni (az eltérés négyzetösszegek számítását a II. Modulban már tanultuk):

SST= ( y i y ) 2 _ SSR= ( y i ' y ) 2 _ SSE= ( y i y i ' ) 2 SST=SSR+SSE

Különleges jelentősége van a reziduális négyzetösszegnek (SSE), mivel a megfigyelt értékeknek a regressziós függvény körüli szóródását fejezi ki.

Ha SSE=0, ez az jelenti, hogy a függő változó teljes varianciája megmagyarázható a tényezőváltozó segítségével. Minden megfigyelt yi érték a regressziós függvényen helyezkedik el. Egyéb tényezőknek nincs hatása az eredményváltozóra, vagyis az ismérvek között függvényszerű kapcsolat van.

Ha az SSE 0, akkor a két ismérv között sztochasztikus kapcsolat áll fenn. Minél nagyobb a reziduális négyzetösszeg értéke, annál nagyobb szerepet játszik a függő változó szóródásában.

A varianciatáblázat a következő:

A szórásnégyzet forrásaSS (SQ)DF(FG)MS(MQ)
Regresszió SSR= ( y i ' y ) 2 _ 1 ( y i ' y ) 2 _ 1
Hibatényező SSE= ( y i y i ' ) 2 n-2 ( y i y i ' ) 2 n2
Teljes SST= ( y i y ) 2 _ n-1-

H0: β 1 =0 illetve H1: β 1 0

A nullhipotézist F-próbával ellenőrizzük:

F 0 = SSR 1 SSE n2 = MSR MSE , ahol a számláló szabadságfoka szf1=1, a nevezőé pedig szf2=n-2. Ha számított F-érték kisebb, mint a táblázatbeli, akkor a nullhipotézist elfogadjuk, ellenkező esetben elvetjük.

Bemutató feladat

Egy 60 fős sokaságra a statisztika írásbeli dolgozatok eredményeit és a felkészülésre fordított idő nagyságát vizsgálva 13 elemű mintát vettek, az alábbi eredményekkel:

Idő (óra) x változóDolgozat eredménye (pont) y váltóx2x-xátlag(x-xátlag)2(y-yátlag)(y-yátlag)2(x-xátlag)*(y-yátlag)
 0400-636-28784168
 1501-525-1832490
 2484-416-2040080
 3529-39-1625648
 45816-24-1010020
 56625-11-242
 6703600240
 77449116366
 87264244168
 98281391419642
 10821004161419656
 119312152525625125
 129714463629841174
össz.78884650018203782819
átlag668      

Feladat: számítsuk ki a regressziós függvény paramétereit!
Először ábrázoljuk az adatokat, és illesszünk rá függvényt

β 1 = ( x i x ) *( y i y ) ( x i x ) 2 = 819 182 =4,5 β 0 = y β 1 * x =684,5*6=41 y ' =41+4,5x

β 1 : azok a hallgatók, akik 1 órával többet tanultak, átlagosan 4,5 ponttal jobb eredményt értek el.

β 0 : akik nem készültek a dolgozatra, azok átlagosan 41 pontos eredményre számíthatnak.

Ezután összehasonlítjuk a tényeleges és a regresszióval becsült adatokat.

Az y'-t úgy kapom meg, hogy az egyenletbe (y'=41+4,5x) rendre behelyettesítem az x-értékeit. Ezután minden eredeti y-ból kivonom a kiszámított y'-értékrit, majd az eredményt négyzetre emelem.

Idő (óra) x változóDolgozat eredménye (pont) y váltóy'y-y'(y-y')2
04041-11
15045,54,520,25
24850-24
35254,5-2,56,25
45859-11
56663,52,56,25
6706824
77472,51,52,25
87277-525
98281,50,50,25
108286-416
119390,52,56,25
12979524
Összesen  96,5

σ e = ( y i y i ' ) 2 n2 = 96,5 132 =2,96

C V σ e = σ e y *100= 2,96 68 *100=4,35%

A becslőfüggvény illeszkedése jónak mondható.

A lineáris paraméterek konfidencia intervalluma:

σ β 0 = ( y i y i ' ) 2 n2 * x i 2 n* ( x i x ) 2 =2,96* 650 2366 =1,55 σ β 1 = ( y i y i ' ) 2 n2 ( x i x ) 2 = 2,96 182 =0,22

t0,975(11)=2,20

β 0 =41 ±2,2*1,55,  β 1 =4,5 ±2,2*0,22

r= ( x i x ) *( y i y ) ( x i x ) 2 * ( y i y ) 2 = 819 182*3782 =0,987

R2=97,45 %

A tanulásra fordított idő 97,45%-ban meghatározza az elért pontszámot.

SST=3782
SSR=3685,5
SSE=96,5

A szórásnégyzet forrásaSS (SQ)DF(FG)MS(MQ)
Regresszió3685,513685,5
Hibatényező96,5118,77
Teljes378212-

F 0 = MSR MSE = 3685,5 8,77 =420,24

A táblázatbeli F-érték

F 11( 0,95 ) 1 =4,84

A H0 szerinti feltevést 5%-os szignifikancia szinten elvetjük. Megállapítható, hogy a β 1 paraméter értéke szignifikánsan különbözik nullától, vagyis van kapcsolat a két ismérv között.

Önellenőrző feladatok

Jelölje meg a helyes állítást!

1/a. A korrelációs együttható...
Az adatok közötti kapcsolat meglétét fejezi ki.
A két ismérv közötti kapcsolat szorosságát fejezi ki.
1/b. A kovariancia
Az adatok közötti kapcsolat irányát mutatja meg
Az adatok közötti kapcsolat szorosságát fejezi ki.
Az adatok közötti kapcsolat szorosságának mértékét fejezi ki.
1/c. A regresszió
Két ismérv közötti függőségi viszonyt fejez ki.
Két ismérv közötti kapcsolat szorosságát fejezi ki.
1/d. A korrelációs együttható értéke csak
-1 = r < 1 lehet
-1 < r = 1 lehet.
-1 r 1 lehet.
1/e. A regresszióanalízis során a kapott paraméterek értékeinek konfidencia intervallumát
A z-eloszlás próbafüggvényével határozzuk meg
A t-eloszlás próbafüggvényével határozzuk meg
Az F-eloszlás próbafüggvényével határozzuk meg
1/f. A β 1 paraméter
regressziós együtthatóként választ ad arra, hogy az x változó egységnyi változása átlagosan mekkora változást okoz az y változóban.
regressziós együtthatóként választ ad arra, hogy az x változó egységnyi változása mekkora változást okoz az y változóban.
regressziós együtthatóként választ ad arra, hogy az x változó egységnyi változása hányszoros változást okoz az y változóban.
1/g. A relatív hiba kifejezi,
hogy a regressziós becslések értékei átlagosan mennyivel térnek el az eredményváltozó megfigyelt értékeitől.
hogy a regressziós becslések értékei átlagosan hány százalékkal térnek el az eredményváltozó megfigyelt értékeitől.
1/h. A rugalmassági együttható kifejezi, hogy
az x-magyarázóváltozó adott értékének 1%-os növekedése átlagosan milyen változást eredményez az y-változó értékében.
az x-magyarázóváltozó adott értékének egységnyi növekedése átlagosan milyen változást eredményez az y-változó értékében.
1/i. Ha a reziduális négyzetösszeg egyenlő nullával,
akkor a függő változó teljes varianciája megmagyarázható a tényezőváltozó segítségéve.
akkor a két ismérv között sztochasztikus kapcsolat áll fenn.

2. Egy tőzsdén bejegyzett társaságokról az alábbi adatokat ismerjük:

Nettó árbevételAdózott eredmény
(milliárd forint)
11112,4
315,2
555,5
657,6
141,6
324,3
1059,0
827,8
13010,5
889,8
282,0
613,7
653,5
987,6
2/a. Számítsa ki a regressziós függvény paramétereit, írja be a mezőkbe a megfelelő értékeket! A számításokat 4 tizedesjegy pontossággal végezze el!

A β 0 -paraméter értéke:
A β 1 -paraméter értéke:

2/b Számítsa ki korrelációs együtthatót, a determinációs együtthatót, a regressziós becslés relatív hibáját! Írja be a mezőkbe a megfelelő értékeket A számításokat a korrelációs együttható esetében 4 tizedesjegy pontossággal, a többi értéknél 2 tizedesjegy pontossággal végezze el!

A korrelációs együttható értéke:
A determinációs együttható értéke: %

3. Jelölje meg a helyes választ!

3/c Mi a mértékegysége a lineáris korrelációs együtthatónak ( β 1 )?
Milliárd forint
%
Nincs
3/d. Egészítse ki a mondatokat a helyes értékkel!

Az a vállalat, amelynek árbevétele 1 milliárd Ft-tal több mint egy másik vállalatnak, vagy mint a vállalatok átlagos árbevétele, annak a dózott eredménye milliárd Ft-tal lesz több, mint az átlagos vállalati árbevétel.

A nettó árbevétel és az adózott eredmény között szoros pozitív kapcsolatot figyelhetünk meg, a nettó árbevétel és az adózott eredmény %-ban befolyásolja egymást.

4. 20 vállalkozás adatai alapján vizsgálták az egy főre jutó tárgyi eszközérték (millió Ft)(x) és az egy főre jutó üzemi eredmény (millió Ft) (y) kapcsolatát. A lineárisnak feltételezett kapcsolat elemzéséből az alábbi adatokat ismerjük:

  • Az egy főre jutó átlagos tárgy eszközérték: 212,1 millió Ft.
  • Az egy főre jutó átlagos üzemi eredmény: 50,6 millió Ft.
  • A ( x i x ¯ ) 2 =85909,8
  • A ( y i y ¯ ) 2 =2540,3
  • A ( x i x ¯ )*( y i y ¯ )=11330,8
4/a. Határozza meg a regressziós függvény paramétereit! Írja be a mezőkbe a megfelelő értékeket 3 tizedesjegy pontossággal!

A β 0 -paraméter értéke:
A β 1 -paraméter értéke:

4/b Számítsa ki korrelációs együtthatót, a determinációs együtthatót! A számításokat a korrelációs együttható esetében 4 tizedesjegy pontossággal, a többi értéknél 2 tizedesjegy pontossággal végezze el!

A korrelációs együttható értéke:
A determinációs együttható értéke: %

4/c Vizsgálja meg az üzemi eredmény tárgyi eszközérték szerinti rugalmasságát az átlagos szinten! A számítást 2 tizedesjegy pontossággal végezze el!

A rugalmassági együttható értéke:

5. Azonos gyártmányú elektromos gépek működési idejére és javításuk időszükségletére vonatkozóan az alábbi adatok állnak rendelkezésre:

SorszámMűködési idő (év)Javítási idő (óra)
1.642
2.222
3.975
4.1296
5.532
6.325
7.433
8.638
9.1191
10.861
11.117
12.751
13.431
14.335
15.547
16.965
17.224
18.644
19.329
20.1188
5/a. Határozza meg a regressziós függvény paramétereit 2 tizedesjegy pontossággal!

A β 0 -paraméter értéke:
A β 1 1-paraméter értéke:

5/b Határozza meg a regressziós függvény relatív hibáját! A számításokat 2 tizedesjegy pontossággal végezze el!

A relatív hiba: %

5/c. Becsülje meg az 50 órás javítási időt igénylő készülék működési idejét! A számításokat 1 tizedesjegy pontossággal végezze el!

Az 50 órás javítási időt igénylő készülék működési ideje: év.