KURZUS: Közlekedésstatisztika

MODUL: V. modul: Ismérvek közötti kapcsolatok

14. lecke: Korreláció- és Regresszió analízis

Követelmények

Ön akkor sajátította el megfelelően a tananyagot, ha

  • tudja a korreláció és a regresszió jelentését;
  • tudja a korrelációs együttható által felvehető értékeket;
  • a felsorolásból ki tudja választani a regressziós paraméterek, a relatív hiba és a rugalmassági együttható jelentését;
  • a megadott adatokból ki tudja számolni a regressziós függvény paramétereit, a korrelációs együtthatót, a determinációs együtthatót, a relatív hibát, a rugalmassági együtthatót;
  • értelmezni tudja a kiszámolt értékeket;
  • tudja a hatványkitevős és az exponenciális regresszió jelentését;
  • tudja a nem lineáris regresszió szorosságának mérésére szolgáló mutatót;
  • az adatok alapján ki tudja számolni a hatványkitevős és az exponenciális regressziót;
  • az adatok alapján el tudja dönteni hogy milyen típusú regressziós függvény illeszkedik a legjobban.
Tananyag
14.1. Kétváltozós korreláció-számítás

A mennyiségi ismérvek között meglévő kapcsolat szorosságát és irányát a korreláció-számítással állapíthatjuk meg.

Ha a mennyiségi ismérvek között nincs kapcsolat, azaz függetlenek egymástól, akkor a szorosság mérőszáma a korrelációs együttható (r) nullával egyenlő.

Ha egyértelmű kapcsolat van a két mennyiségi ismérv között, akkor a korrelációs együttható (r) értéke (-1;1) közé esik. Ha a korrelációs együttható pozitív, akkor a két ismérv közötti kapcsolat azt jelenti, hogy az egyik ismérv növekedése maga után vonja a másik ismérv növekedését. Negatív kapcsolat esetén az egyik ismérv növekedése a másik ismérv csökkenését okozza.

A mennyiségi ismérvek eloszlásainak speciális paramétere a kovariancia, amely az átlagtól való eltérések szorzatának számtani átlaga. Az együttes szóródás nagyságrendjét jellemzi, az előjele pedig kifejezi a kapcsolat irányát.

C= ( x i x ¯ )*( y i y ¯ ) n

A kovariancia felhasználásával kiszámítható a lineáris korrelációs együttható:

r= C σ x * σ y

ahol:
C: a kovariancia,
σ x : az egyik változó szórása
σ y : a másik változó szórása

Ha a változók szórására nincs külön szükségünk, akkor a korrelációs együttható másképp is kiszámolható:

r= ( x i x ¯ )*( y i y ¯ ) ( x i x ¯ ) 2 *Σ ( y i y ¯ ) 2

Vagy:

r= x i * y i n* x ¯ * y ¯ ( x i 2 n* x ¯ 2 )Σ( y i 2 n* y ¯ 2 ) = β 1 * σ x σ y

A korrelációs együttható négyzete a determinációs együttható, amely százalékban adunk meg, és azt fejezi ki, hogy az egyik ismérv hány százalékban befolyásolja a másik ismérv változását.

R= r 2

14.2. Kétváltozós lineáris regresszió-analízis

Ha két mennyiségi változó közötti függőségi viszonyt valamilyen matematikai képlettel írunk le, akkor regresszió-analízisről beszélünk.

Az ismérvek közötti függőségi viszonyok feltárásával, az összefüggésekben rejlő tendenciák matematikai függvényekkel történő leírásával a regresszióanalízis foglalkozik.

A gyakorlati elemző munkában a korreláció- és regresszió-számítást általában együtt, egymást kiegészítve alkalmazzák.

A regresszió-számítás a statisztikai modellezés egyik egyszerű eszköze, ám egyszerűsége ellenére szinte minden, korábban megismert módszertani elemet felhasznál.

A regresszió-számításkor általában meg szoktuk különböztetni a két- és a többváltozós eseteket. A kétváltozós regresszióanalíziskor két változó kapcsolatát vizsgáljuk, az x változó az egyik, ez a magyarázó változó, és az y-nal jelölt (eredményváltozó) változó a másik, amelynek alakulását x változó befolyásolja. A regresszió-számítás során feltételezzük, hogy az eredményváltozónk (y) sztochasztikus kapcsolatban áll a magyarázó változóval Y=f(x)

A regresszió típusának kiválasztásához először ábrázolni kell az adatokat, mivel az ismérvek közötti kapcsolat lényegének megismerésében fontos szerepet játszik a grafikus ábrázolás. Általában pontdiagramot készítünk.

Ezután meg kell határozni a regresszió típusát, ehhez azonban szükséges az adott terület szakmai ismerete is. Lineáris esetben az alábbi függvényt használjuk:

A függvénytípus kiválasztásával azonban a regressziós függvény meghatározásának problémája még nincs megoldva. A végtelen sok egyenes közül azt az egyet keressük, amely az összefüggést a lehető legjobban leírja. A függvény paramétereit a legkisebb négyzetek módszere segítségével határozzuk meg, vagyis:

S= ( y i y i ) 2 minimum .

Azt a becslőfüggvényt keressük tehát, amelyik a mintabeli és a számított értékek közötti különbségek négyzetösszege minimális. Lineáris összefüggés esetén a függvényünk:

y= β 0 + β 1 x vagy y=a+by

Ezt behelyettesítve S-egyenletébe a következőt kapjuk:

S= ( y i β 0 β 1 x ) 2

A függvénynek ott van minimuma, ahol a két együttható szerinti parciális differenciahányadosa egyenlő nullával. Az egyenlet levezetéséből azt kapjuk, hogy:

β 1 = ( x i x ) *( y i y ) ( x i x ) 2 = x i * y i n * x ¯ * y x i 2 n* x 2 β 0 = y β 1 * x

A β 1 paraméter azt fejezi ki, hogy az x=0 helyen a függvény éppen ezt az értéket veszi fel, ha a nulla szerepel x lehetséges értékei között.

A β 1 paraméter geometriai értelemben az egyenes meredekségét meghatározó iránytangens, regressziós együtthatóként választ ad arra, hogy az x változó egységnyi változása átlagosan mekkora változást okoz az y változóban.

A kétváltozós kapcsolatok esetében megvizsgáljuk, hogy a becslőfüggvény mennyire közelítette meg a mintabeli tapasztalati értéket. Ezt fejezi ki az (- érték, azaz a reziduális szórás, amelyet a regressziós becslés abszolút hibája is egyben:

σ e = ( y i y i ' ) 2 n2 = e i 2 n2

Ami tulajdonképpen az xi pontban vett mintabeli yi értékek és az adott xi ponthoz tartozó becsült y'i értékek közötti eltérések négyzetösszegének a gyöke.

A gyakorlatban kiszámítjuk ennek relatív nagyságát is:

C V σ e = σ e y *100

A relatív hiba kifejezi, hogy a regressziós becslések értékei átlagosan hány százalékkal térnek el az eredményváltozó megfigyelt értékeitől. Általában jónak mondjuk a becslőfüggvény illeszkedését, ha: C V σ e <10-15%.

Az eredményváltozó relatív változásának fontos szerepe van a közgazdasági elemzésekben. A relatív változást fejezi ki a rugalmassági együttható:

E= dy dx * x 0 y 0

Az x magyarázóváltozó adott értékének 1%-os növekedése átlagosan milyen változást eredményez az y változó értékében. Ez az érték természetesen minden x értékre kiszámítható:

E= β 1 * x i y i

Bemutató feladat

Egy 60 fős sokaságra a statisztika írásbeli dolgozatok eredményeit és a felkészülésre fordított idő nagyságát vizsgálva 13 elemű mintát vettek, az alábbi eredményekkel:

Idő (óra) x változóDolgozat eredménye (pont) y váltóx2x-xátlag(x-xátlag)2(y-yátlag)(y-yátlag)2(x-xátlag)*(y-yátlag)
 0400-636-28784168
 1501-525-1832490
 2484-416-2040080
 3529-39-1625648
 45816-24-1010020
 56625-11-242
 6703600240
 77449116366
 87264244168
 98281391419642
 10821004161419656
 119312152525625125
 129714463629841174
össz.78884650018203782819
átlag668      

Feladat: számítsuk ki a regressziós függvény paramétereit!

Először ábrázoljuk az adatokat, és illesszünk rá függvényt

β 1 = ( x i x ) *( y i y ) ( x i x ) 2 = 819 182 =4,5 β 0 = y β 1 * x =684,5*6=41 y ' =41+4,5x

β 1 : azok a hallgatók, akik 1 órával többet tanultak, átlagosan 4,5 ponttal jobb eredményt értek el.

β 0 : akik nem készültek a dolgozatra, azok átlagosan 41 pontos eredményre számíthatnak.

Ezután összehasonlítjuk a tényeleges és a regresszióval becsült adatokat.

Az y'-t úgy kapom meg, hogy az egyenletbe (y'=41+4,5x) rendre behelyettesítem az x értékeit. Ezután minden eredeti y-ból kivonom a kiszámított y' értékeit, majd az eredményt négyzetre emelem.

Idő (óra) x változóDolgozat eredménye (pont) y váltóy'y-y'(y-y')2
04041-11
15045,54,520,25
24850-24
35254,5-2,56,25
45859-11
56663,52,56,25
6706824
77472,51,52,25
87277-525
98281,50,50,25
108286-416
119390,52,56,25
12979524
Összesen  96,5

σ e = ( y i y i ' ) 2 n2 = 96,5 132 =2,96

C V σ e = σ e y *100= 2,96 68 *100=4,35%

A becslőfüggvény illeszkedése jónak mondható.

r= ( x i x ) *( y i y ) ( x i x ) 2 * ( y i y ) 2 = 819 182*3782 =0,987

R2=97,45%

A tanulásra fordított idő 97,45%-ban meghatározza az elért pontszámot.

14.3. Hatványkitevős regressziós függvény

Két mennyiségi ismérv közötti kapcsolat leírására sok esetben nem alkalmas a lineáris függvény. Ha az x változó y változóra gyakorolt hatásának mértéke függ az x változó nagyságától, akkor a lineáris regresszió nem alkalmas az adatok közötti kapcsolat elemzésére.

Ha a független változó szorzatos növekedésével a függő változó is szorzatosan változik, akkor regressziós függvény az alábbi:

y= β 0 x β 1

Olyan esetekben alkalmazzuk, amikor az x és y változók logaritmusai között van lineáris összefüggés.

β 1 regressziós együttható azt fejezi ki, hogy az x magyarázó változó egységnyi relatív (1%-os) változása mekkora relatív (hány százalékos) változást idéz elő az eseményváltozóban.

Megoldásához linearizálni kell a regressziós függvényt:

lgy=lg β 0 + β 1 lgx

Látható, hogy az x és az y változók logaritmusa között lineáris a kapcsolat.

β 1 = ( lg x i lgx ¯ ) *( lg y i lgy ¯ ) ( lg x i lgx ¯ ) 2 lg β 0 = lgy ¯ β 1 * lgx ¯

Vezessünk be új ismeretleneket:

lgy=Y ; lgx=X ; lg β 0 =B

Így a függvényünk az alábbi:

Y=B+ β 1 X

A regressziós együtthatók így már a tanultak szerint számíthatóak:

β 1 = ( X i X ) *( Y i Y ) ( X i X ) 2 B= Y β 1 * X β 0 = 10 B o

A paraméterek jelentése:

  • A β 0 : ha az x=1része a függvény értelmezési tartományának, akkor van jelentése, azaz az x=1 helyen felvett regressziós érték.
  • A β 1 : a magyarázóváltozó 1%-os változása az eredményváltozásban éppen A β 1 %-os változást okoz. A β 1 együttható elaszticitási (rugalmassági) együttható is egyben, mivel megmutatja, hogy az 1%-kal nagyobb x értékhez hány százalékkal nagyobb vagy kisebb y érték tartozik.

A kapcsolat szorosságát a korrelációs index fejezi ki:

I= 1- e i 2 ( y i - y ¯ ) 2 e i 2 = ( y i - y i ) 2

A korrelációs index értéke: 0I1

A korrelációs index négyzetét százalékban fejezzük ki.

Bemutató feladat

Nézzük meg, hogy mennyire van hatással a gyökér súlya a gyökér felületére cukorrépa esetében.

Először az eredeti adatok logaritmusát kell meghatározni. A továbbiakban ezekkel az értékekkel dolgozunk, azaz X és Y értékei kerülnek a képletekbe.

gyökér súlya x változógyökér felülete y váltólgx=Xlgy=YX2X-Xátlag(X-Xátlag)2(Y-Yátlag)(Y-Yátlag)2(X-Xátlag)*(Y-Yátlag)
 2687044724,4292683,65050219,618411,4612682,1353031,2225021,4945111,786402
 1566041524,1947923,61825717,596281,2267921,5050181,1902571,4167131,460198
 618017283,7909883,23754414,371590,8229880,677310,8095440,6553610,666245
 29009043,4623982,95616811,98820,4943980,2444290,5281680,2789620,261125
 15004723,1760912,67394210,087560,2080910,0433020,2459420,0604870,051178
 6502602,8129132,4149737,912482-0,155090,024052-0,013030,000170,00202
 280482,4471581,6812415,988582-0,520840,271276-0,746760,5576490,388943
 130392,1139431,5910654,468756-0,854060,729413-0,836940,7004610,71479
 60241,7781511,3802113,161822-1,189851,41574-1,047791,0978611,24671
 30121,4771211,0791812,181887-1,490882,222719-1,348821,8193122,010925
össz.542601211129,6828224,2830897,375570,0028249,2685630,0030858,0814868,588538
átlag54261211,12,9682822,428308      

β 1 = ( X i X ) *( Y i Y ) ( X i X ) 2 = 8,5885 9,2686 =0,9266 B 0 = Y β 1 * X =2,42830,9266*2,9683=0,3222 β 0 = 10 0,3222 =0,4762 y =0,4762* x 0,9266

14.4. Exponenciális regressziós függvény

Ha az adatok közötti összefüggést a: y = β 0 * β 1 x

Függvénnyel írható le, akkor exponenciális regresszióról beszélünk. Olyan esetekben alkalmazzuk, ha az y változó növekedése arányos az adott helyen felvett x változó értékével. Az exponenciális függvények esetében is igaz, hogy lineáris összefüggés van az eredményváltozó logaritmusa és a magyarázóváltozó között. Hasonlóan a hatványkitevős regresszióhoz, ebben az esetben is visszavezetjük lineáris regresszióra:

lg y =lg β 0 +x*lg β 1 Y= B 0 + B 1 *x

B 1 = ( x i x ) *( Y i Y ) ( x i x ) 2 β 1 = 10 B 1 B 0 = Y B 1 * x β 0 = 10 B 0

A paraméterek jelentése:

A β 1 regressziós paraméter arra ad választ, hogy az x változó egységnyi növekedése hányszorosára változtatja az y változó értékét.

A kapcsolat szorosságát a korrelációs index fejezi ki:

I= 1- e i 2 ( y i - y ¯ ) 2 e i 2 = ( y i - y i ) 2

A korrelációs index értéke: 0I1

14.5. Választás a különböző regressziós egyenlet-típusok közül

Ugyanarra az adatsorra kiszámolva mindhárom regressziós függvényt, felvetődik a kérdés, hogy melyik jellemzi legjobban a változók kapcsolatát. A függvények kiválasztáshoz az egyenletek illeszkedési módszerét, azaz a legkisebb eltérések-négyzetét használjuk. Az az egyenlet illeszkedik legjobban az adatokra, ahol az ( y i y i ) 2 és az ( x i x i ) 2 is a legkisebb, illetve ahol a kapcsolat szorosságát kifejező mutató a legnagyobb.

Önellenőrző feladatok

1. Jelölje meg a helyes állítást!

1/a. A regresszió...
két ismérv közötti függőségi viszonyt fejez ki.
két ismérv közötti kapcsolat szorosságát fejezi ki.
1/b. A korrelációs együttható értéke csak...
-1 = r < 1 lehet
-1 < r = 1 lehet.
-1 r 1 lehet.
1/c. Ha a magyarázóváltozó szorzatos növekedésével a függőváltozó is szorzatosan nő, akkora kapcsolat...
lineáris függvénnyel jellemezhető.
hatványkitevős függvénnyel jellemezhető.
exponenciális függvénnyel jellemezhető.
1/d. Ha az eredményváltozó növekedése arányos az adott helyen felvett értékével, akkor a kapcsolat...
lineáris függvénnyel jellemezhető.
hatványkitevős függvénnyel jellemezhető
exponenciális függvénnyel jellemezhető.

2. Egy tőzsdén bejegyzett társaságokról az alábbi adatokat ismerjük:

Nettó árbevételAdózott eredmény
(milliárd forint)
11112,4
315,2
555,5
657,6
141,6
324,3
1059,0
827,8
13010,5
889,8
282,0
613,7
653,5
987,6
2/a. Számítsa ki a regressziós függvény paramétereit, írja be a mezőkbe a megfelelő értékeket! A számításokat 4 tizedesjegy pontossággal végezze el!

A β 0 -paraméter értéke:
A β 1 -paraméter értéke:

2/b Számítsa ki korrelációs együtthatót, a determinációs együtthatót, a regressziós becslés relatív hibáját! Írja be a mezőkbe a megfelelő értékeket A számításokat a korrelációs együttható esetében 4 tizedesjegy pontossággal, a többi értéknél 2 tizedesjegy pontossággal végezze el!

A korrelációs együttható értéke:
A determinációs együttható értéke: %

3. 20 vállalkozás adatai alapján vizsgálták az egy főre jutó tárgyi eszközérték (millió Ft)(x) és az egy főre jutó üzemi eredmény (millió Ft) (y) kapcsolatát. A lineárisnak feltételezett kapcsolat elemzéséből az alábbi adatokat ismerjük:

  • Az egy főre jutó átlagos tárgy eszközérték: 212,1 millió Ft.
  • Az egy főre jutó átlagos üzemi eredmény: 50,6 millió Ft.
  • A ( x i x ¯ ) 2 =85909,8
  • A ( y i y ¯ ) 2 =2540,3
  • A ( x i x ¯ )*( y i y ¯ )=11330,8
3/a. Határozza meg a regressziós függvény paramétereit! Írja be a mezőkbe a megfelelő értékeket 3 tizedesjegy pontossággal!

A β 0 -paraméter értéke:
A β 1 -paraméter értéke:

3/b Számítsa ki korrelációs együtthatót, a determinációs együtthatót! A számításokat a korrelációs együttható esetében 4 tizedesjegy pontossággal, a többi értéknél 2 tizedesjegy pontossággal végezze el!

A korrelációs együttható értéke:
A determinációs együttható értéke: %

3/c Vizsgálja meg az üzemi eredmény tárgyi eszközérték szerinti rugalmasságát az átlagos szinten! A számítást 2 tizedesjegy pontossággal végezze el!

A rugalmassági együttható értéke:

4. 30 véletlenszerűen kiválasztott négytagú aktív keresős háztartás adatai alapján vizsgálták a jövedelem és az üdülésre fordított kiadás nagyságát.

A regresszió számításból az alábbi információk állnak rendelkezésre:

  • lg x i =77,1873
  • lg y i =22,2639
  • ( lg x i lgx ¯ ) *( lg y i lgy ¯ ) =3,4003
  • ( lg x i lgx ¯ ) 2 =2,0633
4/a. Határozza meg a regressziós függvény paramétereit! Írja be a mezőkbe a megfelelő értékeket 4 tizedesjegy pontossággal!

A β 0 -paraméter értéke:
A β 1 -paraméter értéke:

5. Egy zárthelyi dolgozat (maximum 50 pontot lehetett elérni) után felmérést készítettek a hallgatók körében, ki hány órát töltött tanulással. A felmérés során 10 hallgató tanulással töltött ideje és a vizsgán elért pontszámok között különböző regressziós függvények segítségével próbálták megállapítani a kapcsolt meglétét.

A regresszió számításból az alábbi információk állnak rendelkezésre:

lg x i =8,279
lg y i =13,638
( lg x i lgx ¯ ) *( lg y i lgy ¯ ) =1,1047
( lg x i lgx ¯ ) 2 =2,0458
( lg y i lgy ¯ ) 2 =0,6654
( x i )=105
( y i )=271
( x i x ¯ ) 2 =716,5
( y i y ¯ ) 2 =1907
( x i x ¯ )*( y i y ¯ )=1107,5
( x i x ¯ ) *( lg y i lgy ¯ ) =19,483
e exp. 2 =442,02    e hatv. 2 =139,36    e lin. 2 =195,03

5/a. Határozza meg az exponenciális regressziós függvény paramétereit és a korrelációs indexet! Írja be a mezőkbe a megfelelő értékeket 3 tizedesjegy pontossággal!

A β 0 -paraméter értéke:
A β 1 -paraméter értéke:
A korrelációs index:

5/b. Határozza meg a hatványkitevős regressziós függvény paramétereit és értelmezze azokat! Írja be a mezőkbe a megfelelő értékeket 2 tizedesjegy pontossággal!

A β 0 -paraméter értéke:
A β 1 -paraméter értéke:
A korrelációs index:

5/c. Egészítse ki a mondatot a megfelelőszóval!
"A tanulásra fordított idő és az elért pontszám kapcsolatát a legjobban a ... regresszióval lehet kifejezni."
hatványkitevős
exponenciális.