KURZUS: Közlekedésstatisztika
MODUL: V. modul: Ismérvek közötti kapcsolatok
14. lecke: Korreláció- és Regresszió analízis
Követelmények | ||
Ön akkor sajátította el megfelelően a tananyagot, ha | ||
| ||
Tananyag | ||
14.1. Kétváltozós korreláció-számítás | ||
A mennyiségi ismérvek között meglévő kapcsolat szorosságát és irányát a korreláció-számítással állapíthatjuk meg. | ||
Ha a mennyiségi ismérvek között nincs kapcsolat, azaz függetlenek egymástól, akkor a szorosság mérőszáma a korrelációs együttható (r) nullával egyenlő. | ||
Ha egyértelmű kapcsolat van a két mennyiségi ismérv között, akkor a korrelációs együttható (r) értéke (-1;1) közé esik. Ha a korrelációs együttható pozitív, akkor a két ismérv közötti kapcsolat azt jelenti, hogy az egyik ismérv növekedése maga után vonja a másik ismérv növekedését. Negatív kapcsolat esetén az egyik ismérv növekedése a másik ismérv csökkenését okozza. | ||
A mennyiségi ismérvek eloszlásainak speciális paramétere a kovariancia, amely az átlagtól való eltérések szorzatának számtani átlaga. Az együttes szóródás nagyságrendjét jellemzi, az előjele pedig kifejezi a kapcsolat irányát. | ||
A kovariancia felhasználásával kiszámítható a lineáris korrelációs együttható: | ||
ahol: | ||
Ha a változók szórására nincs külön szükségünk, akkor a korrelációs együttható másképp is kiszámolható: | ||
Vagy: | ||
A korrelációs együttható négyzete a determinációs együttható, amely százalékban adunk meg, és azt fejezi ki, hogy az egyik ismérv hány százalékban befolyásolja a másik ismérv változását. | ||
14.2. Kétváltozós lineáris regresszió-analízis | ||
Ha két mennyiségi változó közötti függőségi viszonyt valamilyen matematikai képlettel írunk le, akkor regresszió-analízisről beszélünk. | ||
Az ismérvek közötti függőségi viszonyok feltárásával, az összefüggésekben rejlő tendenciák matematikai függvényekkel történő leírásával a regresszióanalízis foglalkozik. | ||
A gyakorlati elemző munkában a korreláció- és regresszió-számítást általában együtt, egymást kiegészítve alkalmazzák. | ||
A regresszió-számítás a statisztikai modellezés egyik egyszerű eszköze, ám egyszerűsége ellenére szinte minden, korábban megismert módszertani elemet felhasznál. | ||
A regresszió-számításkor általában meg szoktuk különböztetni a két- és a többváltozós eseteket. A kétváltozós regresszióanalíziskor két változó kapcsolatát vizsgáljuk, az x változó az egyik, ez a magyarázó változó, és az y-nal jelölt (eredményváltozó) változó a másik, amelynek alakulását x változó befolyásolja. A regresszió-számítás során feltételezzük, hogy az eredményváltozónk (y) sztochasztikus kapcsolatban áll a magyarázó változóval Y=f(x) | ||
A regresszió típusának kiválasztásához először ábrázolni kell az adatokat, mivel az ismérvek közötti kapcsolat lényegének megismerésében fontos szerepet játszik a grafikus ábrázolás. Általában pontdiagramot készítünk. | ||
Ezután meg kell határozni a regresszió típusát, ehhez azonban szükséges az adott terület szakmai ismerete is. Lineáris esetben az alábbi függvényt használjuk: | ||
A függvénytípus kiválasztásával azonban a regressziós függvény meghatározásának problémája még nincs megoldva. A végtelen sok egyenes közül azt az egyet keressük, amely az összefüggést a lehető legjobban leírja. A függvény paramétereit a legkisebb négyzetek módszere segítségével határozzuk meg, vagyis: | ||
. | ||
Azt a becslőfüggvényt keressük tehát, amelyik a mintabeli és a számított értékek közötti különbségek négyzetösszege minimális. Lineáris összefüggés esetén a függvényünk: | ||
vagy | ||
Ezt behelyettesítve S-egyenletébe a következőt kapjuk: | ||
A függvénynek ott van minimuma, ahol a két együttható szerinti parciális differenciahányadosa egyenlő nullával. Az egyenlet levezetéséből azt kapjuk, hogy: | ||
A paraméter azt fejezi ki, hogy az x=0 helyen a függvény éppen ezt az értéket veszi fel, ha a nulla szerepel x lehetséges értékei között. | ||
A paraméter geometriai értelemben az egyenes meredekségét meghatározó iránytangens, regressziós együtthatóként választ ad arra, hogy az x változó egységnyi változása átlagosan mekkora változást okoz az y változóban. | ||
A kétváltozós kapcsolatok esetében megvizsgáljuk, hogy a becslőfüggvény mennyire közelítette meg a mintabeli tapasztalati értéket. Ezt fejezi ki az (- érték, azaz a reziduális szórás, amelyet a regressziós becslés abszolút hibája is egyben: | ||
Ami tulajdonképpen az xi pontban vett mintabeli yi értékek és az adott xi ponthoz tartozó becsült y'i értékek közötti eltérések négyzetösszegének a gyöke. | ||
A gyakorlatban kiszámítjuk ennek relatív nagyságát is: | ||
A relatív hiba kifejezi, hogy a regressziós becslések értékei átlagosan hány százalékkal térnek el az eredményváltozó megfigyelt értékeitől. Általában jónak mondjuk a becslőfüggvény illeszkedését, ha: <10-15%. | ||
Az eredményváltozó relatív változásának fontos szerepe van a közgazdasági elemzésekben. A relatív változást fejezi ki a rugalmassági együttható: | ||
Az x magyarázóváltozó adott értékének 1%-os növekedése átlagosan milyen változást eredményez az y változó értékében. Ez az érték természetesen minden x értékre kiszámítható: | ||
Bemutató feladat | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Egy 60 fős sokaságra a statisztika írásbeli dolgozatok eredményeit és a felkészülésre fordított idő nagyságát vizsgálva 13 elemű mintát vettek, az alábbi eredményekkel: | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Feladat: számítsuk ki a regressziós függvény paramétereit! | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Először ábrázoljuk az adatokat, és illesszünk rá függvényt | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
: azok a hallgatók, akik 1 órával többet tanultak, átlagosan 4,5 ponttal jobb eredményt értek el. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
: akik nem készültek a dolgozatra, azok átlagosan 41 pontos eredményre számíthatnak. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Ezután összehasonlítjuk a tényeleges és a regresszióval becsült adatokat. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Az y'-t úgy kapom meg, hogy az egyenletbe (y'=41+4,5x) rendre behelyettesítem az x értékeit. Ezután minden eredeti y-ból kivonom a kiszámított y' értékeit, majd az eredményt négyzetre emelem. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
A becslőfüggvény illeszkedése jónak mondható. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
R2=97,45% | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
A tanulásra fordított idő 97,45%-ban meghatározza az elért pontszámot. |
14.3. Hatványkitevős regressziós függvény | ||
Két mennyiségi ismérv közötti kapcsolat leírására sok esetben nem alkalmas a lineáris függvény. Ha az x változó y változóra gyakorolt hatásának mértéke függ az x változó nagyságától, akkor a lineáris regresszió nem alkalmas az adatok közötti kapcsolat elemzésére. | ||
Ha a független változó szorzatos növekedésével a függő változó is szorzatosan változik, akkor regressziós függvény az alábbi: | ||
Olyan esetekben alkalmazzuk, amikor az x és y változók logaritmusai között van lineáris összefüggés. | ||
regressziós együttható azt fejezi ki, hogy az x magyarázó változó egységnyi relatív (1%-os) változása mekkora relatív (hány százalékos) változást idéz elő az eseményváltozóban. | ||
Megoldásához linearizálni kell a regressziós függvényt: | ||
Látható, hogy az x és az y változók logaritmusa között lineáris a kapcsolat. | ||
Vezessünk be új ismeretleneket: | ||
; ; | ||
Így a függvényünk az alábbi: | ||
A regressziós együtthatók így már a tanultak szerint számíthatóak: | ||
A paraméterek jelentése: | ||
| ||
A kapcsolat szorosságát a korrelációs index fejezi ki: | ||
A korrelációs index értéke: | ||
A korrelációs index négyzetét százalékban fejezzük ki. |
Bemutató feladat | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Nézzük meg, hogy mennyire van hatással a gyökér súlya a gyökér felületére cukorrépa esetében. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Először az eredeti adatok logaritmusát kell meghatározni. A továbbiakban ezekkel az értékekkel dolgozunk, azaz X és Y értékei kerülnek a képletekbe. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
14.4. Exponenciális regressziós függvény | ||
Ha az adatok közötti összefüggést a: | ||
Függvénnyel írható le, akkor exponenciális regresszióról beszélünk. Olyan esetekben alkalmazzuk, ha az y változó növekedése arányos az adott helyen felvett x változó értékével. Az exponenciális függvények esetében is igaz, hogy lineáris összefüggés van az eredményváltozó logaritmusa és a magyarázóváltozó között. Hasonlóan a hatványkitevős regresszióhoz, ebben az esetben is visszavezetjük lineáris regresszióra: | ||
A paraméterek jelentése: | ||
A regressziós paraméter arra ad választ, hogy az x változó egységnyi növekedése hányszorosára változtatja az y változó értékét. | ||
A kapcsolat szorosságát a korrelációs index fejezi ki: | ||
A korrelációs index értéke: | ||
14.5. Választás a különböző regressziós egyenlet-típusok közül | ||
Ugyanarra az adatsorra kiszámolva mindhárom regressziós függvényt, felvetődik a kérdés, hogy melyik jellemzi legjobban a változók kapcsolatát. A függvények kiválasztáshoz az egyenletek illeszkedési módszerét, azaz a legkisebb eltérések-négyzetét használjuk. Az az egyenlet illeszkedik legjobban az adatokra, ahol az és az is a legkisebb, illetve ahol a kapcsolat szorosságát kifejező mutató a legnagyobb. |
Önellenőrző feladatok | |||||||||||||||||||||||||||||||||
1. Jelölje meg a helyes állítást! | |||||||||||||||||||||||||||||||||
1/a. A regresszió...
![]() | |||||||||||||||||||||||||||||||||
1/b. A korrelációs együttható értéke csak...
![]() | |||||||||||||||||||||||||||||||||
1/c. Ha a magyarázóváltozó szorzatos növekedésével a függőváltozó is szorzatosan nő, akkora kapcsolat...
![]() | |||||||||||||||||||||||||||||||||
1/d. Ha az eredményváltozó növekedése arányos az adott helyen felvett értékével, akkor a kapcsolat...
![]() | |||||||||||||||||||||||||||||||||
2. Egy tőzsdén bejegyzett társaságokról az alábbi adatokat ismerjük: | |||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||
2/a. Számítsa ki a regressziós függvény paramétereit, írja be a mezőkbe a megfelelő értékeket! A számításokat 4 tizedesjegy pontossággal végezze el! A -paraméter értéke: ![]() | |||||||||||||||||||||||||||||||||
2/b Számítsa ki korrelációs együtthatót, a determinációs együtthatót, a regressziós becslés relatív hibáját! Írja be a mezőkbe a megfelelő értékeket A számításokat a korrelációs együttható esetében 4 tizedesjegy pontossággal, a többi értéknél 2 tizedesjegy pontossággal végezze el! A korrelációs együttható értéke: ![]() | |||||||||||||||||||||||||||||||||
3. 20 vállalkozás adatai alapján vizsgálták az egy főre jutó tárgyi eszközérték (millió Ft)(x) és az egy főre jutó üzemi eredmény (millió Ft) (y) kapcsolatát. A lineárisnak feltételezett kapcsolat elemzéséből az alábbi adatokat ismerjük: | |||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||
3/a. Határozza meg a regressziós függvény paramétereit! Írja be a mezőkbe a megfelelő értékeket 3 tizedesjegy pontossággal! A -paraméter értéke: ![]() | |||||||||||||||||||||||||||||||||
3/b Számítsa ki korrelációs együtthatót, a determinációs együtthatót! A számításokat a korrelációs együttható esetében 4 tizedesjegy pontossággal, a többi értéknél 2 tizedesjegy pontossággal végezze el! A korrelációs együttható értéke: ![]() | |||||||||||||||||||||||||||||||||
3/c Vizsgálja meg az üzemi eredmény tárgyi eszközérték szerinti rugalmasságát az átlagos szinten! A számítást 2 tizedesjegy pontossággal végezze el! A rugalmassági együttható értéke: ![]() | |||||||||||||||||||||||||||||||||
4. 30 véletlenszerűen kiválasztott négytagú aktív keresős háztartás adatai alapján vizsgálták a jövedelem és az üdülésre fordított kiadás nagyságát. | |||||||||||||||||||||||||||||||||
A regresszió számításból az alábbi információk állnak rendelkezésre: | |||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||
4/a. Határozza meg a regressziós függvény paramétereit! Írja be a mezőkbe a megfelelő értékeket 4 tizedesjegy pontossággal! A -paraméter értéke: ![]() | |||||||||||||||||||||||||||||||||
5. Egy zárthelyi dolgozat (maximum 50 pontot lehetett elérni) után felmérést készítettek a hallgatók körében, ki hány órát töltött tanulással. A felmérés során 10 hallgató tanulással töltött ideje és a vizsgán elért pontszámok között különböző regressziós függvények segítségével próbálták megállapítani a kapcsolt meglétét. | |||||||||||||||||||||||||||||||||
A regresszió számításból az alábbi információk állnak rendelkezésre: | |||||||||||||||||||||||||||||||||
=8,279 | |||||||||||||||||||||||||||||||||
5/a. Határozza meg az exponenciális regressziós függvény paramétereit és a korrelációs indexet! Írja be a mezőkbe a megfelelő értékeket 3 tizedesjegy pontossággal! A -paraméter értéke: ![]() | |||||||||||||||||||||||||||||||||
5/b. Határozza meg a hatványkitevős regressziós függvény paramétereit és értelmezze azokat! Írja be a mezőkbe a megfelelő értékeket 2 tizedesjegy pontossággal! A -paraméter értéke: ![]() | |||||||||||||||||||||||||||||||||
5/c. Egészítse ki a mondatot a megfelelőszóval! "A tanulásra fordított idő és az elért pontszám kapcsolatát a legjobban a ... regresszióval lehet kifejezni."
![]() |