KURZUS: Statisztika II.
MODUL: III. modul: Korreláció- és regresszió-számítás
7. lecke Kétváltozós korreláció- és regresszió-számítás: Lineáris
Követelmények | |||||||||||||||||
Ön akkor sajátította el megfelelően a tananyagot, ha | |||||||||||||||||
| |||||||||||||||||
Tananyag | |||||||||||||||||
7.1. Kétváltozós korreláció-számítás | |||||||||||||||||
A mennyiségi ismérvek között meglévő kapcsolat szorosságát és irányát a korreláció-számítással állapíthatjuk meg. | |||||||||||||||||
Ha a mennyiségi ismérvek között nincs kapcsolat, azaz függetlenek egymástól, akkor a szorosság mérőszáma a korrelációs együttható (r) nullával egyenlő. | |||||||||||||||||
Ha egyértelmű kapcsolat van a két mennyiségi ismérv között, akkor a korrelációs együttható (r) értéke (-1;1) közé esik. Ha a korrelációs együttható pozitív, akkor a két ismérv közötti kapcsolat azt jelenti, hogy az egyik ismérv növekedése maga után vonja a másik ismérv növekedését. Negatív kapcsolat esetén az egyik ismérv növekedése a másik ismérv csökkenését okozza. | |||||||||||||||||
A mennyiségi ismérvek eloszlásainak speciális paramétere a kovariancia, amely az átlagtól való eltérések szorzatának számtani átlaga. Az együttes szóródás nagyságrendjét jellemzi, az előjele pedig kifejezi a kapcsolat irányát. | |||||||||||||||||
A kovariancia felhasználásával kiszámítható a lineáris korrelációs együttható: | |||||||||||||||||
ahol | |||||||||||||||||
Ha a változók szórására nincs külön szükségünk, akkor a korrelációs együttható másképp is kiszámolható: | |||||||||||||||||
Vagy: | |||||||||||||||||
A korrelációs együttható négyzete a determinációs együttható, amely százalékban adunk meg, és azt fejezi ki, hogy az egyik ismérv hány százalékban befolyásolja a másik ismérv változását. | |||||||||||||||||
7.2. Kétváltozós regresszió-analízis | |||||||||||||||||
Ha két mennyiségi változó közötti függőségi viszonyt valamilyen matematikai képlettel írunk le, akkor regresszió-analízisről beszélünk. | |||||||||||||||||
Az ismérvek közötti függőségi viszonyok feltárásával, az összefüggésekben rejlő tendenciák matematikai függvényekkel történő leírásával a regresszióanalízis foglalkozik. | |||||||||||||||||
A gyakorlati elemző munkában a korreláció- és regresszió-számítást általában együtt, egymást kiegészítve alkalmazzák. | |||||||||||||||||
A regresszió-számítás a statisztikai modellezés egyik egyszerű eszköze, ám egyszerűsége ellenére szinte minden, korábban megismert módszertani elemet felhasznál. | |||||||||||||||||
A regresszió-számításkor általában meg szoktuk különböztetni a két- a többváltozós eseteket. A kétváltozós regresszió analíziskor két változó kapcsolatát vizsgáljuk, az x változó az egyik, ez a magyarázó változó, és az y-lal jelölt (eredményváltozó) változó a másik, amelynek alakulását x változó befolyásolja. A regresszió-számítás során feltételezzük, hogy az eredményváltozónk (y) sztochasztikus kapcsolatban áll a magyarázó változóval Y=f(x) | |||||||||||||||||
A regresszió típusának kiválasztásához először ábrázolni kell az adatokat, mivel az ismérvek közötti kapcsolat lényegének megismerésében fontos szerepet játszik a grafikus ábrázolás. Általában pontdiagramot készítünk. | |||||||||||||||||
Ezután meg kell határozni a regresszió típusát, ehhez azonban szükséges az adott terület szakmai ismerete is. Lineáris esetben az alábbi függvényt használjuk: | |||||||||||||||||
A függvénytípus kiválasztásával azonban a regressziós függvény meghatározásának problémája még nincs megoldva. A végtelen sok egyenes közül azt az egyet keressük, amely az összefüggést a lehető legjobban leírja. A függvény paramétereit a legkisebb négyzetek módszere segítségével határozzuk meg, vagyis: | |||||||||||||||||
. | |||||||||||||||||
Azt a becslőfüggvényt keressük tehát, amelyik a mintabeli és a számított értékek közötti különbségek négyzetösszege minimális. Lineáris összefüggés esetén a függvényünk: | |||||||||||||||||
vagy y=a+b*x | |||||||||||||||||
Ezt behelyettesítve S-egyenletébe a következőt kapjuk: | |||||||||||||||||
A függvénynek ott van minimuma, ahol a két együttható szerinti parciális differenciahányadosa egyenlő nullával. Az egyenlet levezetéséből azt kapjuk, hogy: | |||||||||||||||||
A paraméter azt fejezi ki, hogy az x=0 helyen a függvény éppen ezt az értéket veszi fel, ha a nulla szerepel x lehetséges értékei között. | |||||||||||||||||
A paraméter geometriai értelemben az egyenes meredekségét meghatározó iránytangens, regressziós együtthatóként választ ad arra, hogy az x változó egységnyi változása átlagosan mekkora változást okoz az y változóban. | |||||||||||||||||
A kétváltozós kapcsolatok esetében megvizsgáljuk, hogy a becslőfüggvény mennyire közelítette meg a mintabeli tapasztalati értéket. Ezt fejezi ki az (- érték, azaz a reziduális szórás, amelyet a regressziós becslés abszolút hibája is egyben: | |||||||||||||||||
Ami tulajdonképpen az xi pontban vett mintabeli yi értékek és az adott xi ponthoz tartozó becsült y'i értékek közötti eltérések négyzetösszegének a gyöke. | |||||||||||||||||
A gyakorlatban kiszámítjuk ennek relatív nagyságát is: | |||||||||||||||||
A relatív hiba kifejezi, hogy a regressziós becslések értékei átlagosan hány százalékkal térnek el az eredményváltozó megfigyelt értékeitől. Általában jónak mondjuk a becslőfüggvény illeszkedését, ha: <10-15%. | |||||||||||||||||
Az eredményváltozó relatív változásának fontos szerepe van a közgazdasági elemzésekben. A relatív változást fejezi ki a rugalmassági együttható: | |||||||||||||||||
Az x-magyarázóváltozó adott értékének 1%-os növekedése átlagosan milyen változást eredményez az y-változó értékében. Ez az érték természetesen minden x-értékre kiszámítható: | |||||||||||||||||
7.3. A lineáris függvények paramétereinek konfidencia intervalluma | |||||||||||||||||
Általában a statisztikai elemzés során ritkán van lehetőség több mintavételre, ezért arra kell törekedni, hogy egy minta paraméterei fejezzék ki az alapsokasági paramétereket. | |||||||||||||||||
A regressziós paraméterek ( és ) maguk is valószínűségi változók, amelyeknek van várhatóértékük és standard hibájuk. | |||||||||||||||||
Az alapsokasági regressziós függvények paramétereinek standard hibája a következő: | |||||||||||||||||
Az intervallum meghatározására a t-próbafüggvényt alkalmazzuk, amelynek szabadságfoka: Szf= n-2. | |||||||||||||||||
A valószínűségi intervallum pedig: | |||||||||||||||||
7.4. A regressziós becslések, prognózisok | |||||||||||||||||
A regressziós függvény két ismérv közötti összefüggés tendenciáját írja le. Ez egy becslőfüggvény, ezért felhasználható a tényezőváltozó egy rögzített értékének becslésére, azaz az eredményváltozó átlagos színvonalát becsüljük meg, azaz egy tetszőleges x0-értéket behelyettesítve a regressziós függvény képletébe, megkapjuk a hozzá tartotó becsült értékét. Mivel becsült érték, ezért kiszámolhatjuk azt az intervallumot, amely a megadott szignifikancia szinten tartalmazni fogja a keresett értéket. | |||||||||||||||||
A konfidencia intervallum meghatározásához a t-eloszlás próbafüggvényét alkalmazzuk, így az intervallum: | |||||||||||||||||
() | |||||||||||||||||
A becsléskor az is előfordulhat, hogy egy hiányzó y0-értéket kívánunk megbecsülni az x0-helyen, a magyarázóváltózónak a függvény értelmezési tartományába illeszkedő, konkrét értékeit helyettesítjük be (nem átlagosnak tekintett értékét). Ebben az esetben a standard hiba: | |||||||||||||||||
A konfidencia intervallum meghatározásához ebben az esetben is a t-eloszlás próbafüggvényét alkalmazzuk, így az intervallum: | |||||||||||||||||
() | |||||||||||||||||
7.5. A regressziós függvény eredményeinek hipotézisvizsgálata | |||||||||||||||||
A becsléskor elkövetett hibák alapvetően kétféle okra vezethetők vissza: | |||||||||||||||||
| |||||||||||||||||
Ezért beszélhetünk a regressziós együtthatók hibájáról, amelyeket az előző alfejezetben 7.3.már tárgyaltunk. | |||||||||||||||||
7.5.1. A regressziós függvény együtthatóinak hipotézisvizsgálata | |||||||||||||||||
Az ellenőrzés gondolatmenete a következő. Feltételezzük, hogy valójában nincs korreláció, az elméleti paraméter () nullával egyenlő, és a tapasztalati adatokból számított (b1) paraméter nullától való eltérését csak a véletlen okozza. A regressziós együttható tesztelése t-próbával történik. | |||||||||||||||||
H0: illetve H1: | |||||||||||||||||
A nullhipotézis helyességének ellenőrzését próbafüggvénnyel ellenőrizhetjük. Az ellenőrzés szignifikancia szinten azt jelenti, hogy a teljesülése esetén fogadjuk el ezen a szignifikancia szinten a nullhipotézist. | |||||||||||||||||
Konkrét esetben: | |||||||||||||||||
A próbafüggvény nem más, mint a regressziós együttható becsült értékének és a hozzá tartozó standard hibának a hányadosa. A szabadságfok n-2. Ha a számított t-érték kisebb, mint a táblázatbeli t-érték, akkor a nullhipotézist fogadjuk el, ellenkező esetben pedig az alternatív hipotézist. | |||||||||||||||||
7.5.2. Variancianalízis alkalmazása a regresszió számításban | |||||||||||||||||
A regressziós együttható tesztelése mellett magának a regressziófüggvénynek a hipotézisellenőrzése is elvégezhető. Ez varianciaanalízissel történik. Ehhez az alábbi számításokat kell elvégezni (az eltérés négyzetösszegek számítását a II. Modulban már tanultuk): | |||||||||||||||||
Különleges jelentősége van a reziduális négyzetösszegnek (SSE), mivel a megfigyelt értékeknek a regressziós függvény körüli szóródását fejezi ki. | |||||||||||||||||
Ha SSE=0, ez az jelenti, hogy a függő változó teljes varianciája megmagyarázható a tényezőváltozó segítségével. Minden megfigyelt yi érték a regressziós függvényen helyezkedik el. Egyéb tényezőknek nincs hatása az eredményváltozóra, vagyis az ismérvek között függvényszerű kapcsolat van. | |||||||||||||||||
Ha az SSE0, akkor a két ismérv között sztochasztikus kapcsolat áll fenn. Minél nagyobb a reziduális négyzetösszeg értéke, annál nagyobb szerepet játszik a függő változó szóródásában. | |||||||||||||||||
A varianciatáblázat a következő: | |||||||||||||||||
| |||||||||||||||||
H0: illetve H1: | |||||||||||||||||
A nullhipotézist F-próbával ellenőrizzük: | |||||||||||||||||
, ahol a számláló szabadságfoka szf1=1, a nevezőé pedig szf2=n-2. Ha számított F-érték kisebb, mint a táblázatbeli, akkor a nullhipotézist elfogadjuk, ellenkező esetben elvetjük. |
Bemutató feladat | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Egy 60 fős sokaságra a statisztika írásbeli dolgozatok eredményeit és a felkészülésre fordított idő nagyságát vizsgálva 13 elemű mintát vettek, az alábbi eredményekkel: | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Feladat: számítsuk ki a regressziós függvény paramétereit! | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
: azok a hallgatók, akik 1 órával többet tanultak, átlagosan 4,5 ponttal jobb eredményt értek el. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
: akik nem készültek a dolgozatra, azok átlagosan 41 pontos eredményre számíthatnak. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Ezután összehasonlítjuk a tényeleges és a regresszióval becsült adatokat. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Az y'-t úgy kapom meg, hogy az egyenletbe (y'=41+4,5x) rendre behelyettesítem az x-értékeit. Ezután minden eredeti y-ból kivonom a kiszámított y'-értékrit, majd az eredményt négyzetre emelem. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
A becslőfüggvény illeszkedése jónak mondható. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
A lineáris paraméterek konfidencia intervalluma: | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
t0,975(11)=2,20 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
=412,2*1,55, =4,52,2*0,22 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
R2=97,45 % | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
A tanulásra fordított idő 97,45%-ban meghatározza az elért pontszámot. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
SST=3782 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
A táblázatbeli F-érték | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
A H0 szerinti feltevést 5%-os szignifikancia szinten elvetjük. Megállapítható, hogy a paraméter értéke szignifikánsan különbözik nullától, vagyis van kapcsolat a két ismérv között. |
Önellenőrző feladatok | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Jelölje meg a helyes állítást! | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1/a. A korrelációs együttható...
![]() | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1/b. A kovariancia
![]() | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1/c. A regresszió
![]() | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1/d. A korrelációs együttható értéke csak
![]() | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1/e. A regresszióanalízis során a kapott paraméterek értékeinek konfidencia intervallumát
![]() | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1/f. A paraméter
![]() | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1/g. A relatív hiba kifejezi,
![]() | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1/h. A rugalmassági együttható kifejezi, hogy
![]() | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1/i. Ha a reziduális négyzetösszeg egyenlő nullával,
![]() | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
2. Egy tőzsdén bejegyzett társaságokról az alábbi adatokat ismerjük: | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
2/a. Számítsa ki a regressziós függvény paramétereit, írja be a mezőkbe a megfelelő értékeket! A számításokat 4 tizedesjegy pontossággal végezze el! A -paraméter értéke: ![]() | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
2/b Számítsa ki korrelációs együtthatót, a determinációs együtthatót, a regressziós becslés relatív hibáját! Írja be a mezőkbe a megfelelő értékeket A számításokat a korrelációs együttható esetében 4 tizedesjegy pontossággal, a többi értéknél 2 tizedesjegy pontossággal végezze el! A korrelációs együttható értéke: ![]() | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3. Jelölje meg a helyes választ! | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3/c Mi a mértékegysége a lineáris korrelációs együtthatónak ()?
![]() | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3/d. Egészítse ki a mondatokat a helyes értékkel! Az a vállalat, amelynek árbevétele 1 milliárd Ft-tal több mint egy másik vállalatnak, vagy mint a vállalatok átlagos árbevétele, annak a dózott eredménye milliárd Ft-tal lesz több, mint az átlagos vállalati árbevétel. ![]() | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
4. 20 vállalkozás adatai alapján vizsgálták az egy főre jutó tárgyi eszközérték (millió Ft)(x) és az egy főre jutó üzemi eredmény (millió Ft) (y) kapcsolatát. A lineárisnak feltételezett kapcsolat elemzéséből az alábbi adatokat ismerjük: | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
4/a. Határozza meg a regressziós függvény paramétereit! Írja be a mezőkbe a megfelelő értékeket 3 tizedesjegy pontossággal! A -paraméter értéke: ![]() | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
4/b Számítsa ki korrelációs együtthatót, a determinációs együtthatót! A számításokat a korrelációs együttható esetében 4 tizedesjegy pontossággal, a többi értéknél 2 tizedesjegy pontossággal végezze el! A korrelációs együttható értéke: ![]() | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
4/c Vizsgálja meg az üzemi eredmény tárgyi eszközérték szerinti rugalmasságát az átlagos szinten! A számítást 2 tizedesjegy pontossággal végezze el! A rugalmassági együttható értéke: ![]() | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
5. Azonos gyártmányú elektromos gépek működési idejére és javításuk időszükségletére vonatkozóan az alábbi adatok állnak rendelkezésre: | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
5/a. Határozza meg a regressziós függvény paramétereit 2 tizedesjegy pontossággal! A -paraméter értéke: ![]() | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
5/b Határozza meg a regressziós függvény relatív hibáját! A számításokat 2 tizedesjegy pontossággal végezze el! A relatív hiba: % ![]() | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
5/c. Becsülje meg az 50 órás javítási időt igénylő készülék működési idejét! A számításokat 1 tizedesjegy pontossággal végezze el! Az 50 órás javítási időt igénylő készülék működési ideje: év. ![]() |