KURZUS: Statisztika II.

MODUL: II. modul: Hipotézisvizsgálat

6. lecke: Két- és több mintás statisztikai próbák

Követelmények

Ön akkor sajátította el megfelelően a tananyagot, ha

  • a felsorolásból ki tudja választani, hogy mikor milyen próbát alkalmazunk (z-próba, F-próba, χ 2 -próba, varianciaanalízis),
  • önállóan ki tudja számolni a próbafüggvények értékeit (z-próba, F-próba, χ 2 -próba),
  • a számítások alapján el tudja dönteni, melyik hipotézist fogadjuk el,
  • ki tudja választani a hipotézisek elfogadásának helyes magyarázatát.
Tananyag

Gyakran előfordul, hogy két sokaságot akarunk vizsgálni, és a hipotézis két paraméter értékének egymáshoz való viszonyára vonatkozik. Ilyenkor kétmintás próbát hajtunk végre, azaz a sokaságokból 1-1 független, véletlen mintát veszünk a hipotézis ellenőrzése céljából. Az egymással összehasonlításra kerülő sokaságok időben, térben vagy bármilyen más tekintetben különbözhetnek egymástól.

6.1. Várható értékek különbözőségére irányuló próbák

Két sokaságból külön-külön és egymástól függetlenül vett minta alapján ellenőrizni kívánjuk a H 0 : μ 1 = μ 2 vagy konkrét minta esetén a H 0 : x 1 = x 2 hipotézis helyességét.

6.1.1. Kétmintás z-próba

Ha a két sokaság normális eloszlású, és ismert mindkét sokaság szórása, akkor a z-próbafüggvényt alkalmazzuk:

z= x ¯ 1 x 2 σ 1 2 n 1 + σ 2 2 n 2

A próba elfogadási tartománya megegyezik az egymintás z-próba elfogadási tartományával:

Alternatív hipotéziselfogadási tartomány
H1: μ 1 < μ 2 (x1<x2) [ z α ; [
H1: μ 1 μ 2 (x1 x2) [ z α/2 ; z 1α/2 ]
H1: μ 1 > μ 2 (x1>x2) ] ˙ ; z 1α ]
6.1.2. Kétmintás t-próba

Ha a két normális eloszlású sokaság szórását nem ismerjük, és feltételezzük, hogy szórásuk lényegesen nem különbözik, ilyenkor t-próbát alkalmazunk:

t 0 = x 1 x 2 s d 1 n 1 + 1 n 2

s d = ( n 1 1)* s 1 2 +( n 2 1)* s 2 2 n 1 + n 2 2 (közös szórás)

A szabadságfok szf=n1+n2-2

A próba elfogadási tartománya megegyezik az egymintás t-próba elfogadási tartományával.

Bemutató feladat

Egy üzemben a szerelési műveleteket két eltérő módon tanították be. A két csoportból mintát vettek, és feljegyezték a dolgozók teljesítményét. A kérdés, hogy 5%-os valószínűségi szinten van-e különbség a két szerelési mód között?

n1=16, x ¯ 1 =128    s1=18

n2=11, x ¯ 2 =112    s2=29

H0:x1 x2,

H1:x1 < x2,

s d = (161)* 18 2 +(111)* 29 2 16+112 =23,04

t 0 = 128112 23,04 1 16 + 1 11 =1,773

Szf=25    t0,05(25)= -1,71, az elfogadási tartomány:

[ t α szf ; [ , azaz [ 1,71; [

Mivel a számított t-érték beleesik az elfogadási tartományba, ezért a nullhipotézist elfogadjuk, azaz az első betanítási módszer nem jobb, mint a második.

6.2. Két sokasági szórás egyezőségére irányuló próba

Ha a két sokaság normális eloszlású, a szórások egyezőségének vizsgálatára az F-próbafüggvény alkalmazható, ezért F-próbának nevezzük.

H0: σ 1 = σ 2 ,

a szabadságfokok az alábbiak: szf1=n1-1; szf2=n2-1.

F= σ 1 2 σ 2 2 vagy F= s 1 2 s 2 2

Az F-eloszlás nem szimmetrikus, elfogadási tartománya a következő:

Alternatív hipotéziselfogadási tartomány
H1: σ 1 < σ 2 [ F sz f 2 ( α ) sz f 1 ; [
H1: σ 1 σ 2 [ F sz f 2 ( α/2 ) sz f 1 ; F sz f 2 ( 1α/2 ) sz f 1 ]
H1: σ 1 > σ 2 ] 0; F sz f 2 ( 1α ) sz f 1 ]

F Sz f 1 ( α ) Sz f 2 = 1 F Sz f 1 ( 1α ) Sz f 2

Bemutató feladat

Az előző példa folytatása. Ellenőrizzük 10%-os szignifikancia szinten azt a feltevést, hogy a munkások teljesítményének szórása megegyezik.

H0: σ 1 = σ 2 , H1: σ 1 σ 2

F= 18 2 29 2 =0,3853

szf1=15;  szf2=10

[ F 10( 0,05 ) 15 =0,351; F 10( 0,95 ) 15 =2,85 ]

A számított érték belesik az elfogadási tartományba, így a nullhípotézist elfogadjuk, azaz a teljesítmények szórása között nincs szignifikáns különbség.

6.3. Két sokasági arányra vonatkozó próba

Két sokaság aránya p1 és p2. Ellenőrizni kívánjuk, hogy a két sokaság aránya egyezik-e. A vizsgálathoz a kétmintás z-próbát alkalmazzuk.

H0:p1=p2    H1:p1 p2

z 0 = p 1 p 2 p 1 *(1 p 1 ) n 1 + p 2 *(1 p 2 ) n 2

A próba elfogadási tartománya megegyezik az egymintás z-próba elfogadási tartományával:

Bemutató feladat

Közvélemény kutatást végeznek két alkalommal, egy hónapos eltéréssel 1000 ember megkérdezésével. Az első esetben 32% volt az igenlő válaszadó, a második esetben 38%. Vizsgáljuk meg 5%-os valószínűségi szinten, hogy nőtt-e az igent válaszolók aránya.

n1=n2=1000, p1=0,32  p2=0,38

H0:p1=p2    H1:p1<p2

z 0 = 0,320,38 0,32*(10,32) 1000 + 0,38*(10,38) 1000 2,82

Az elfogadási tartomány:(-1,64; ). A számított érték nem esik bele az elfogadási tartományba, ezért a nullhipotézist elutasítjuk, és az alternatív hipotézist fogadjuk el, tehát 5%-os szignifikancia szinten nem egyezik meg az igenlő válaszadók aránya a lakosság körében.

6.4. Két eloszlás egyezőségének a vizsgálata

Két eloszlás egyezőségének a vizsgálatát homogenitás vizsgálatnak is nevezzük.

Feltételezzük, hogy valamely változó két sokaságon belüli eloszlása azonos. Erre a χ 2 -eloszlású próbafüggvényt alkalmazzuk. A két minta elemszáma n1 és n2, akkor χ 2 értéke:

χ 2 = n 1 * n 2 * 1 n 1i + n 2i * ( n 1i n 1 n 2i n 2 ) 2 n 1i n 1 = g i ...........relatívgyakoriság

Bemutató feladat

A virágárakat vizsgálva a pesti és budai virágüzletekben arra keresték a választ, hogy a virágárak eloszlása azonos-e a két helyen 99%-os konfidenciaszinten.

ÁrBudaPestszámítások
árusok száma (db)n1i+n2ig1ig2i 1 n 1i + n 2i * ( n 1i n 1 n 2i n 2 ) 2
0-553580,04000,05950,000048
56-65226280,29330,07140,001759
66-751818360,24000,21430,000018
76-851821390,24000,25000,000003
86-95618240,08000,21430,000752
96-105610160,08000,11900,000095
105-2680,02670,07140,000250
összesen.7584159110,002877

χ 2 = n 1 * n 2 * 1 n 1i + n 2i * ( n 1i n 1 n 2i n 2 ) 2 =75*84*0,002877=18,125

szf=7-1=6    α 2 =0,005    1 α 2 =0,995

ca=0,68    cf=18,5

Tehát az elfogadási tartomány: (0.676; 18,5).
A számított érték beleesik az elfogadási tartományba, azaz a virágárak eloszlása azonos a két helyen.

6.5. Varianciaanalízis

Varianciaanalízissel kettőnél több sokaság várható értékének egyezősége tesztelhető.

A varianciaanalízis annak a nullhipotézisnek az ellenőrzésére szolgál, hogy kettőnél több, azonos szórású normális eloszlású valószínűségi változónak azonos-e a várható értéke.

H0: μ 1 = μ 2 =..= μ n = μ

A varianciaanalízis abból indul ki, hogy minden megfigyelés 3 komponens összege:

  • a várható érték: μ,
  • egy a j-edik sokaságra jellemző β i konstans,
  • és egy véletlen összetevő (hibaváltozó): ε ij .

A H0 helyességét próbafüggvénnyel vizsgáljuk, és ez az F-próbafüggvény.

F= s k 2 s b 2 = SSK/(M1) SSB/(nM) = M S k M S H = M Q k M Q H

SSK: a csoportok közötti eltérés négyzetösszege (külső szórás négyzete)
M: a csoportok száma
SSB: a csoportokon belüli eltérés négyzetösszege. (belső szórás négyzete)
Ezen kívül ki kell számolni az összes adat szórásnégyzetét is.
SST=SSK+SSB (teljes szórás négyzete)

A varianciatáblázat a következő lesz:

A szóródás okaSS (SQ)DF(FG)MS(MQ)F
Külső (kezelés)SSKM-1sk2sk2/ sb2
Belső (hiba)SSBn-Msb2
TeljesSSTn-1

Az F-próba jobboldali próba. Ha a tapasztalati F-érték (számított) nagyobb az elméleti F-értéknél (táblázatbeli), akkor a várható értékek egyezőségére vonatkozó nullhipotézist az adott szignifikanciaszint mellet elvetjük, és az alternatív hipotézist fogadjuk el.

Bemutató feladat

Egy kis élelmiszerbolt tulajdonosa feltételezte, hogy a hétfői és szombati napokon nem ugyanannyi a sajt forgalma, mint a hét többi napján. Azért, hogy a sajtrendelésit jobban le tudja adni, feljegyezte a forgalmat az adott napokon:

NapokMegfigyelt napok számaEladott mennyiség (kg)ÁtlagVariancia
Hétfő630,40,54,34,44,504284,8
egyéb1049,43,30,59,35,46,
42,35,36,43
41,870,4
szombat652,58,57,70,54,5457,5042,3
Össz.2246,136111,17

Ellenőrizzük 5%-os szignifikanciaszinten, hogy a sajtforgalom azonos a megfigyelt napokon.

SST=21*111,17=2334,57
SSB=5*84,8+9*70,4+5*42,3=1269,1
SSK=2334,57-1269,1=1065,47

sk2=SSK/(M-1)= 1065,47/2=532,735
sb2=SSB/(n-M)= 1269,1/19=66,795
F=532,735/66,795=7,976

A sajtforgalom variancianalízis táblázata

A szóródás okaSS (SQ)DF(FG)MS(MQ)F
Milyen nap1065,472532,7357,976
Hiba1269,11966,795
Teljes2319,8721

Mivel F0,95(2;19)=3,52, a várható értékek egyezését állító nullhipotézis elvethető. A hét vizsgált napjain 5%-os szignifikancia szinten nem egyforma a sajtforgalom átlagos nagysága.

Önellenőrző kérdések

Jelölje meg a helyes választ!

1/a. Több várható érték egyezőségének vizsgálatát
z-próba segítségével ellenőrizzük.
χ 2 -próba segítségével ellenőrizzük.
varianciaanalízis segítségével ellenőrizzük.
1/b. Két sokaság várható értékének egyezőségét
z-próba segítségével ellenőrizzük.
χ 2 -próba segítségével ellenőrizzük.
varianciaanalízis segítségével ellenőrizzük.
F-próba segítségével ellenőrizzük.
1/c. Két eloszlás egyezőségét
z-próba segítségével ellenőrizzük.
χ 2 -próba segítségével ellenőrizzük.
varianciaanalízis segítségével ellenőrizzük.
F-próba segítségével ellenőrizzük.
1/d. Két sokaság szórásának azonosságát
z-próba segítségével ellenőrizzük.
varianciaanalízis segítségével ellenőrizzük.
F-próba segítségével ellenőrizzük.
χ 2 -próba segítségével ellenőrizzük.

2. Egy automata töltőgép az egyik fajta szárazsüteményt dobozokba tölti. A dobozok töltési tömegének szórása 8 gramm. A töltési tömeg normális eloszlású. Két egymást követő napon 40-40 dobozt vizsgáltak meg. A mintában az átlagos töltési tömegek:

1.nap: 595,5 gramm.
2.nap: 603,7 gramm

Állapítsa meg, hogy van-e szignifikáns különbség a két napon töltött dobozok átlagos töltési tömege között 5%-os szignifikancia szinten!

2/a. Írja be a mezőkbe a megfelelő értékeket! Az eredményeket 2 tizedesjegy pontossággal adja meg!

A próbafüggvény számított értéke:
Az elfogadási tartomány alsó határa:
Az intervallum felső határa:

2/b. Jelölje meg, hogy melyik hipotézist fogadjuk el!
H1
H0
2/c. Válassza ki a helye megfogalmazást!
A két napon töltött dobozok átlagos töltési tömege között szignifikáns különbség van.
A két napon töltött dobozok átlagos töltési tömege között 5%-os szignifikancia szinten nincs különbség.

3. Egy konzervgyár két azonos kapacitású üzemében egy héten keresztül mérték az uborka-feldolgozás során elfogyasztott víz mennyiségét. A mérési eredményeket a következő táblázat tartalmazza (vízmennyiség m3).

NapA-üzemB-üzem
1.8,515
2.6,810
3.4,211
4.12,211
5.9,114
6.6,013
7.8,02

Állapítsa meg, hogy van-e szignifikáns különbség a két üzem átlagos vízfelhasználása között 5%-os szignifikancia szinten!

3/a. Írja be a mezőkbe a megfelelő értékeket! Az eredményeket 2 tizedesjegy pontossággal adja meg!

A próbafüggvény számított értéke:
Az elfogadási tartomány alsó határa:
Az intervallum felső határa:

3/b. Jelölje meg, hogy melyik hipotézist fogadjuk el!
H0
H1
3/c. Válassza ki a helye megfogalmazást!
A két üzem átlagos vízfogyasztása között nincs szignifikáns különbség.
A két üzem átlagos vízfogyasztása között 5%-os szignifikancia szinten különbség van.

4. Állapítsa meg, hogy van-e szignifikáns különbség a két üzem átlagos vízfelhasználásának ingadozása között 10%-os szignifikancia szinten!

4/a. Írja be a mezőkbe a megfelelő értékeket! Az eredményeket 2 tizedesjegy pontossággal adja meg!

A próbafüggvény számított értéke:
Az elfogadási tartomány alsó határa:
Az intervallum felső határa:

4/b Jelölje meg, hogy melyik hipotézist fogadjuk el!
H0
H1
4/c. Válassza ki a helye megfogalmazást!
A két üzem átlagos vízfogyasztásának szórása között nincs szignifikáns különbség.
A két üzem átlagos vízfogyasztásának szórása között 5%-os szignifikancia szinten különbség van.

5. A személysérüléssel járó közúti közlekedési balesetekre vonatkoznak az alábbi, mintavételből származó adatok:

A baleset ideje a nap órái szerintBalesetek száma
BudapestAz ország többi részén
0-854138
8-1280199
12-1539187
15-1863223
18-2445196
Összesen281943
5/a. Azonos-e a balesetek számának eloszlása a két helyen 5%-os szignifikancia szinten? Írja be a mezőkbe a megfelelő értékeket! Az eredményeket 2 tizedesjegy pontossággal adja meg!

A próbafüggvény számított értéke:
Az elfogadási tartomány alsó határa:
Az intervallum felső határa:

5/b. Jelölje meg, hogy melyik hipotézist fogadjuk el!
H0
H1

6. Egy cég négy különböző típusú autógumi kopásállóságát vizsgáltatta meg. Az 5-5 elemű mintákban a futófelület kopása alapján meghatározott élettartamok ezer km-ben kifejezve az alábbiak voltak:

TípusKopásállóságÁtlag
A536158565757
B516064675860
C465057504750
D505953564753
6/a. Varianciaanalízissel ellenőrizze, hogy az egyes gumiabroncsok kopásállósága 5%-os szignifikancia szinten azonosnak tekinthető-e! Írja be a mezőkbe a megfelelő értékeket! Az eredményeket 1 tizedesjegy pontossággal adja meg!

A próbafüggvény számított értéke:
A próbafüggvény táblabeli értéke:

6/b Válassza ki a helye megfogalmazást!
Az abroncsok kopásállósága 5%-ois szignifikancia szinten nem tekinthető azonosnak.
Az abroncsok kopásállósága között 5%-os szignifikancia szinten nincs különbség.

7. Két gimnázium tanulóinak nyelvtudását hasonlították össze. Mindkét gimnáziumból 1000 főt kérdeztek meg. Az egyik gimnáziumban (I.) a tanulók 27%-ka beszélt valamilyen idegen nyelvet, a másik gimnáziumban (II.) pedig 34%-kuk.

Ellenőrizze azt a feltevést, hogy a második gimnáziumban nagyobb az idegen nyelvet beszélők aránya, mint az első gimnáziumban ( α=0,05)!

7/a. Írja be a mezőkbe a megfelelő értékeket! Az eredményeket 2 tizedesjegy pontossággal adja meg! Ha szükséges a számok helyett használja a matematikai karaktereket!

A próbafüggvény számított értéke:
Az elfogadási tartomány alsó határa:

7/b Jelölje meg, hogy melyik hipotézist fogadjuk el!
H1
H0