KURZUS: Kvantitatív módszerek

MODUL: III. modul: Matematikai statisztika

8. lecke Statisztikai próbák

Tananyag
8.1. Alapfogalmak

Az eddigi becslési eljárások során a sokasági paramétert ismeretlennek tekintettük, és a mintából származó adatok segítségével közelítőleg meghatároztuk az ismeretlen sokaság értékét. A hipotézisvizsgálatnál a sokaságról állítunk valamit, majd a rendelkezésünkre álló minta alapján ellenőrizzük az állítás helyességét.

Az egy vagy több sokaságra vonatkozó állítást, feltevést hipotézisnek nevezzünk. A hipotézis vonatkozhat az egy vagy több sokaság eloszlására, vagy az adott eloszlások egy vagy több paraméterére is. A különféle hipotézisek vizsgálatára szolgáló eljárásokat statisztikai próbáknak nevezzük. A próba egy olyan eljárás, amelynek során a mintából származó információk alapján döntünk a hipotézis elfogadásáról, vagy elutasításáról.

A hipotézisvizsgálat első lépése a vizsgálni kívánt hipotézis megfogalmazása. Pontosabban mindig két hipotézist fogalmazunk meg, egy úgynevezett nullhipotézist (H0), és egy ezzel szemben álló alternatív hipotézist (H1). A vizsgálat során a két hipotézist "versenyeztetjük", és azt fogadjuk el igaznak, amelyik a mintavétel eredménye alapján hihetőbbnek tűnik a másiknál. A két hipotézist úgy kell megfogalmazni, hogy:

  • akármelyiket is tekintjük majd a másiknál hihetőbbnek, megválaszolható legyen a bennünket érdeklő kérdés;
  • a formális logikai szabályai szerint kizárják egymást, azaz egyszerre ne lehessenek igazak, de együtt minden lehetőséget kimerítsenek.

A hipotézis lehet egyszerű, ha fennállásának feltételezése a sokaság eloszlását egyértelműen meghatározottá teszi. Ellenkező esetben összetett hipotézisről beszélünk, azaz az egyszerű hipotézisek halmazáról.

A hipotézisek megfogalmazása után a feladatunk a mintaelemek egy olyan függvényének a keresése, amelynek valószínűség-eloszlása a nullhipotézis helyességének feltételezése, a sokaságra tett bizonyos kikötések és a mintavétel adott módja mellet egyértelműen meghatározható. Az e követelményeknek eleget tevő függvényt próbafüggvénynek nevezzük. A próbafüggvény hasonló szerepet tölt be a hipotézisvizsgálat során, mint a becslőfüggvény a becsléskor. A próbafüggvény konstruálása matematikai feladat.

A hipotézis helyességének ellenőrzése a próbafüggvény lehetséges értékeinek teljes tartományát osztópontok segítségével (Ca; Cf) két egymást át nem fedő tartományra bontjuk. Az egyik az elfogadási tartomány (E), a másik egy elutasítási vagy kritikus tartomány (K). Az egyes tartományok határait úgy válaszuk meg, hogy a próbafüggvény értéke a nullhipotézis elfogadása esetén előre megadott valószínűséggel ( p=1α ) az elfogadási tartományba essen, és a kritikus tartományba esés csak α-valószínűséggel következzen be. Az ( 1α ) a konfidencia szint, ennek komplementere a szignifikancia szin ( α). A próbafüggvény kritikus tartományba esésének valószínűségét szignifikancia szintnek nevezzük, és α-val jelöljük. Pl.: α=0,05 szignifikancia szint azt jelenti, hogy ha a mintavételt végtelen sokszor végrehajtjuk, akkor 100 esetből összesen 5-ször fordul elő az, hogy a próbafüggvényünk minta alapján kiszámított értéke a kritikus tartományba esik.

Ha ezek után a rendelkezésre álló minta adataiból kiszámítjuk a próbafüggvény úgynevezett aktuális értékeit, és ez beleesik az elfogadási tartományba, akkor a nullhipotézist elfogadjuk, ellenkező esetben a nullhipotézist elutasítjuk, és az alternatív hipotézist fogadjuk el.

Az elfogadási és a kritikus tartomány egymáshoz viszonyított elhelyezése háromféle lehet:

Egyoldali kritikus tartományhoz abban az esetben jutunk, ha az ellenhipotézisben a nullhipotézishez képest egy meghatározott irányú eltérést írunk fel.

Bal oldali kritikus tartomány

Ha a sokaság várható értékre H 1 :μ< m o alternatív hipotézist fogalmazzuk meg, akkor bal oldali, kritikus tartományról beszélünk. A nullhipotézist abban az esetben fogadjuk el, ha a próbafüggvény számított értéke nagyobb az elfogadási tartomány alsó határánál. Az elfogadási tartomány felső határa ebben az esetben pozitív végtelen. Ellenkező esetben a nullhipotézist vetjük el, és természetesen az alternatív hipotézist fogadjuk el.

Elfogadási- és kritikus (bal oldali) tartomány egyoldalú alternatív hipotézis esetén

Jobb oldali kritikus tartomány

Ha a sokaság várható értékre H 1 :μ> m o alternatív hipotézist fogalmazzuk meg akkor jobb oldali kritikus tartományról beszélünk.

A nullhipotézist abban az esetben fogadjuk el, ha a próbafüggvény számított értéke kisebb az elfogadási tartomány felső határánál. Az elfogadási tartomány alsó határa ebben az esetben negatív végtelen. Ellenkező esetben a nullhipotézist vetjük el, és természetesen az alternatív hipotézist fogadjuk el.

Elfogadási- és kritikus (jobb oldali) tartomány egyoldalú alternatív hipotézis esetén

Kétoldali kritikus tartomány

Kétoldali kritikus tartomány kijelölésére olyan esetben kerül sor, amikor a nullhipotézisben megfogalmazott állítástól való bármilyen irányú eltérés érdekel bennünket ( H 1 :μ m o ).

Ha a próbafüggvény számított értéke az elfogadási tartományba kerül, akkor a nullhipotézist fogadjuk el, ha a próbafüggvény értéke a kritikus tartományba kerül, akkor a nullhipotézist elvetjük.

Elfogadási- és kritikus tartomány kétoldalú alternatív hipotézis esetén

A hipotézisvizsgálat során elkövetett hibák

A mintából a sokaságra vonatkozóan csak valószínűségi következtetés lehetséges, így a hipotézisvizsgálat során hozott döntésünk bizonyos kockázattal jár.

Előfordulhat, hogy a nullhipotézis helyes, és a próbafüggvény adott mintából számított értéke mégis a kritikus tartományba esik, Ilyenkor a nullhipotézist annak ellenére, hogy fennáll, elutasítjuk. Ezt a hibás döntést elsőfajú hibának nevezzük. Az ilyen hiba elkövetésének valószínűsége az elfogadási és a kritikus tartomány konstrukciója alapján α, amelyet szignifikanciaszintnek nevezünk.

Előfordul, hogy a nullhipotézis nem áll fenn (nem igaz), és a próbafüggvény mintából számított értéke mégis az elfogadási tartományba esik. Ez szintén hibás döntés, és ilyenkor másodfokú hibát követünk el. Ezen esemény bekövetkezésének valószínűségét β-val jelöljük.

A hipotézisvizsgálat során elkövetett hibák

Valóságos helyzetH0-ra vonatkozó döntés
Elfogadjukelutasítjuk
H0 igazHelyes döntés
1α
Elsőfajú hiba
α
H1 igazMásodajú hiba
β
Helyes döntés
1β
A hipotézisellenőrzés során elkövethető hibák

Az ( 1α ) valószínűséget a próba megbízhatósági szintjének, az 1β -t pedig a próba erejének nevezzük.

A minta elemszámának növelésével - adott szignifikancia szint és alternatív hipotézis esetén - csökkenthető a másodfajú hiba elkövetésének valószínűsége, illetve minél távolabb van μ paraméter valóságos értéke a nullhipotézisben szereplő feltételezett értéktől, annál kisebb lesz β-értéke.

A hipotézisvizsgálat menet:

1.Megfogalmazni a nullhipotézist és az alternatív hipotézist.
2.Próbafüggvény keresése a nullhipotézisben megfogalmazott állításnak megfelelően. A próbafüggvény a mintaelemeknek egy olyan függvénye, amelynek eloszlása a nullhipotézis igazságát feltételezve pontosan ismert, a mintavétel előtt azonban ennek értéke is valószínűségi változó. A próbafüggvénynek több szempont szerint kell megfelelőnek lennie, egyrészt a nullhipotézisben megfogalmazott állításnak, azaz nem minden nullhipotézis ellenőrizhető azonos próbafüggvénnyel; másrészt a minta eloszlás-típusának, valamint a mintavétel módjának is.
3.Kiválasztani a szignifikancia szintet: az az elsőfajú hiba elkövetésének valószínűségét választjuk meg.
4.Az elfogadási és kritikus tartomány megállapítása a szignifikancia szintnek és a szabadságfoknak (ahol van) megfelelően.
5.Mintavétel, és a próbafüggvény értékének kiszámítása.
6.Döntés a nullhipotézis helyességének elfogadásáról, vagy a nullhipotézis elutasítása.
8.2. Egymintás statisztikai próbák

Az egymintás statisztikai próbák a sokaság valamely paraméterének tesztelésére szolgálnak.

8.2.1. Várható értékre irányuló próbák

Azt teszteljük, hogy egy sokaság ismeretlen várható értéke ( μ), megegyezik-e az általunk feltételezett várható értékkel ( μ 0 ). A nullhipotézis a következő:

H 0 :μ= μ 0

Konkrét minta esetén:

H 0 : x ¯ = x ¯ 0

Az alternatív hipotézisünk háromféle lehet:

H 1 :μ< μ 0

H 1 :μ μ 0

H 1 :μ> μ 0

Konkrét minta esetén:

H 0 : x ¯ x ¯ 0 H 0 : x ¯ x ¯ 0 H 0 : x ¯ x ¯ 0

8.2.1.1. Egymintás z-próba

A sokaság normális eloszlású és a sokasági szórás ( σ) ismert, akkor hasonlóan a becsléshez, a z-próbafüggvényt alkalmazzunk.

z 0 = μ μ 0 σ n ,

illetve ismert minta esetén:

z 0 = x x 0 σ n

Ez a próbafüggvény standard normális eloszlású valószínűségi változó.

A z-próba elfogadási tartományának határai az alábbiak:

Alternatív hipotéziselfogadási tartomány
H 1 :μ< μ 0 [ z α ; [
H 1 :μ μ 0 [ z α/2 ; z 1α/2 ]
H 1 :μ> μ 0 ] ˙ ; z 1α ]

A táblázatban csak a  értékeit találjuk meg, azonban a z α értékeit az alábbi összefüggés alapján meghatározhatjuk:

1. bemutató feladat

Egy automata gépsor lisztet csomagol, a szabvány szerint 100 dkg-os tömeggel, és a megengedett szórás 3 dkg. Ellenőrzés céljából 30 db-os mintát veszünk. A lemért lisztes zacskók átlagos tömege 98 dkg. Ellenőrizzük 5%-os szignifikancia szinten, hogy a gép megfelelően csomagol-e.

H 0 :μ=100 dkg .
H 1 :μ100 dkg

z 0 = 98100 3 30 =3,65     z0,975 = 1,96; z0,025 = -1,96

Az elfogadási tartomány: (-1,96; 1,96)
Az elfogadási tartomány nem tartalmazza a próbafüggvény aktuális értékét (-3,65), ezért a nullhipotézist elutasítjuk, azaz 5%-os szignifikancia szinten a töltési tömeg nem felel meg a szabványnak.

8.2.1.2. Egymintás t-próba

A normális eloszlású sokaság vizsgálatánál végezzük, ha nem ismerjük az eloszlás szórását. Ebben az esetben a

t 0 = μ μ 0 s n

próbafüggvényt használjuk, illetve konkrét minta esetén:

t 0 = x x 0 s n ,

a nullhipotézis ellenőrzésére.

Ha a nullhipotézis igaz, és a sokaság eloszlása valóban normális, akkor a t-próbafüggvény szf=n-1 szabadságfokú Student-féle t-eloszlást követ. A t-próba elfogadási tartományának határai az alábbiak:

Alternatív hipotéziselfogadási tartomány
H1:(<(0 [ t α szf ; [
H1:(((0 [ t α/2 szf ; t 1-α/2 szf ]
H1:(>(0 ] ˙ ; t 1α szf ]

2. bemutató feladat

Az előző sokaság eloszlása normális, az átlag 98 dkg, a szórást a mintából (n=30) becsültük meg, ami 5,5 dkg Ellenőrizzük 5%-os szignifikancia szinten, hogy a gép megfelelően csomagol-e.

H 0 :μ=100 dkg .
H 1 :μ100 dkg

t 0 = 98100 5,5 30 =1,99     t290,975=2,05; t290,025= -2,05

Az elfogadási tartomány: (-2,05; 2,05)

Az elfogadási tartomány tartalmazza a próbafüggvény aktuális értékét (-1,99), ezért a nullhipotézist elfogadjuk, azaz 5%-os szignifikancia szinten a töltési tömeg megfelel a szabványnak.

8.2.2. Sokasági szórásra vonatkozó próba

A sokasági szórás becslésére a korrigált tapasztalati szórást használjuk. A konfidencia intervallum meghatározását a χ 2 -eloszlásra (khí) alapozzuk.

χ 0 2 = (n-1)* s 2 σ 0 2

próbafüggvényt használjuk, amely szf=n-1 szabadságfokú χ 2 -eloszlást követ.

A nullhipotézisünk:

H 0 :σ= σ 0

A χ 2 -próba elfogadási tartományának határai az alábbiak:

Alternatív hipotéziselfogadási tartomány
H 1 :σ< σ 0 [ χ α( szf ) 2 ; [
H 1 :σ σ 0 [ χ α/2( szf ) 2 ; χ 1-α/2( szf ) 2 ]
H 1 :σ> σ 0 ] 0; χ 1α(szf) 2 ]
3. bemutató feladat

Az előző példában feltételezzük, hogy a gép 3 dkg-os szórással tölt. A 30 elemű mintából számított szórás 5,5 dkg volt. Ellenőrizzük, hogy helyes volt-e a feltevés, hogy a gép maximum 3 dkg szórással tölt, 5%-os szifnifikancia szinten.

H 0 :σ=3 dkg .
H 0 :σ>3 dkg

χ 0 2 = (30-1)* 5,5 2 3 2 =97,5

A χ 0,95(29) 2 =42,6 , tehát az elfogadási tartomány (0; 42,6), a próbafüggvény értéke nem esik bele ebbe a tartományba, ezért a nullhipotézist elutasítjuk, azaz a töltés során a szórás meghaladja az előírást.

8.2.3. Függetlenségvizsgálat

A függetlenségvizsgálat azon nullhipotézis ellenőrzésére szolgál, hogy két ismérv független egymástól. Az alternatív hipotézisben pedig azt fogalmazzuk meg, hogy nem függetlenek.

A két ismérv akkor független egymástól, ha a peremmegoszlási viszonyszámok (relatív gyakoriságok) szorzata egyenlő s megfelelő együttes viszonyszámokkal:

f 1 N * f 1 N = f 11 N

Ha nem ismerjük a véges sokaságot, akkor a mintából származó adatokkal kell eldönteni a függetlenséget. Ilyenkor is egy kontingenciatáblából indulunk ki, de a táblázat ekkor a mintában észlelt gyakoriságokat tartalmazza.

H 0 : P ij P i P j (i=1,2,....,s; j= 1,2,....t)

H 1 : P ij P i P j

Pij: az első ismérv i-edik és a második ismérv j-edik változata együttes előfordulásának valószínűsége a sokaságban.

A valószínűségeket a mintából becsüljük: p i = n i n   p j = n j n

χ 2 = i=1 s j=1 t ( n ij - n ij * ) 2 n ij * =n*( i=1 s j=1 t n ij 2 n i * n j -1 ) n ij * =n* p i * p j = n i * n j n

Vagy a Csuprov-féle együttható szerint, ahol

f i = n i n χ 2 = i=1 s j=1 t ( f ij f ij * ) 2 f ij * f ij * =n* P i * P j

A szabadságfok: szf=(s-1)*(t-1)

Ez a próba jobb oldali módon hajtható végre. A minta akkor tekinthető elég nagynak, ha még a legkisebb n ij * is legalább 5, de még jobb, ha legalább 10.

4. bemutató feladat

Egy szociológiai vizsgálat során azt kívánjuk ellenőrizni, hogy az egyetemet végzett férfiak és nők előrejutási lehetőségei azonosnak tekinthetők-e. Ehhez a 15 éve végzett hallgatók közül 200 főt kiválasztva véletlenszerűen, az alábbi mintát kaptuk.

Megn.Férfi n i
Beosztott204060
középvezető6040100
Felső vezető301040
n j 11090200

A vizsgálatot 5%-os szignifikancia szinten végezzük el.
H 0 : P ij = P i P j     H 1 : P ij P i P j

Megnevezés n ij n ij * = n i * n j n ( n ij n ij * ) 2 n ij *
FérfiBeosztott2060*110/200=335,121
középvezető60550,455
Felső vezető30222,909
Beosztott40276,259
középvezető40450,556
Felső vezető10183,556
Σ20020018,856

χ 0 2 =18,856    szf=(3-1)*(2-1)=2
χ 0,95(2) 2 =5,99

Mivel a kritikus érték kisebb, mint a számított érték, a H0-t elutasítjuk, tehát az adatok alapján 5%-os szignifikancia szinten elmondható, hogy a nemhez való tartozás és a beosztás függenek egymástól, azaz elutasítjuk a függetlenséget.

8.2.4. Illeszkedésvizsgálat

Egy valószínűségi változó eloszlására vonatkozó állítás vagy feltételezés ellenőrzését illeszkedésvizsgálatnak nevezzük. Attól függően, hogy a hipotézisünket mennyire konkretizáljuk, kétféle illeszkedésvizsgálatot különböztetünk meg:

Ha a feltételezett eloszlás egyértelműen meghatározott - a típusát és a paramétereit előre rögzítjük -, akkor tiszta illeszkedésvizsgálatról beszélünk.

Ha a feltételezett eloszlásnak csak a típusát adjuk meg - a paramétereit pedig a mintából becsüljük -, akkor becsléses illeszkedésvizsgálatot végzünk.

A sokaságot egy ismérv (többnyire mennyiségi, néha minőségi) alapján k-számú részre bontjuk, azaz az adott ismérv alapján osztályozzuk a sokaság egységeit. Ugyanezt azt osztályozást a mintán belül is elvégezzük.

OsztályA kategória előfordulásának
valószínűségegyakoriságarelatív gyakorisága
a mintában
c1P1f1g1
c2P2f2g2
....
....
ckPkfkgk
Összesen1,00n1,00

Az általunk feltételezett sokaság eloszlása minden ismérvváltozathoz egy maghatározott Pi valószínűséget rendel. A nullhipotézis tehát:

H 0 :P( c i )= P i     i=1,2,...k, az alternatív hipotézisünk pedig:
H 1 :P( c i ) P i

A H 0 helyességét a χ 2 -próbafüggvénnyel vizsgálhatjuk meg:

χ 2 = I=1 K ( f i n* P i ) 2 n* P i = ( f i f i * ) 2 f i * =n*( g i 2 P i 1) f i * =n* P i

Ez a statisztikai vizsgálat a nullhipotézis helyessége esetén jó közelítéssel szf=(k-b-1) szabadságfokú χ 2 -eloszlású, ahol a b a Pi valószínűségek meghatározásához szükséges olyan paraméterek száma, amelyeket a mintából becsülünk. Tiszta illeszkedésvizsgálat esetén a b=0.

Mivel χ 2 -próbafüggvény a nullhipotézistől való jelentős eltérést nagy pozitív értékkel jelzi, ezért az illeszkedésvizsgálatot a jobb oldali kritikus tartományra kell végrehajtani, azaz a felső kritikus értéket kell keresni , tehát az elfogadási tartomány pedig:

[ 0; χ 1α(szf) 2 ] .

5. bemutató feladat

Egy gyorsbüfé hálózatban a vevőket 45 másodperc alatt kell kiszolgálni. A kiszolgálási idő megengedett szórása 7 másodperc. 400 véletlenül kiválasztott vendég kiszolgálási idő szerinti megoszlása a következő:

kiszolgálási idő (másodperc)vendégek száma (fő)
0-3520
35-4080
40-45100
45-50100
50-5560
55-40
Összesen400

Ellenőrizzük azt a feltevést, hogy a minta az előírt paraméterű (átlag=45, szórás=7 másodperc) normális eloszlásból származott, P=5%-os szignifikancia szinten.

kiszolgálási idő (másodperc)vendégek száma (fő) x if z if = ( x if μ ) σ Φ( Z ( if ) )= P i P i f i * =n P i ( f i f i * ) 2 f i *
0-352035-1,430,07640,076430,563,65
35-408040-0,710,23890,1625653,46
40-451004500,50,2611104,440,19
45-50100500,710,76110,2611104,440,19
50-5560551,430,92360,1625650,38
55-40 11,0030,562,42
Összesen400----40010,79

A táblázatban vastagított számokat az alábbiak szerint kapjuk:

z if = ( x if μ ) σ =35-45/7=-1,43
Φ( Z ( if ) )=1P( z i1 ) táblázatból
P i = P ik P ik1 =0,2389-0,0764=0,1625
f i * =n P i =400*0,0764=30,56
( f i f i * ) 2 f i * =(20-30,56)2/30,56=3,65
Ugyan így kell a többi értéket is kiszámítani

χ 0 2 =10,79

Szf=6-1=5, χ 1-0,05(5) 2 =11,1,
az elfogadási tartomány (0;11,1).

A számított érték az elfogadási tartományba esik, így elfogadjuk a nullhipotézist. A kiszolgálási időt 5%-os szignifikancia szinten 45 másodperc várható értékű és 7 másodperc szórású normális eloszlású valószínűségi változónak lehet tekinteni.

6. bemutató feladat

Egy széleskörű vizsgálat során, Magyarországon a 15 éves és idősebb népesség 15%-a sovány, 25%-a normál súlyú, és 60%-a túlsúlyos volt 1996-ban. 2005-ben 500 véletlenszerűen kiválasztott minta alapján 72 fő sovány, 176 fő normál súlyú és 252 fő pedig túlsúlyos volt. 1%-os szignifikancia szinten állíthatjuk-e, hogy a két eloszlás egyforma. A kérdés az illeszkedésvizsgálattal válaszolható meg.

OsztályA kategória előfordulásának
Valószínűsége
P i
gyakoriságarelatív gyakorisága
a mintában
Sovány0,157272/500=0,1444
Normál0,25176176/500=0,352
túlsúlyos0,60252252/500=0,504
összesen1,005001,00

χ 2 =n*( g i 2 P i 1)=500*( 0,1444 2 0,15 + 0,352 2 0,25 + 0,504 2 0,60 1)=28,608

szf=3-1=2
χ 0,99(2) 2 =9,21
az elfogadási tartomány (0; 9,21).

A két eloszlás nem egyezik, mivel a próbafüggvény számított értéke az elfogadási tartományba esik

8.3. Két- és többmintás statisztikai próbák

Gyakran előfordul, hogy két sokaságot akarunk vizsgálni, és a hipotézis két paraméter értékének egymáshoz való viszonyára vonatkozik. Ilyenkor kétmintás próbát hajtunk végre, azaz a sokaságokból 1-1 független, véletlen mintát veszünk a hipotézis ellenőrzése céljából. Az egymással összehasonlításra kerülő sokaságok időben, térben vagy bármilyen más tekintetben különbözhetnek egymástól.

8.3.1. Várható értékek különbözőségére irányuló próbák

Két sokaságból külön-külön és egymástól függetlenül vett minta alapján ellenőrizni kívánjuk a H 0 : μ 1 = μ 2 vagy konkrét minta esetén a H 0 : x ¯ 1 = x ¯ 2 hipotézis helyességét.

8.3.1.1. Kétmintás z-próba

Ha a két sokaság normális eloszlású, és ismert mindkét sokaság szórása, akkor a z-próbafüggvényt alkalmazzuk:

z= x ¯ 1 x 2 σ 1 2 n 1 + σ 2 2 n 2

A próba elfogadási tartománya megegyezik az egymintás z-próba elfogadási tartományával:

Alternatív hipotéziselfogadási tartomány
H 1 : μ 1 < μ 2  ( x 1 < x 2 ) [ z α ; [
H 1 : μ 1 μ 2  ( x 1 x 2 ) [ z α/2 ; z 1α/2 ]
H 1 : μ 1 > μ 2  ( x 1 > x 2 ) ] ˙ ; z 1α ]
7. bemutató feladat

A levegőszennyeződés vizsgálatakor az ülepedő por (g/m2/hó) mennyiségét mérték meg téli és nyári időszakban. A mérés eredménye:

Télen: n1=60; x ¯ 1 =5,1 ; σ 1 =3
Nyáron: n2=60; x ¯ 2 =5,9 ; σ 2 =3,9

Megoldás:

H 0 : x ¯ 1 = x ¯ 2

H 1 : x ¯ 1 x ¯ 2

z= x ¯ 1 x 2 σ 1 2 n 1 + σ 2 2 n 2 = 5,15,9 3 2 60 + 3,9 2 60 =1,26

z0,975=1,96
Az elfogadási tartomány: (-1,96¸1,96)
A számított érték az elfogadási tartományba esik, így a levegőszennyeződés a mért adatok alapján, azonos télen és nyáron.

8.3.1.2. Kétmintás t-próba

Ha a két normális eloszlású sokaság szórását nem ismerjük, és feltételezzük, hogy szórásuk lényegesen nem különbözik, ilyenkor t-próbát alkalmazunk:

t 0 = x 1 x 2 s d 1 n 1 + 1 n 2

s d = ( n 1 1)* s 1 2 +( n 2 1)* s 2 2 n 1 + n 2 2 (közös szórás)

A szabadságfok szf=n1+n2-2
A próba elfogadási tartománya megegyezik az egymintás t-próba elfogadási tartományával.

8. bemutató feladat

Egy üzemben a szerelési műveleteket két eltérő módon tanították be. A két csoportból mintát vettek, és feljegyezték a dolgozók teljesítményét. A kérdés, hogy 5%-os valószínűségi szinten van-e különbség a két szerelési mód között?

n1=16; x ¯ 1 =128 ; s1=18
n2=11; x ¯ 2 =112 ; s2=19

Megoldás:

H 0 : x 1 x 2
H 1 : x 1 < x 2

s d = (161)* 18 2 +(111)* 19 2 16+112 =18,41

t 0 = 128112 18,41 1 16 + 1 11 =2,22

Szf=25 t0,025(25)= -1,71, az elfogadási tartomány:

[ t α szf ; [ , azaz [ 1,71; [

Mivel a számított t-érték beleesik az elfogadási tartományba, ezért a nullhipotézist elfogadjuk, azaz az első betanítási módszer nem jobb, mint a második.

Ha a két minta szórása nagymértékben különbözik, akkor a kétmintás t-próba nem alkalmazható a két várható érték egyezésének eldöntésére. Ilyen esetekben az úgynevezett Welch-eljárást alkalmazzuk:

t f = | x 1 x 2 | s 1 2 n 1 + s 2 2 n 2

9. bemutató feladat

Egy üzemben a szerelési műveleteket két eltérő módon tanították be. A két csoportból mintát vettek, és feljegyezték a dolgozók teljesítményét. A kérdés, hogy 5%-os valószínűségi szinten van-e különbség a két szerelési mód között?

n1=16; ( x ¯ 1 =128 ; s1=18
n2=11; ( x ¯ 2 =112 ; s2=29

Megoldás:

H 0 : x 1 x 2
H 1 : x 1 < x 2

t f = | x 1 x 2 | s 1 2 n 1 + s 2 2 n 2 = | 128112 | 18 2 60 + 29 2 60 =1,63

Szf=25 t0,025(25)= -1,71, az elfogadási tartomány:

[ t α szf ; [ , azaz [ 1,71; [

Mivel a számított t-érték beleesik az elfogadási tartományba, ezért a nullhipotézist elfogadjuk, azaz az első betanítási módszer nem jobb, mint a második.

8.3.2. Két sokasági szórás egyezőségére irányuló próba

Ha a két sokaság normális eloszlású, a szórások egyezőségének vizsgálatára az F-próbafüggvény alkalmazható, ezért F-próbának nevezzük.

H 0 : σ 1 = σ 2 ,
a szabadságfokok az alábbiak: szf1=n1-1; szf2=n2-1.

F= σ 1 2 σ 2 2 vagy F= s 1 2 s 2 2

Az F-eloszlás nem szimmetrikus, elfogadási tartománya a következő:

Alternatív hipotéziselfogadási tartomány
H 1 : σ 1 < σ 2 [ F sz f 2 (α) sz f 1 ; [
H 1 : σ 1 σ 2 [ F sz f 2 (α/2) sz f 1 ; F sz f 2 (1-α/2) sz f 1 ]
H 1 : σ 1 > σ 2 ] 0; F sz f 2 (1-α) sz f 1 ]

F Sz f 1 (α) Sz f 2 = 1 F Sz f 1 (1α) Sz f 2

10. bemutató feladat

Az előző példa folytatása. Ellenőrizzük 10%-os szignifikancia szinten azt a feltevést, hogy a munkások teljesítményének szórása megegyezik.

H 0 : σ 1 = σ 2 , H 1 : σ 1 σ 2

F= 18 2 19 2 =0,8976

szf1=15;  szf2=10

[ F 10( 0,05 ) 15 =0,351; F 10( 0,95 ) 15 =2,85 ]

A számított érték belesik az elfogadási tartományba, így a nullhípotézist elfogadjuk, azaz a teljesítmények szórása között nincs szignifikáns különbség.

8.3.3. Két eloszlás egyezőségének a vizsgálata

Két eloszlás egyezőségének a vizsgálatát homogenitás vizsgálatnak is nevezzük.

Feltételezzük, hogy valamely változó két sokaságon belüli eloszlása azonos. Erre a χ 2 -eloszlású próbafüggvényt alkalmazzuk. A két minta elemszáma n1 és n2, akkor χ 2 értéke:

χ 2 = n 1 * n 2 * 1 n 1i + n 2i * ( n 1i n 1 n 2i n 2 ) 2 n 1i n 1 = g i ...........relatívgyakoriság

11. bemutató feladat

A virágárakat vizsgálva a pesti és budai virágüzletekben arra keresték a választ, hogy a virágárak eloszlása azonos-e a két helyen 99%-os konfidenciaszinten.

ÁrBudaPestszámítások
árusok száma (db)n1i+n2ig1ig2i 1 n 1i + n 2i * ( n 1i n 1 n 2i n 2 ) 2
0-553580,04000,05950,000048
56-65226280,29330,07140,001759
66-751818360,24000,21430,000018
76-851821390,24000,25000,000003
86-95618240,08000,21430,000752
96-105610160,08000,11900,000095
105-2680,02670,07140,000250
összesen.7584159110,002925

χ 2 = n 1 * n 2 * 1 n 1i + n 2i * ( n 1i n 1 n 2i n 2 ) 2 =75*84*0,002925=18,4275

szf=7-1=6;  α 2 =0,005;  1α 2 =0,995

ca=0,68;  cf=18,5

Az elfogadási tartomány: (0,68; 18,5)

A számított érték beleesik az elfogadási tartományba, azaz a virágárak eloszlása azonos a két helyen.

8.3.4. Varianciaanalízis

Varianciaanalízissel kettőnél több sokaság várható értékének egyezősége tesztelhető.
A varianciaanalízis annak a nullhipotézisnek az ellenőrzésére szolgál, hogy kettőnél több, azonos szórású normális eloszlású valószínűségi változónak azonos-e a várható értéke.

H 0 : μ 1 = μ 2 == μ n =μ

A varianciaanalízis abból indul ki, hogy minden megfigyelés 3 komponens összege:

  • a várható érték: μ,
  • egy a j-edik sokaságra jellemző β j konstans,
  • és egy véletlen összetevő (hibaváltozó): ε ij .

A H 0 helyességét próbafüggvénnyel vizsgáljuk, és ez az F-próbafüggvény.

F= s k 2 s b 2 = SSK/(M1) SSB/(nM) = M S k M S H = M Q k M Q H

SSK: a csoportok közötti eltérés négyzetösszege (külső szórás négyzete)

SSK= i=1 m n i ( x ¯ i x ¯ ) 2

M: a csoportok száma
SSB: a csoportokon belüli eltérés négyzetösszege. (belső szórás négyzete)

SSB= i=1 m j=1 n i ( x ij x ¯ i ) 2

Ezen kívül ki kell számolni az összes adat szórásnégyzetét is.

SST= i=1 m j=1 n i ( x ij x ¯ )

Vagy:

SST=SSK+SSB (teljes szórás négyzete)

A varianciatáblázat a következő lesz:

A szóródás okaSS (SQ)DF(FG)MS(MQ)F
Külső (kezelés)SSKM-1 s k 2 s k 2 s b 2
Belső (hiba)SSBn-M s b 2
TeljesSSTn-1

Az F-próba jobboldali próba. Ha a tapasztalati F-érték (számított) nagyobb az elméleti F-értéknél (táblázatbeli), akkor a várható értékek egyezőségére vonatkozó nullhipotézist az adott szignifikanciaszint mellet elvetjük, és az alternatív hipotézist fogadjuk el.

12. bemutató feladat

Egy kis élelmiszerbolt tulajdonosa feltételezte, hogy a hétfői és szombati napokon nem ugyanannyi a sajt forgalma, mint a hét többi napján. Azért, hogy a sajtrendelésit jobban le tudja adni, feljegyezte a forgalmat az adott napokon:

NapokMegfigyelt napok számaEladott mennyiség (kg)ÁtlagVariancia (szórásnégyzet)
Hétfő630,40,54,34,44,504284,8
egyéb1049,43,30,59,35,46,
42,35,36,43
41,870,4
szombat652,58,57,70,54,5457,5042,3
Össz.2246,136111,17

Ellenőrizzük 5%-os szignifikancia szinten, hogy a sajtforgalom azonos a megfigyelt napokon.

SST=21*111,17=2334,57
SSB=5*84,8+9*70,4+5*42,3=1269,1
SSK=2334,57-1269,1=1065,47

s k 2 =SSK/(M-1)= 1065,47/2=532,735
s b 2 =SSB/(n-M)= 1269,1/19=66,795
F=532,735/66,795=7,976

A sajtforgalom variancianalízis táblázata

A szóródás okaSS (SQ)DF(FG)MS(MQ)F
Milyen nap1065,472532,7357,976
Hiba1269,11966,795
Teljes2334,5721

Mivel F0,95(2;19)=3,52, azaz a táblázatbeli érték kisebb, mint a számított F-érték, így a várható értékek egyezését állító nullhipotézis elvethető. A hét vizsgált napjain 5%-os szignifikancia szinten nem egyforma a sajtforgalom átlagos nagysága.

Önellenőrző feladatok

1. Egy édesipari üzemben a cukorkát tartalmazó zacskók szabvány szerinti töltési tömege 50 dkg. A töltési tömeg normális eloszlású. Egy vizsgálat során a véletlenül kiválasztott 25 zacskó töltési tömegének átlaga 49,6 dkg volt 1,71 dkg szórással.

Vizsgálja meg 5%-os szignifikancia szinten, hogy a zacskók töltési tömege megfelel-e a szabvány szerinti tömegnek!

a) A próbafüggvény számított értéke:
+1,10
-1,10
+1,17
-1,17
b) Az elfogadási tartomány alsó határa:
-1,96
-2,06
-2,16
-2,33
c) Az intervallum felső határa:
1,96
2,00
2,06
2,16

2. Egy adott technológiával gyártott háztartási gép szabvány szerinti élettartama 12 ezer üzemóra, 3 ezer üzemóra szórással. Módosítottak a gyártási technológián és az új technológiával készült háztartási gépek közül kiválasztottak 100-at, a minta alapján az átlagos élettartam 15 ezer üzemóra.

Ellenőrizze 2%-os szignifikancia szinten, hogy az új technológiával gyártott háztartási gépek átlagos élettartama meghaladja-e a szabvány szerintit!

a) A próbafüggvény számított értéke:
-9
9
-10
10
b) Melyik hipotézist fogadjuk el?
H1
H0

3. Vizsgálja meg 5%-os szignifikancia szinten az előző feladat adati alapján, hogy a gépek élettartamának szórása eltér-e szabványtól, ha a minta átlagának szórása3,2 ezer üzemóra!

a) A próbafüggvény számított értéke
74,2
112,6
129,6
142,3
b) Jelölje meg, hogy melyik hipotézist fogadjuk el!
H0
H1

4. Egy diabetikus szeretné meghatározni, hogy a napszak befolyásolja-e a kávéfogyasztást. A kávéház vendéginek mintája alapján feljegyezték a fogyasztást:

Kora reggelKéső reggelKora délutánKéső délután
Kávérendelés35811
Egyéb rendelés52485147

5%-os szignifikancia szinten a diabetikus elfogadja, vagy elutasítja azt a nullhipotézist, hogy a kávérendelések száma azonos a különböző napszakokban?

a) A próbafüggvény számított értéke
3,37
4,57
5,37
6,57
b) Jelölje meg, hogy melyik hipotézist fogadjuk el!
H0
H1
c) Válassza ki a helyes megfogalmazást!
A kávérendelések száma azonos a különböző napszakokban, azaz a kávéfogyasztás független a napszakoktól.
A kávérendelések száma nem azonos a különböző napszakokban, azaz a napszak meghatározza a kávéfogyasztást.

6. Egy automata töltőgép az egyik fajta szárazsüteményt dobozokba tölti. A dobozok töltési tömegének szórása 8 gramm. A töltési tömeg normális eloszlású. Két egymást követő napon 40-40 dobozt vizsgáltak meg. A mintában az átlagos töltési tömegek:

1. nap: 595,5 gramm.
2. nap: 603,7 gramm

a) A próbafüggvény számított értéke
4,58
-4,58
1,96
-1,96
b) Jelölje meg, hogy melyik hipotézist fogadjuk el!
H1
H0

7. A személysérüléssel járó közúti közlekedési balesetekre vonatkoznak az alábbi, mintavételből származó adatok:

A baleset ideje a nap órái szerintBalesetek száma
BudapestAz ország többi részén
0-854138
8-1280199
12-1539187
15-1863223
18-2445196
Összesen281943

Azonos-e a balesetek számának eloszlása a két helyen 5%-os szignifikancia szinten?

a) A próbafüggvény számított értéke
0,48
11,10
14,89
16,54
b) Jelölje meg, hogy melyik hipotézist fogadjuk el!
H0
H1

8. Egy cég négy különböző típusú autógumi kopásállóságát vizsgáltatta meg. Az 5-5 elemű mintákban a futófelület kopása alapján meghatározott élettartamok ezer km-ben kifejezve az alábbiak voltak:

TípusKopásállóságÁtlagVariancia
A5361585657578,5
B51606467586037,5
C46505750475018,5
D50595356475322,5

A minta főátlaga: 55, varianciája pedig 33,58.

Varianciaanalízissel ellenőrizze, hogy az egyes gumiabroncsok kopásállósága 5%-os szignifikancia szinten azonosnak tekinthető-e!

a) A próbafüggvény számított értéke
-3,24
3,24
-4,44
4,44
b) A táblázatbeli F-érték:
2,54
3,68
3,24
2,15
c) Válassza ki a helyes megfogalmazást!
Az abroncsok kopásállósága 5%-os szignifikancia szinten nem tekinthető azonosnak.
Az abroncsok kopásállósága között 5%-os szignifikancia szinten nincs különbség.