KURZUS: Statisztika II.

MODUL: I. modul: Becslés

3. lecke: Becslés rétegezett mintavétel setén

Követelmények

Ön akkor sajátította el megfelelően a tananyagot, ha

  • a felsorolásból ki tudja választani a rétegezett mintavétel jellemzőit
  • ki tudja választani a felsorolásból a rétegezett mintavétel típusait
  • adott minta alapján el tudja dönteni, hogy milyen típusú a rétegezett mintavétel
  • az adatok alapján ki tudja számolni a konfidencia intervallumot
Tananyag

A rétegezett mintavétel lényege az, hogy ha a sokaság heterogén, és van ismeretünk arra vonatkozóan, hogy hogyan lehet többé-kevésbé homogén részekre bontani, akkor ezeket, a homogén részsokaságokat tekintjük rétegeknek, a mintavételt és a becslést rétegenként hajtjuk végre. Ezt követően a kapott eredményeket átlagolva jutunk el a fősokaságra vonatkozó becsléshez.

Egy N-elemű sokaságot M-rétegre bontunk. Minden rétegből mintát veszünk.

A sokasági főátlag becslésére a rétegminta-átlagok sokasági rétegsúlyokkal súlyozott átlagát használjuk. Mivel a rétegsúlyokat ismertnek tekintjük, és a rétegátlagok torzítatlanul becsülik a megfelelő sokasági rétegátlagokat, a főátlag becslése is torzítatlan lesz.

3.1. Becslés nem arányos elosztás esetén

Nem arányos elosztás esetén a minta átlagát az alapsokasági adatokból számítjuk ki.

X = Σ N i * x i Σ N i

A konfidencia intervallum meghatározásához szükségünk van a becslőfüggvény standard hibájára, de a könnyebb számolás miatt először annak négyzetét számoljuk ki:

σ x ¯ (R) 2 = ( N i N ) 2 * σ i 2 n i *( 1- n i N i ) σ x ¯ (R) = σ x ¯ (R) 2

Ahol:
N: az alapsokaság elemszáma
Ni: az adott réteg elemszáma a sokaságban
ni: az adott réteg elemszáma a mintában
σ i 2 : az adott réteg szórásnégyzete

A becsléshez a z-próbafüggvényt alkalmazzuk:

Δ= z p * σ x ¯ (R) n

A konfidencia intervallum pedig:

( x R ±Δ)

Ha a sokaság rétegszórását nem ismerjük, akkor a mintákból kell kiszámítani:

s x ( R ) 2 =Σ ( N i N ) 2 * s i 2 n i *( 1 n i N i ) s x ( R ) = s x ( R ) 2 ( x R ± z p * s x ( R ) ) az intervallum

Nagy elemszámú minta esetén a z-, és t-próba értékei megegyeznek, és a rétegezett mintavétel esetén nagy mintával dolgozunk.

Ha az alapsokaság elemszáma a mintához képest nagyon nagy, pl egy nagyvárosban megkérdezünk 200 főt, akkor az ( 1 n i N i ) -vel nem számolunk, azt elhagyjuk a képletből.

3.2. Becslés arányos elosztás esetén

Az egyes rétegek aránya megegyezik, azaz:

N i N = n i n X ¯ AR =Σ N i N * x ¯ i = Σ N i * x i N X ¯ AR =Σ n i n * x ¯ i = Σ n i * x i n

Azaz a becslőfüggvény a rétegátlagoknak a mintabeli rétegarányokkal súlyozott számtani átlaga. Szükségünk van a belső szórásnégyzetre, ugyanis a kombinált becslés szórása csak a rétegeken belüli szóródásoktól függ, és független a rétegek közötti (külső) szóródástól.

σ b 2 = Σ n i * σ i 2 Σ n i ; s b 2 = Σ( n i 1)* s i 2 Σ n i σ x 2 = σ b 2 n *(1 n N ); s x 2 = s b 2 n *(1 n N )

Az intervallum pedig:

( x ± z p * s x )...vagy...( x ± z p * σ x )

3.3. Értékösszegsor becslés

Rétegezett mintavétel esetén az értékösszegsor becslésekor a kiszámított sokaság várható értékére adott konfidencia intervalluma határait meg kell szorozni a sokaság elemszámával.

N*( x ± z p * s x )...vagy...N*( x ± z p * σ x )

Bemutató feladat

1. Egy gazdaságban 2000 almafa össztermését kívánják megbecsülni. Két almafajta terméséből vettek rétegezett mintát

FajtaFák száma (db)mintaelemek
Összesenmintaátlaga
(kg/fa)
szórása
(kg/fa)
A150025010725
B50015010018
Összesen2000400--

A becslést 95%-os megbízhatósági intervallumban szeretnék megkapni.
A rétegezés aránya az 'A' fajta esetén: 1500/2000=0,75 a sokaságban250/400=0,625 a mintában, azaz nem arányos az elosztás

Az átlag: x R = 1500*107+500*100 2000 =105,25

s x ¯ ( R ) 2 =Σ ( N i N ) 2 * s i 2 n i *( 1 n i N i )= ( 1500 2000 ) 2 * 25 2 250 *( 1 250 1500 )+ + ( 500 2000 ) 2 * 18 2 150 *( 1 150 500 )=1,1719+0,0945=1,2664 s x ¯ ( R ) = s x ¯ ( R ) 2 = 1,2664 =1,1253 z 0,975 =1,96 Δ= z p * s x ¯ ( R ) =1,96*1,1253=2,21

105,25±2,21

Egy almafa átlagos termése103,04 kg és 107,46. kg között várható. Az egész gazdaságra vonatkozóan értékösszegsort kell becsülni: 2000*(105,25 ±2,21)kg. A gazdaságban 206,08 t és 214,92 t közötti mennyiség várható almából.

2. Egy gazdaságban 2000 almafa össztermését kívánják megbecsülni. Két almafajta terméséből vettek rétegezett mintát

FajtaFák száma (db)mintaelemek
Összesenmintaátlaga
(kg/fa)
szórása
(kg/fa)
A150015010725
B5005010018
Összesen2000200

A becslést 95%-os megbízhatósági intervallumban szeretnék megkapni.
A rétegezés aránya a sokaságban és a mintában az 'A' fajta: 1500/2000=150/200=0,75

Az átlag: x R = 150*107+50*100 200 =105,25

A kiválasztási arány: n N = n A N A = n B N B =0,1

A belső szórásnégyzet: s B 2 = 149* 25 2 +49* 18 2 200 =545,005

Az átlag hibanégyzete: s x R 2 = 545,005 200 *0,9=2,4525

A standard hiba: s x R = 2,2425 =1,5660

α=0,05    1 α 2 =0,975    z0,975=1,96

Δ=1,5660*1,96=3,069

(105,25 ±3,069)

102,18 kg és 108,32 kg között várható az átlagtermés gyümölcsfánként.

Értékösszeg becslésekor a várható érték konfidencia határait kell megszorozni N-nel.

A példánkban így a teljes termés 204,36 t és 216,64 t között várható

Önellenőrző feladatok

Jelölje be a helyes állítást!

1/a
Rétegezett mintavétel esetén a sokaságot rétegekre bontjuk, és egy réteg lesz a minta.
Rétegezett mintavétel esetén a sokaságot rétegekre bontjuk, és az egyes rétegekből egyszerű véletlen mintavétellel választjuk ki a mintát.
1/b
A sokasági átlag becslésére a réteg-mintaátlagok sokasági rétegsúlyával súlyozott átlagot használjuk.
A sokasági átlag becslésére a réteg-mintaátlagok összegét használjuk.
1/c
Nem arányos elosztás esetén a sokasági átlag a minta elemszámának súlyozásával állapítható meg.
Nem arányos elosztás esetén a sokasági átlag a sokaság elemszámának súlyozásával állapítható meg.
Nem arányos elosztás esetén a sokasági átlag a minta elemszámának vagy a sokaság elemszámának súlyozásával állapítható meg.

2. A házimunkára fordított időt vizsgálva egy 80.000 lakosú lakótelepen, ahol a lakosok közül 36.000 a férfi, 1000 elemű mintát vettek. Az alábbi adatok ismertek:

NemA lakosok száma a mintábanA házimunkával töltött idő (óra)
Átlagszórás
A mintában
Férfi4500,61,5
5504,01,2
Összesen:1000--
2/a. Írja be a mezőkbe a megfelelő értékeket! A számításokat 2 tizedesjegy pontossággal végezze el!

A férfiak aránya a sokaságban:
A férfiak aránya a mintában:
Az átlagos házimunkával töltött idő: óra

2/b Határozza meg a házi munkával töltött napi átlagos időt a felnőtt lakosság egészére 95%-os megbízhatósági szinten. Írja be a mezőkbe a megfelelő értékeket! A számításokat a standard hiba esetén 3 tizedesjegy, a többi esetben 2 tizedesjegy pontossággal végezze el!

A standard hiba:
A becsléshez szükséges táblázatbeli érték:
Az intervallum alsó határa: óra
Az intervallum felső határa: óra

3. Postai levélforgalmat vizsgálva 3 (A, B, C) rétegbe osztották forgalom szerint a hivatalokat és mindegyik rétegből mintát vettek az alábbiak szerint:

Megn.Sokaság (db)Minta (db)A minta
(edb)
Átlagszórás
A803810154
B42026126
C2690321,50,8
Összesen319096--
3/a. Írja be a mezőkbe a megfelelő értékeket! A számításokat 3 tizedesjegy pontossággal végezze el!

Az 'A' részsokaság aránya az alapsokaságban:
Az 'A' részsokaság aránya a mintában:
Az átlagos postai forgalom: ezer db

3/b Határozza meg az átlagos levélforgalmat 95%-os megbízhatósági szinten. Írja be a mezőkbe a megfelelő értékeket! A számításokat a táblázatbeli érték esetén 2 tizedesjegy a többi esetben 3 tizedesjegy pontossággal végezze el!

A standard hiba:
A becsléshez szükséges táblázatbeli érték:
Az intervallum alsó határa: ezer db
Az intervallum felső határa: ezer db

3/c. Mennyi a posták összes levélforgalma 95%-os megbízhatósági szinten? A végeredményt kerekítse egész számra!

A posták összes levélforgalma és ezer db.