KURZUS: Statisztika II.

MODUL: I. modul: Becslés

2. lecke: Egymintás statisztikai becslések EV mintából

Követelmények

Ön akkor sajátította el megfelelően a tananyagot, ha

  • tudja a becslőfüggvény jelentését,
  • ki tudja választani a felsorolásból az egy és kétoldalú intervallum meghatározásának módját,
  • használni tudja a "z"-, a "t"- és a χ 2 -táblákat,
  • meg tudja határozni a valószínűségi szintet,
  • önállóan ki tudja számolni az átlagra és a szórásra a konfidencia intervallumot,
  • értelmezni tuja a kiszámított intervallumok jelentését,
  • meg tudja határozni a minta szükséges elemszámát.
Tananyag

A statisztikai becslés az alapsokaságot alkotó valószínűségi változók eloszlásának, jellemzőinek és paramétereinek becslését jelenti az alapsokaságból vett mintából számított mutatók alapján. A statisztikai becsléseket úgynevezett becslőfüggvények segítségével végezzük el. A becslőfüggvény olyan valószínűségi-változó függvény, ami valamely sokasági jellemző mintából történő közelítő meghatározására szolgál.

Egy sokasági jellemzőre több becslőfüggvény is készíthető. A hogy a véletlen minta elemei valószínűségi változók, ugyanúgy a becslőfüggvény értéke is az. Egy adott n-elemű minta csak egyetlen becsült értékkel rendelkezik. A minta alapján az alapsokaságnak többféle jellemzője is becsülhető, pl.:

  • számtani átlag,
  • értékösszeg,
  • arány és megoszlás,
  • hányados.

A becslőfüggvény akkor lesz jó, ha a különféle (véletlen) minták esetén értéke a becsülni kívánt jellemző körül ingadozik, és az ingadozás lehetőleg kicsi. A becslőfüggvénnyel szemben támasztott követelmények:

  • torzítatlanság,
  • hatásosság,
  • koncisztencia.

Két becslőfüggvény közül, ha más kritériumot nem veszünk figyelembe, a torzítatlant részesítjük előnybe.

Két torzított becslőfüggvény esetén azt tekintjük a jobbnak, amelyiknél a torzítás abszolút értéke kisebb.

2.1. Pontbecslés

A becslőfüggvény értékéről közismert, hogy valószínűségi változó, de egy n elemű mintához csak egyetlen konkrét értéket rendelhetünk. Az eddig tanult sokasági jellemzők (átlag, szórás) becslését is elvégezhetjük pontbecsléssel. A számítás megegyezik például az átlag esetén a korábban tanultakkal (Statisztika I.). Az átlagról azonban tudjuk, hogy nem a sokaság minden tagjára vonatkozó adatok ismeretében számoltuk ki, hanem a mintából így bizonytalanságot rejt magába, ezért a pontbecslés helyett a leggyakrabban az un. intervallumbecslést alkalmazzuk.

2.2. Intervallumbecslés

Azt keressük, hogy hol vannak a becslésnek azok az alsó és felső határai, amelyek nagy valószínűséggel tartalmazzák a becsülni kívánt jellemzőket. Ezt az intervallumot konfidencia intervallumnak nevezzük. A konfidencia intervallum számításának módja az, hogy a mintát és megfelelő külső információkat felhasználva előre megadott α függvényében meghatározzuk a az alsó (Ca) és a felső (Cf) határokat.

P( Θ a(α) Θ Θ f(α) )=1α

Az 1α az előre megadott megbízhatósági vagy konfidencia paraméter.

Általában szimmetrikus intervallumokat keresünk. Az intervallumbecslésnél is több esetet különböztetünk meg.

2.2.1. Normális eloszlású sokaság esetén, ha a sokaság szórása ( σ) ismert

A becsléshez a z-próbafüggvényt alkalmazunk. A valószínűségi változó.

z= μ μ σ n

Keressük a z1 és z2 konfidencia intervallumot, amely 1α valószínűséggel tartalmazza a z változót. Mivel μ-re, (várható értékre) keressük az intervallumot, ezért a konfidencia intervallum az alábbi lesz:

μ z p * σ n ; μ + z p * σ n ; .

Konkrét minta esetén:

x z p * σ n ; x + z p * σ n ; .

Először ki kell számolni a standard hibát:

σ x ¯ = σ n

A zp értékét "A standard normális eloszlás eloszlásfüggvényeinek értékei" című táblázatból keressük ki a megfelelő valószínűségi szinten (p).

A z p * σ n mennyiséget hibahatárnak vagy maximális hibának nevezzük, és Δ-val jelöljük.

Δ= z p * σ n

Az intervallumbecslés általában kétoldalú, mivel a becsült érték köré szimmetrikus intervallumot szerkesztünk, azaz az intervallum alsó és felső határát pontosan meghatározzuk. Ebben az esetben a táblázatból nem az ( 1α ) valószínűségi szinthez tartozó értéket keressük, hanem az
( 1 α 2 )-hez tartozót. Pl. ha ( 1α )=95%=0,95, akkor α=0,05, tehát α 2 =0,025, így ( 1 α 2 )=0,975. A "z"-értékek táblázatból a 0,975-höz tartozó értéket keressük ki, amely 1,96, azaz z0,975=1,96.

Egyoldalú intervallum esetén, az ( 1α ) valószínűségi szinthez tartozó értéket keressük, az intervallumnak csak a felső határát tudjuk megállapítani, az alsó határ a negatív végtelen lesz. A "z"-értékek táblázatból a 0,95-höz tartozó értéket keressük ki, amely 1,65, azaz z0,95=1,65.

A becslési hibahatárt többféleképpen csökkenthetjük:

  • Csökkentjük a standard hibát: a standard hiba, a mintaátlag szórása csak a minta elemszámától függ, mégpedig annak gyökével fordítottan arányos. Így az elemszám növelésével csökken a standard hiba, és ezáltal a konfidencia intervallum is.
  • Csökkentjük a meg bízhatósági szintet, így azaz zp-értéke is kisebb lesz és szintén kisebb lesz a hibahatár.
Bemutató példa

Egy gépkocsi típus átlagos fogyasztásának szórása a gyári adatok alapján 0,9 l/100 km. A vizsgálat céljából vett 50 elemű minta átlaga 6,2 l/100 km. 95%-os megbízhatósági szinten állapítsuk meg a fogyasztás konfidencia intervallumát!

a) Először ki kell számolni a standard hibát:

σ x ¯ = σ n = 0,9 50 =0,13

A "z"-értékek a "A standard normális eloszlás eloszlásfüggvényének értékei" című táblázatból keressük ki. Megkeressük a táblázat belsejében a 0,975-ös értéket,és leolvassuk az oldal- és fejlécet. Az oldallécben 1,96, a fejlécben 6 an tehát:

z0,975=1,96

Δ= z p * σ x ¯ =1,96*0,13=0,25

(6,20,25;6,2+0,25) A gépkocsik átlagos fogyasztása 5,95 és 6,45 l között van 100 km-ként.

b) Nézzük meg, ha a minta elemszáma 100 lett volna, hogyan alakul a konfidencia intervallum.

σ x ¯ = σ n = 0,9 100 =0,09     Δ= z p * σ x ¯ =1,96*0,09=0,17640,18

(6,20,18;6,2+0,18) A gépkocsik átlagos fogyasztása 6,02 és 6,38 l között van 100 km-ként.

c) Legyen a megbízhatósági szint 90%., az elemszám az eredetei, azaz n=50

z0,95=1,65

σ x ¯ = σ n = 0,9 50 =0,13     Δ= z p * σ x ¯ =1,65*0,13=0,2145

(6,20,2145;6,2+0,2145) A gépkocsik átlagos fogyasztása 5,9855 és 6,4145 között van 100 km-ként.

2.2.2. Normális eloszlású sokaság esetén, ha a sokasági szórás nem ismer, illetve nem normális, de ismert eloszlású sokaság esetén, h nagy mintát vettünk

Mivel az alapsokaság szórása nem ismert, így azt is becsülni kell, azaz a mintából számítjuk ki. Ilyenkor z-valószínűségi változó helyett t-valószínűségi változót (Student-féle eloszlás) használjuk.

t= μ μ s n

A t-eloszlású valószínűségi változó szabadságfoka: szf=n-1.
Először ki kell számolni a standard hibát:

s x ¯ = s n

A hibahatár: Δ= t p (szf) * s n ,

az intervallum pedig: ( x ¯ t p (szf) * s n ; x ¯ + t p (szf) * s n )

A t-eloszlás is szimmetrikus eloszlás, azaz a z-eloszláshoz hasonlóan alakul az egy kétoldalú intervallum. A szabadságfok növelésével a t-eloszlás egyre inkább közelít a normális eloszláshoz, száznál nagyobb mintaszám esetén a két eloszlás eltérése minimális.

Bemutató példa

Egy gépkocsi típus átlagos fogyasztásának vizsgálat céljából vett 50 elemű minta átlaga 6,2 l/100 km, szórása pedig 1,0 l/100km. 95%-os megbízhatósági szinten állapítsuk meg a fogyasztás konfidencia intervallumát!

Először ki kell számolni a standard hibát:

s x ¯ = s n = 1,0 50 =0,1414

A "t"-értékek " A t (Student) eloszlású változó eloszlásának kvantilis értékei" című táblázatban találhatóak, az szf=49-es szabadságfoknál, és a 0,975-höz tartozó értéket keressük ki:

t 0,975 ((49) =2,01

Δ= t p * s x ¯ =2,01*0,1414=0,2842

(6,20,2842;6,2+0,2842) A gépkocsik átlagos fogyasztása 5,9158 és 6,4842 között van 100 km-ként.

2.2.3. Értékösszegsor becslése

Nagyon nagy sokaság esetén általában nem az átlagra, hanem a sokasági értékösszegre keresünk konfidencia intervallumot. A feladat visszavezethető az átlagbecslésre.

Ha a várható érték: μ= x , akkor a sokasági értékösszeg

S i =N* x

A konfidencia intervallum alsó és felső határa a várhatóértékre meghatározzak N-szerese lesz.

N*( x z p * σ n );N*( x + z p * σ n );

Illetve:

N*( x ¯ t p (szf) * s n );N*( x ¯ + t p (szf) * s n )

Bemutató feladat

50.000 üvegből vett 500 minta alapján az átlagos töltőtömeg 497 g, a töltőtömeg szórása 19,49g. 95%-os valószínűséggel mennyi lesz az 50000 üveg töltősúlya?

s x ¯ = s n = 19,49 500 =0,8716

t 0,975 ((499) =1,96

Δ= t p * s x ¯ =1,96*0,8716=1,7083

Az értékösszegsor konfidencia intervalluma 50000*(4971,7083;497+1,7083) g, azaz 24.765kg és 24935 kg között várható az 50.000 db üveg össztöltősúlya.

2.2.4. Sokasági aránybecslés

A nem homogén sokaságot valamilyen minőségi vagy mennyiségi ismérv alapján két csoportba soroljuk és az egyes csoportokba esés valószínűségét kívánjuk meghatározni, akkor aránybecslést végzünk.

A sokasági arányt p-vel jelöljük. Ez azt jeleni, hogy egy egyedet kiválasztva p a valószínűsége annak, hogy az egyed rendelkezik az adott tulajdonsággal. Továbbra is feltételezzük, hogy független, azonos eloszlású minta áll rendelkezésünkre.

A standard hibát az arányokból számoljuk ki.

σ p = p*(1p) n vagy s p = p*(1p) n

A becslés a továbbiakban a z-próbafüggvénnyel történő becsléssel megegyező.

Bemutató feladat

A fővárosban 2000 megkérdezett közül 700 ember az egyik pártra szavazna. Becsüljük meg 99%-os valószínűséggel, hogy milyen határok között lesz az erre a pártra szavazók aránya az összeszámlálás után Budapesten.

p=700/2000=0,35

σ p = p*(1p) n = 0,35*(10,35) 2000 =0,011

1 α 2 =1-0,005=0,995    z0,995 =2,58;    Δ=2,58*0,011=0,028=2,8%

(35-2,8; 35+2,8)=(32,2;37,8)%

99%-os valószínűséggel arra számíthatunk, hogy a kiválasztott pártra szavazók aránya 32,20% vés 37,8% között lesz.

2.2.5. Sokasági szórásnégyzet vagy szórás becslése

A sokasági szórásnégyzet ( σ 2 ) becslésére a torzítatlan becslést eredményező korrigált tapasztalati szórásnégyzetet (s2) használjuk.

s 2 = Σ (y y ) 2 n1

Ha Y normális eloszlású, akkor bizonyítható, hogy az χ 2 = (n1)* s 2 σ 2 változó (n-1) szabadságfokú χ 2 -eloszlást követ. A χ 2 -eloszlás aszimmetrikus, így a konfidencia intervallum az alábbi:

P( χ α/2 2 (szf) (n1)* s 2 σ 2 χ 1α/2 2 (szf))=1α

Átrendezve:

P( (n1)* s 2 χ 1α/2 2 (szf σ 2 (n1)* s 2 χ α/2 2 (szf =1α

χ 1α/2 2 (szf) és a χ α/2 2 (szf) értékét táblázatból kell kikeresni a megfelelő szabadságfoknál és valószínűségi szintnél.

Konkrét minta esetén a szórás intervalluma a következő:

(n1)* s 2 χ 1α/2 2 (szf) σ (n1)* s 2 χ α/2 2 (szf)

Bemutató feladat

250 g-os kávét csomagoló gép működését vizsgálva 100 elemű mintát veszünk. A töltési tömeg normális eloszlású. Határozzuk meg, hogy milyen határok között lesz a kávécsomagok töltési tömegének szórása 95%-os valószínűségen. Az átlag töltési súly 248g, a minta szórása 5,53g.

Szf=100-1=99;  α=0,05,  α 2 =0,025,  1 α 2 =0,975,

χ 2 0,025(99)=74,2;  χ 2 0,975(99)=129,6

Δ 1 = (n1)* s 2 χ 0,975 2 = 99* 5,53 2 129,6 =4,83g Δ 2 = (n1)* s 2 χ 0,025 2 = 99* 5,53 2 74,2 =6,39g

A nettó töltési tömeg szóródása (ingadozása) 95%-os valószínűségi szinten 4,83g és 6,39g között van.

2.2.6. Adott intervallumszélességhez tartozó elemszám illetve valószínűségi szint meghatározása

Eddig adott elemszám és valószínűségi szint mellett határoztuk meg a konfidencia intervallumot. A becsléskor azonban előre rögzíthetjük a hibahatárt és ehhez kell meghatározni a szükséges minta elemszámát adott valószínűségi szinten. Ha az elemszám és a hibahatár is adott, akkor meg tudjuk mondani, hogy hány százalékos valószínűséggel kerül a sokasági jellemző az adott elemszám esetén az előre meghatározott intervallumba.

Elemszám meghatározása:adott az intervallum és a valószínűség.

Mivel: ±Δ= z p * σ n illetve ±Δ= t p ( szf ) * s n , átalakítás után az alábbiakat kapjuk:

n= ( z p *σ Δ ) 2 illetve n= ( t p ( szf ) *s Δ ) 2

Valószínűségi szint meghatározása:

±Δ= z p * σ n és a ±Δ= t p ( szf ) * s n képletek az átalakítás után az alábbiak:

z p = Δ* n σ illetve t p ( szf ) = Δ* n s .

A kiszámított zp-értékhez tartozó táblázatbeli Φ( z ) -értékből tudjuk a valószínűséget kiszámítani:

P=Ψ( z )=Φ( z )( 1Φ( z ) ) ,

ahol
P=Ψ( z ) : a keresett valószínűség,
Φ( z ) : a kiszámított z-értékhez tartozó táblázatbeli érték.

A t-eloszlás esetében a kiszámított értéket megkeressük a táblázatban az adott szabadságfoknál, és leolvassuk a hozzá tartozó valószínűséget.

Bemutató feladat

Egy vizsgálat során, megállapították, hogy a hallgatók átlagos testmagassága 169 cm és 173 cm között van 95%-os valószínűséggel.
A sokaság szórása 9,99 cm.

Hány hallgatót vontak be a vizsgálatba?

n= ( z p *σ Δ ) 2 = ( 1,96*9,99 2 ) 2 =95,84 , azaz 96 hallgató testmagasságát mérték le.

Mekkora valószínűségi szinten végezték a vizsgálatot, ha 200 hallgató esetében is ugyanezt a konfidencia intervallumot kapták?

z p = Δ* n σ = 2* 200 9,99 =2,83

A táblázatbeli Φ( z ) =0,9977
P=0,9977-(1-0,9977)=0,9954=99,54%.
Tehát a vizsgálatot 99,54%-os megbízhatósági szinten végezték.

Önellenőrző feladatsor
1. Jelölje meg a helyes megfogalmazást!
Mi a becslőfüggvény?
A becslőfüggvény egy olyan függvény, amely a minta alapján jellemzi a sokaságot.
A becslőfüggvény egy olyan matematikai függvény, amely valamely sokasági jellemző mintából történő meghatározására szolgál.
A becslőfüggvény egy olyan matematikai függvény, amely egy sokasági jellemző alapján határozza meg a mintát.
2. A becslőfüggvénnyel szemben támasztott követelmények:
Pontosság
Hatásosság
Arányosság
Torzítatlanság
3. Jelölje be a helyes állítást!
Egyoldalú intervallumbecslés estén vagy az alsó vagy a felső határt számítjuk ki.
Egyoldalú intervallumbecslés estén csak az alsó határt számítjuk ki.
Egyoldalú intervallumbecslés estén csak a felső határt számítjuk ki.
4. Az alábbiakban megadott "z"-értékekhez keresse meg a hozzájuk tartozó valószínűségeket! A kiszámított értékeket 2 tizedesjegy pontossággal százalékban kifejezve írja be a táblázat megfelelő cellájába!
Standard normális eloszlásfüggvény értékei
"z"-érték1,651,762,183,15
Egyoldalú becslés eseténP(%)=
Kétoldalú becslés eseténP(%)=
5. Keresse ki a megnevezett statisztikai táblából a megadott feltételek mellett a táblabeli értékeket! A kikeresett értékeket írja a táblázat megfelelő celláiba!
Student eloszlás értékei ("t"-tábla)
SzabadságfokP=95%P=99%
Egyoldalú becslés eseténKétoldalú becslés eseténEgyoldalú becslés eseténKétoldalú becslés esetén
19
40
100
6. Keresse ki a megnevezett statisztikai táblából a megadott feltételek mellett a táblabeli értékeket! A kikeresett értékeket írja a táblázat megfelelő celláiba!
Khí2-eloszlás értékei
SzabadságfokP=95%P=99%
Egyoldalú becslés felső határaKétoldalú becslésEgyoldalú becslés felső határaKétoldalú becslés
alsó határafelső határaalsó határafelső határa
15
30
60
Egy település háztartásának havi villamos-energia fogyasztás szerinti megoszlása
Villamosenergia-fogyasztás (kWh)Háztartások száma (db)
-5020
51-10030
101-15060
151-20070
201-25040
251-30020
301-10
Összesen:250
7/a. Számítsa ki az átlagos fogyasztás mennyiségét és a szórást! A számításokat 1 tizedesjegy pontossággal végezze el! Írja be a mezőkbe a megfelelő értékeket!

A településen a háztartások átlagosan kWh villamos-energiát fogyasztanak
A villamos-energia fogyagyasztás szórás (korrigált tapasztalati szórás) kWh.

7/b Készítsen az átlagra kétoldalú konfidencia intervallumot 95%-os valószínűséggel! A számításokat 2 tizedesjegy pontossággal végezze el, kivéve a szabadságfok esetén, azt egészszámokkal adja meg! Írja be a mezőkbe a megfelelő értékeket!

A becslés szabadságfoka:
becsléshez szükséges táblázatbeli érték:
A standard hiba:
A hibahatár:
Az intervallum alsó határa: kWh
Az intervallum felső határa: kWh

7/c. A megfogalmazások közül válassza ki a megfelelőt!
Egy 250 elemű minta alapján 95%-os valószínűség mellett állíthatjuk, hogy a település háztartásai átlagosan legalább 151,79 kWh és legfeljebb 170,21 kWh villamos energiát használnak.
Egy 250 elemű minta alapján 95%-os valószínűség mellett állíthatjuk, hogy a település háztartásai átlagosan 151,81 kWh és 170,19 kWh közötti villamos energiát használnak.
7/d Mekkora elemszámú minta esetében lett volna a hibahatár 8kWh 95%-os valószínűségi szinten? Írja be a mezőkbe a megfelelő értékeket! Az eredményt kerekítse egészszámra!

A szükséges minta elemszáma:

Egy vállalat fizikai dolgozóinak megoszlása nettó keresetük alapján
Nettó kereset (eFt/hó)SzakmunkásBetanított munkásSegédmunkás
-50122838
51-100465619
101-15063123
151-2940
Összesen15010060
8/a. Írja be a mezőkbe a megfelelő értékeket! Egész számokkal dolgozzon!

A betanított munkások átlagkeresete: Ft/hó
A betanított munkások átlagkeresetének szórása: Ft/hó

8/b Határozza meg milyen értékek között van a betanított munkások átlagkeresetének szórása 95%-os valószínűségi szinten! Az eredményeket egész számra kerekítve adja meg!

A szabadságfok:
A szórás intervallumának alsó határa: Ft /hó
A szórás intervallumának felső határa: Ft /hó