KURZUS: Közlekedésstatisztika
MODUL: VI. modul: A reprezentatív megfigyelés, vagy mintavételi eljárás
16. lecke: Egymintás statisztikai becslések EV-mintából
Követelmények | ||
Ön akkor sajátította el megfelelően a tananyagot, ha | ||
| ||
Tananyag | ||
A statisztikai becslés az alapsokaságot alkotó valószínűségi változók eloszlásának, jellemzőinek és paramétereinek becslését jelenti az alapsokaságból vett mintából számított mutatók alapján. A statisztikai becsléseket úgynevezett becslőfüggvények segítségével végezzük el. A becslőfüggvény olyan valószínűségi-változó függvény, ami valamely sokasági jellemző mintából történő közelítő meghatározására szolgál. | ||
Egy sokasági jellemzőre több becslőfüggvény is készíthető. A hogy a véletlen minta elemei valószínűségi változók, ugyanúgy a becslőfüggvény értéke is az. Egy adott n-elemű minta csak egyetlen becsült értékkel rendelkezik. A minta alapján az alapsokaságnak többféle jellemzője is becsülhető, pl.: | ||
| ||
A becslőfüggvény akkor lesz jó, ha a különféle (véletlen) minták esetén értéke a becsülni kívánt jellemző körül ingadozik, és az ingadozás lehetőleg kicsi. A becslőfüggvénnyel szemben támasztott követelmények: | ||
| ||
Két becslőfüggvény közül, ha más kritériumot nem veszünk figyelembe, a torzítatlant részesítjük előnybe. | ||
Két torzított becslőfüggvény esetén azt tekintjük a jobbnak, amelyiknél a torzítás abszolút értéke kisebb. | ||
16.1. Pontbecslés | ||
A becslőfüggvény értékéről közismert, hogy valószínűségi változó, de egy n elemű mintához csak egyetlen konkrét értéket rendelhetünk. Az eddig tanult sokasági jellemzők (átlag, szórás) becslését is elvégezhetjük pontbecsléssel. A számítás megegyezik például az átlag esetén a korábban tanultakkal. Az átlagról azonban tudjuk, hogy nem a sokaság minden tagjára vonatkozó adatok ismeretében számoltuk ki, hanem a mintából így bizonytalanságot rejt magába, ezért a pontbecslés helyett a leggyakrabban az un. intervallumbecslést alkalmazzuk. | ||
16.2. Intervallumbecslés | ||
Azt keressük, hogy hol vannak a becslésnek azok az alsó és felső határai, amelyek nagy valószínűséggel tartalmazzák a becsülni kívánt jellemzőket. Ezt az intervallumot konfidencia intervallumnak nevezzük. A konfidencia intervallum számításának módja az, hogy a mintát és megfelelő külső információkat felhasználva előre megadott függvényében meghatározzuk az alsó (Ca) és a felső (Cf) határokat. | ||
Az az előre megadott megbízhatósági vagy konfidencia paraméter. | ||
Általában szimmetrikus intervallumokat keresünk. Az intervallumbecslésnél is több esetet különböztetünk meg. | ||
16.2.1. Normális eloszlású sokaság esetén, ha a sokaság szórása () ismert | ||
A becsléshez a z-próbafüggvényt alkalmazunk. A valószínűségi változó. | ||
Keressük a z1 és z2 konfidencia intervallumot, amely valószínűséggel tartalmazza a z változót. | ||
Mivel -re, (várható értékre) keressük az intervallumot, ezért a konfidencia intervallum az alábbi lesz: | ||
. | ||
Konkrét minta esetén: | ||
. | ||
Először ki kell számolni a standard hibát: | ||
A zp értékét "A standard normális eloszlás eloszlásfüggvényeinek értékei" című táblázatból keressük ki a megfelelő valószínűségi szinten (p). | ||
A mennyiséget hibahatárnak vagy maximális hibának nevezzük, és -val jelöljük. | ||
Az intervallumbecslés általában kétoldalú, mivel a becsült érték köré szimmetrikus intervallumot szerkesztünk, azaz az intervallum alsó és felső határát pontosan meghatározzuk. Ebben az esetben a táblázatból nem az () valószínűségi szinthez tartozó értéket keressük, hanem az | ||
Egyoldalú intervallum esetén, az () valószínűségi szinthez tartozó értéket keressük, az intervallumnak csak a felső határát tudjuk megállapítani, az alsó határ a negatív végtelen lesz. A "z"-értékek táblázatból a 0,95-höz tartozó értéket keressük ki, amely 1,65, azaz z0,95=1,65. | ||
A becslési hibahatárt többféleképpen csökkenthetjük: | ||
|
Bemutató példa | ||
Egy gépkocsi típus átlagos fogyasztásának szórása a gyári adatok alapján 0,9 l/100 km. A vizsgálat céljából vett 50 elemű minta átlaga 6,2 l/100 km. 95%-os megbízhatósági szinten állapítsuk meg a fogyasztás konfidencia intervallumát! | ||
a) Először ki kell számolni a standard hibát: | ||
A "z"-értékek a "A standard normális eloszlás eloszlásfüggvényének értékei" című táblázatból keressük ki. Megkeressük a táblázat belsejében a 0,975-ös értéket,és leolvassuk az oldal- és fejlécet. Az oldallécben 1,96, a fejlécben 6 an tehát: | ||
z0,975=1,96 | ||
A gépkocsik átlagos fogyasztása 5,95 és 6,45 l között van 100 km-ként. | ||
b) Nézzük meg, ha a minta elemszáma 100 lett volna, hogyan alakul a konfidencia intervallum. | ||
| ||
A gépkocsik átlagos fogyasztása 6,02 és 6,38 l között van 100 km-ként. | ||
c) Legyen a megbízhatósági szint 90%., az elemszám az eredetei, azaz n=50 | ||
z0,95=1,65 | ||
| ||
A gépkocsik átlagos fogyasztása 5,9855 és 6,4145 között van 100 km-ként. |
16.2.2. Normális eloszlású sokaság esetén, ha a sokasági szórás nem ismer, illetve nem normális, de ismert eloszlású sokaság esetén, h nagy mintát vettünk | ||
Mivel az alapsokaság szórása nem ismert, így azt is becsülni kell, azaz a mintából számítjuk ki. Ilyenkor z-valószínűségi változó helyett t-valószínűségi változót (Student-féle eloszlás) használjuk. | ||
A t-eloszlású valószínűségi változó szabadságfoka: szf=n-1. | ||
Először ki kell számolni a standard hibát: | ||
A hibahatár: , | ||
az intervallum pedig: | ||
A t-eloszlás is szimmetrikus eloszlás, azaz a z-eloszláshoz hasonlóan alakul az egy kétoldalú intervallum. A szabadságfok növelésével a t-eloszlás egyre inkább közelít a normális eloszláshoz, száznál nagyobb mintaszám esetén a két eloszlás eltérése minimális. |
Bemutató példa | ||
Egy gépkocsi típus átlagos fogyasztásának vizsgálat céljából vett 50 elemű minta átlaga 6,2 l/100 km, szórása pedig 1,0 l/100km. 95%-os megbízhatósági szinten állapítsuk meg a fogyasztás konfidencia intervallumát! | ||
Először ki kell számolni a standard hibát: | ||
A "t"-értékek "A t (Student) eloszlású változó eloszlásának kvantilis értékei" című táblázatban találhatóak, az szf=49-es szabadságfoknál, és a 0,975-höz tartozó értéket keressük ki: | ||
A gépkocsik átlagos fogyasztása 5,9158 és 6,4842 között van 100 km-ként. |
16.2.3. Értékösszegsor becslése | ||
Nagyon nagy sokaság esetén általában nem az átlagra, hanem a sokasági értékösszegre keresünk konfidencia intervallumot. A feladat visszavezethető az átlagbecslésre. | ||
Ha a várható érték: , akkor a sokasági értékösszeg | ||
A konfidencia intervallum alsó és felső határa a várhatóértékre meghatározzak N-szerese lesz. | ||
Illetve: | ||
Bemutató feladat | ||
50.000 üvegből vett 500 minta alapján az átlagos töltőtömeg 497 g, a töltőtömeg szórása 19,49g. 95%-os valószínűséggel mennyi lesz az 50000 üveg töltősúlya? | ||
Az értékösszegsor konfidencia intervallumag, azaz 24.765kg és 24935 kg között várható az 50.000 db üveg össztöltősúlya. |
16.2.4. Sokasági aránybecslés | ||
A nem homogén sokaságot valamilyen minőségi vagy mennyiségi ismérv alapján két csoportba soroljuk és az egyes csoportokba esés valószínűségét kívánjuk meghatározni, akkor aránybecslést végzünk. | ||
A sokasági arányt p-vel jelöljük. Ez azt jeleni, hogy egy egyedet kiválasztva p a valószínűsége annak, hogy az egyed rendelkezik az adott tulajdonsággal. Továbbra is feltételezzük, hogy független, azonos eloszlású minta áll rendelkezésünkre. | ||
A standard hibát az arányokból számoljuk ki. | ||
vagy | ||
A becslés a továbbiakban a z-próbafüggvénnyel történő becsléssel megegyező. |
Bemutató feladat | ||
A fővárosban 2000 megkérdezett közül 700 ember az egyik pártra szavazna. Becsüljük meg 99%-os valószínűséggel, hogy milyen határok között lesz az erre a pártra szavazók aránya az összeszámlálás után Budapesten. | ||
p=700/2000=0,35 | ||
=1-0,005=0,995 z0,995 =2,58; =2,58*0,011=0,028=2,8% | ||
(35-2,8; 35+2,8)=(32,2;37,8)% | ||
99%-os valószínűséggel arra számíthatunk, hogy a kiválasztott pártra szavazók aránya 32,20% vés 37,8% között lesz. |
16.2.5. Sokasági szórásnégyzet vagy szórás becslése | ||
A sokasági szórásnégyzet () becslésére a torzítatlan becslést eredményező korrigált tapasztalati szórásnégyzetet (s2) használjuk. | ||
Ha Y normális eloszlású, akkor bizonyítható, hogy az változó (n-1) szabadságfokú -eloszlást követ. A -eloszlás aszimmetrikus, így a konfidencia intervallum az alábbi: | ||
Átrendezve: | ||
és a értékét táblázatból kell kikeresni a megfelelő szabadságfoknál és valószínűségi szintnél. | ||
Konkrét minta esetén a szórás intervalluma a következő: | ||
Bemutató feladat | ||
250 g-os kávét csomagoló gép működését vizsgálva 100 elemű mintát veszünk. A töltési tömeg normális eloszlású. Határozzuk meg, hogy milyen határok között lesz a kávécsomagok töltési tömegének szórása 95%-os valószínűségen. Az átlag töltési súly 248 g, a minta szórása 5,53 g. | ||
Szf=100-1=99; =0,05, =0,025, =0,975, | ||
=74,2; =129,6 | ||
A nettó töltési tömeg szóródása (ingadozása) 95%-os valószínűségi szinten 4,83 g és 6,39 g között van. |
16.2.6. Adott intervallumszélességhez tartozó elemszám illetve valószínűségi szint meghatározása | ||
Eddig adott elemszám és valószínűségi szint mellett határoztuk meg a konfidencia intervallumot. A becsléskor azonban előre rögzíthetjük a hibahatárt és ehhez kell meghatározni a szükséges minta elemszámát adott valószínűségi szinten. Ha az elemszám és a hibahatár is adott, akkor meg tudjuk mondani, hogy hány százalékos valószínűséggel kerül a sokasági jellemző az adott elemszám esetén az előre meghatározott intervallumba. | ||
Elemszám meghatározása: adott az intervallum és a valószínűség. | ||
Mivel: illetve , átalakítás után az alábbiakat kapjuk: | ||
illetve | ||
Valószínűségi szint meghatározása: | ||
és a képletek az átalakítás után az alábbiak: | ||
illetve . | ||
A kiszámított zp-értékhez tartozó táblázatbeli -értékből tudjuk a valószínűséget kiszámítani: | ||
, | ||
ahol | ||
A t-eloszlás esetében a kiszámított értéket megkeressük a táblázatban az adott szabadságfoknál, és leolvassuk a hozzá tartozó valószínűséget. |
Bemutató feladat | ||
Egy vizsgálat során, megállapították, hogy a hallgatók átlagos testmagassága 169 cm és 173 cm között van 95%-os valószínűséggel. | ||
A sokaság szórása 9,99 cm. | ||
Hány hallgatót vontak be a vizsgálatba? | ||
, azaz 96 hallgató testmagasságát mérték le. | ||
Mekkora valószínűségi szinten végezték a vizsgálatot, ha 200 hallgató esetében is ugyanezt a konfidencia intervallumot kapták? | ||
A táblázatbeli =0,9977 | ||
P=0,9977-(1-0,9977)=0,9954=99,54%. | ||
Tehát a vizsgálatot 99,54%-os megbízhatósági szinten végezték. |
Önellenőrző feladatsor | |||||||||||||||||||||||||||||||||||||||
1. Jelölje meg a helyes megfogalmazást! Mi a becslőfüggvény?
![]() | |||||||||||||||||||||||||||||||||||||||
2. A becslőfüggvénnyel szemben támasztott követelmények:
![]() | |||||||||||||||||||||||||||||||||||||||
3. Jelölje be a helyes állítást!
![]() | |||||||||||||||||||||||||||||||||||||||
4. Az alábbiakban megadott "z"-értékekhez keresse meg a hozzájuk tartozó valószínűségeket! A kiszámított értékeket 2 tizedesjegy pontossággal százalékban kifejezve írja be a táblázat megfelelő cellájába! Standard normális eloszlásfüggvény értékei
![]() | |||||||||||||||||||||||||||||||||||||||
5. Keresse ki a megnevezett statisztikai táblából a megadott feltételek mellett a táblabeli értékeket! A kikeresett értékeket írja a táblázat megfelelő celláiba! Student eloszlás értékei ("t"-tábla)
![]() | |||||||||||||||||||||||||||||||||||||||
6. Keresse ki a megnevezett statisztikai táblából a megadott feltételek mellett a táblabeli értékeket! A kikeresett értékeket írja a táblázat megfelelő celláiba! Khí2-eloszlás értékei
![]() | |||||||||||||||||||||||||||||||||||||||
7. Egy település háztartásának havi villamos-energia fogyasztás szerinti megoszlása | |||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||
7/a. Számítsa ki az átlagos fogyasztás mennyiségét és a szórást! A számításokat 1 tizedesjegy pontossággal végezze el! Írja be a mezőkbe a megfelelő értékeket! A településen a háztartások átlagosan kWh villamos-energiát fogyasztanak ![]() | |||||||||||||||||||||||||||||||||||||||
7/b Készítsen az átlagra kétoldalú konfidencia intervallumot 95%-os valószínűséggel! A számításokat 2 tizedesjegy pontossággal végezze el, kivéve a szabadságfok esetén, azt egészszámokkal adja meg! Írja be a mezőkbe a megfelelő értékeket! A becslés szabadságfoka: ![]() | |||||||||||||||||||||||||||||||||||||||
7/c A megfogalmazások közül válassza ki a megfelelőt!
![]() | |||||||||||||||||||||||||||||||||||||||
7/d Mekkora elemszámú minta esetében lett volna a hibahatár 8kWh 95%-os valószínűségi szinten? Írja be a mezőkbe a megfelelő értékeket! Az eredményt kerekítse egészszámra! A szükséges minta elemszáma: ![]() | |||||||||||||||||||||||||||||||||||||||
8. Egy vállalat fizikai dolgozóinak megoszlása nettó keresetük alapján | |||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||
8/a. Írja be a mezőkbe a megfelelő értékeket! Egész számokkal dolgozzon! A betanított munkások átlagkeresete: Ft/hó ![]() | |||||||||||||||||||||||||||||||||||||||
8/b. Határozza meg milyen értékek között van a betanított munkások átlagkeresetének szórása 95%-os valószínűségi szinten! Az eredményeket egész számra kerekítve adja meg! A szabadságfok: ![]() |