KURZUS: Matematika (Valószínűség-számítás és matematikai statisztika)

MODUL: III. modul: Matematikai statisztika

18. lecke: Egyszerűbb statisztikai mérőszámok meghatározása

Tananyag: Kiss Béla - Krebsz Anna: Valószínűség-számítás és matematikai statisztika 3.1., 3.2. és 3.3. fejezet

Elméleti összefoglaló

A mintaelemek számtani középértékét mintaátlagnak, vagy empirikus középnek nevezzük és m ^ n -pal jelöljük, azaz m ^ n = 1 n i=1 n ξ i .

A mintaelemek közepüktől való eltérésnégyzeteinek átlagát a minta szórásnégyzetének, vagy empirikus (tapasztalati) szórásnégyzetének nevezzük és σ ^ n 2 -tel jelöljük, azaz σ ^ n 2 = 1 n i=1 n ( ξ i m ^ n ) 2 .

A korrigált tapasztalati szórásnégyzetet az s ^ n 2 = n n1 σ ^ n 2 formulával definiáljuk.

A valószínűség-számítás részben mondottakkal megegyezően igazolható, hogy az empirikus szórásnégyzet σ ^ n 2 = 1 n i=1 n ξ i 2 ( 1 n ξ i ) 2 = 1 n i=1 n ξ i 2 m ^ n 2 alakban is írható.

A ξ 1 , ξ 2 ,..., ξ n mintavételi változók nagyság szerint növekvően rendezett értékei közül az i-ediket ξ i * -vel (i = 1, ..., n) jelöljük.

A minta legkisebb és legnagyobb elemének számtani közepét, azaz ξ 1 * + ξ n * 2 -t a minta középpontjának nevezzük.

A minta legnagyobb és legkisebb elemének különbségét, azaz ξ n * ξ 1 * -t a minta terjedelmének nevezzük.

A minta (empirikus) mediánja ξ m * , ha n = 2m -1, és ξ m * + ξ m+1 * 2 , ha n = 2m, azaz páratlan elemszám esetén a középső érték, páros elemszám esetén pedig a két középső érték átlaga.

A ξ 1 , ξ 2 ,..., ξ n minta eloszlásfüggvénye (empirikus eloszlásfüggvény) F n ( x )={ 0,  ha x ξ 1 * , k n , ha  ξ k * <x< ξ k+1 * , ha k=1,2,...,n1 1,   ha x ξ n * ,
ahol ξ i * a minta növekvő nagyság szerint rendezett elemei közül az i -edik.

Legyen ξ 1 , ξ 2 ,..., ξ n egy adott n elemű minta, az a,b számokra pedig teljesüljön az a ξ 1 * és a ξ n * <b feltétel. Osszuk fel az [ a;b ] intervallumot m részintervallumra (osztályra) az a= x 0 < x 1 <...< x m1 < x m =b osztópontok segítségével. Az egyes [ x i1 , x i ) részintervallumba eső mintaelemek számát jelöljük k i -vel (i = 1, 2, ..., m).

A gyakorisági hisztogramot úgy kapjuk, hogy az [ x i1 , x i ) intervallumra k x i x i1 magasságú téglalapot rajzolunk (i = 1, 2, ..., m).

A sűrűség hisztogramot úgy kapjuk, hogy az [ x i1 , x i ) intervallumra k n( x i x i1 ) magasságú téglalapot rajzolunk (i = 1, 2, ..., m).

Kidolgozott feladatok

1. feladat Egy focicsapat játékosainak cm-ben mért magasságai a következők:
189, 191, 185, 188, 190, 175, 180, 178, 185, 179, 184.
Határozzuk meg ezen adathalmaz jellemzőit:

a)mintaátlag
b)tapasztalati szórásnégyzet
c)korrigált tapasztalati szórásnégyzet
d)a minta középpontja
e)terjedelem
f)medián

Megoldás:

a)a mintaátlag: m ^ n = 1 n i=1 n ξ i , azaz
m ^ n = 1 11 ( 189+191+185+188+190+175+180+178+185+179+184 )=184
b)tapasztalati szórásnégyzet: σ ^ n 2 = 1 n i=1 n ( ξ i m ^ n ) 2 , azaz
σ ^ n 2 = 1 11 ( 25+49+1+16+36+81+16+36+1+25+0 )=26
c)korrigált tapasztalati szórásnégyzet: s ^ n 2 = n n1 σ ^ n 2 , azaz
s ^ n 2 = 11 10 26=28,6
d)a minta középpontja:
Ehhez először nagyság szerint nem csökkenő sorrendben kell rendezni az adatokat:
175, 178, 179, 180, 184, 185, 185, 188, 189, 190, 191.
A minta középpontja a rendezett mintában az első és az utolsó elem átlaga, azaz
175+191 2 =183
e)a minta terjedelme:
A legnagyobb és a legkisebb elem különbsége, azaz
191175=16
f)a minta mediánja:
A rendezett mintában a középső érték (páros elemszámú minta esetén a két középső átlaga), azaz most a hatodik, tehát 185.

2. feladat Egy középiskola végzős diákjai a következő eredményt érték el a matematika érettségin:
jeles (5): 15 fő
jó (4): 23 fő
közepes (3): 38 fő
elégséges (2): 32 fő
elégtelen(1): 10 fő
Készítsük el az érdemjegyek gyakorisági hisztogramját, határozzuk meg a mintaátlagot, a mediánt, a tapasztalati szórást és a korrigált tapasztalati szórást!

Megoldás: Az egyes részintervallumok hossza megegyezik (egységnyi), az oszlopok magassága pedig a gyakorisági értékkel egyenlő.

A mintaátlag:
Az összes diák: 15+23+38+32+10=118 fő
Így az átlag: m ^ n = 1 118 ( 155+234+383+322+101 )= 355 118 3,0084
A medián:
Páros elemszámú minta esetén a rendezett minta két középső elemátlaga, azaz most a 118 elemű mintánál az 59. és a 60. elem átlaga.
A rendezett minta:
1, ..., 1 110. ,  2, ..., 2 1142. ,  3, ..., 3 4380. ,  4, ..., 4 81103. ,  5, ..., 5 104118.
Mivel az 59. és 60. elem is 3, ezért a medián 3+3 2 =3 .
A tapasztalati szórás:
A tapasztalati szórás a tapasztalati szórásnégyzet négyzetgyöke. A tapasztalati szórásnégyzet meghatározására most célszerűbb a  σ ^ n 2 = 1 n i=1 n ξ i 2 m ^ n 2 formulát használni. Ebből m ^ n már ismert.
1 n i=1 n ξ i 2 = 1 118 ( 1525+2316+389+324+101 )= 1223 118 10,3644
Így a tapasztalati szórásnégyzet: σ ^ n 2 10,3644 3,0084 2 =1,3139 ,
a tapasztalati szórás pedig: σ ^ n 1,1462
A korrigált tapasztalati szórást természetesen a korrigált tapasztalati szórásnégyzetből fogjuk meghatározni, amelyről tudjuk, hogy s ^ n 2 = n n1 σ ^ n 2 .
Így a korrigált tapasztalati szórásnégyzet: s ^ n 2 118 117 1,3139=1,3251 ,
a korrigált tapasztalati szórás pedig: s ^ n 1,1511
Látható, hogy a tapasztalati szórás és a korrigált tapasztalati szórás között nagy elemszámú mintánál igen csekély az eltérés (most kevesebb, mint 0,005).

3. feladat Egy vállalat dolgozóinak bruttó fizetéseiről a következőket tudjuk:
50 000-100 000 Ft: 3 fő
100 000-150 000 Ft: 6 fő
150 000-200 000 Ft: 5 fő
200 000-250 000 Ft: 3 fő
250 000-300 000 Ft: 2 fő
Készítsük le a bruttó fizetések gyakorisági hisztogramját, tapasztalati eloszlásfüggvényét, továbbá a mintaátlag és a minta szórásnégyzetének becslését!

Megoldás: A gyakorisági hisztogram:
Az egyes részintervallumok hossza 50 000 egység (egyenletes felosztás), a téglalapok magassága pedig az adott intervallumba eső elemek számával egyenlő.

A tapasztalati eloszlásfüggvény:
Osztályokban (tól-ig) adott gyakoriságok esetén a tapasztalati eloszlásfüggvénynél az ugrásokat az osztályközepeknél jelöljük. Esetünkben az osztályok: [ 50; 100 ) , [ 100; 150 ) , [ 150; 200 ) , [ 200; 250 ) és [ 250; 300 ) (ezer Ft), így az osztályközepek pedig 75, 125, 175, 225, 275 (ezer Ft).
A tapasztalati eloszlásfüggvény:

Az egyes téglalapok magassága:
3 19 3+6 19 = 9 19 3+6+5 19 = 14 19 3+6+5+3 19 = 17 19 3+6+5+3+2 19 = 19 19 =1

A mintaátlag becslése:
m ^ n 1 n i=1 m x i + x i1 2 k i , ahol n a minta elemszáma, m az osztályok száma, k i az i-edik osztályba eső elemek száma, x i + x i1 2 pedig az osztályközép.
Így a mintaátlag becslése:
m ^ n 1 19 ( 753+1256+1755+2253+2752 )1000= 3075000 19 161842,1

A tapasztalati szórásnégyzet becslése:
σ ^ n 2 1 n i=1 m ( x i + x i1 2 ) 2 k i ( 1 n i=1 m x i + x i1 2 k i ) 2 = 1 19 ( 75 2 3+ 125 2 6+ 175 2 5+ 225 2 3+ 275 2 2 ) 1000 2 ( 3075000 19 ) 2 =3642659280
A szórás becslése így σ ^ n 60354,4

Ellenőrző feladatok
1. Adott a következő minta:
8,22; 6,42; 7,53; 6,55; 8,07; 7,37; 7,56; 9,02; 8,55; 7,93.
A mintaátlag:
a) 7,702
b) 7,722
c) 7,227
d) 7,272
2. A fenti minta tapasztalati szórása:
a) 0,6709
b) 0,8191
c) 0,6038
d) 0,7770
3. A fenti minta korrigált tapasztalati szórása:
a) 0,6709
b) 0,8191
c) 0,6038
d) 0,7770
4. A fenti minta mediánja:
a) 7,745
b) 7,56
c) 7,93
d) 8,075
5. A fenti minta terjedelme:
a) 2,6
b) 1,65
c) 2,13
d) 2,3
6. Ha egy 9 elemű minta tapasztalati szórása 1,24, akkor korrigált tapasztalati szórásnégyzete:
a) 13,8384
b) 1,395
c) 1,7298
d) 1,24
7. Ha egy statisztikai minta minden eleme 12, akkor tapasztalati szórása
a) nem létezik
b) 0
c) 1,2
d) 1,44
8. A tapasztalati eloszlásfüggvény
a) folytonos függvény.
b) deriváltja a tapasztalati sűrűségfüggvény.
c) lépcsős függvény.
d) grafikonja alatti terület 1.
9. Az alábbiak közül melyik hamis:
a) Az átlag a várható érték torzítatlan becslése.
b) A tapasztalati szórás a szórás torzítatlan becslése.
c) A korrigált tapasztalati szórás a szórás torzítatlan becslése.
d) A relatív gyakoriság a valószínűség torzítatlan becslése.