KURZUS: Közlekedési statisztika I.

MODUL: "B" modul: Az empirikus eloszlások elemzése

8. lecke: Az empirikus eloszlások elemzése (az aszimmetria mérése)

A lecke követelményei

A tantárgy feldolgozása során ez a lecke a következő követelmények teljesítését segíti:

  • kiválasztani az empirikus eloszlások főbb típusainak megfelelő diagramokat
  • kiválasztani az eloszlások aszimmetriáját leíró helyes összefüggéseket
  • adatok alapján meghatározni az "A" és az "F" aszimmetriát leíró mérőszámot
  • eredmények alapján kiválasztani az aszimmetria mérőszámainak a jelentését
8.1. A tapasztalati (empirikus) eloszlások

A statisztikai megfigyelés eredményeként kapott gyakorisági sorok, illetve ábráik igen nagy változatosságot mutatnak. Ugyanakkor nagy részüknél olyan hasonlóságot láthatunk, amely alapján néhány egyszerűbb eloszlástípus valamelyikébe besorolhatók. Sok esetben összetettebb eloszlások is bizonyos egyszerűbb típusokból tevődnek össze. Az empirikus eloszlások főbb típusai:

Az empirikus eloszlástípusokat valójában a gyakorisági görbe alapján lehet megkülönböztetni. Ez azonban nem jelenti azt, hogy a gyakorisági sor (táblázat), vagy hisztogram alapján ne lehetne következtetni a szóban forgó eloszlás típusára.

Az egymóduszú eloszlásoknak egy sűrűsödési helyük, maximumuk van, a több móduszú eloszlások két vagy több tömörülési helyet, maximumot mutatnak.

A gyakrabban előforduló eloszlások között vannak szimmetrikus vagy közel szimmetrikus eloszlások, amelyeknél a gyakoriságok egy középen levő maximum mindkét oldalán szimmetrikusan csökkennek.

Más empirikus eloszlásoknál a gyakoriságok először meredeken emelkednek, majd a maximumot elérve fokozatosan csökkennek. Az eloszlás tehát bal oldali ferdeséget mutat, a gyakorisági görbe bal oldali aszimmetriára utal. Ellenkező esetben az eloszlás jobb oldalai aszimmetriára utal.

Találkozhatunk J típusú eloszlásokkal is, amelyeknél a gyakoriságok fokozatosan növekednek és a maximális ismérvértékhez tartozik a maximális gyakoriság. Ha a gyakoriságok fokozatosan csökkennek és a maximális ismérvértékhez tartozik a minimális gyakoriság, akkor fordított J alakú az eloszlásról beszélünk

A több móduszú eloszlások, összetett eloszlások, heterogén sokaságra utalnak. Ilyen például az M alakú eloszlás, amely két egy móduszú eloszlást mutató részsokaságból tevődik össze.

Ritkán előforduló összetett eloszlás az ún. U alakú eloszlás, amelynél a gyakoriságok eleinte fokozatosan csökkennek, majd újra emelkednek.

A következő két diagram azt mutatja be, hogy ha egy heterogén sokaságot (85 elem) valamilyen ismérv alapján két részre tudunk bontani, akkor a teljes sokaság diagramja és a két részsokaság (A: 47 elem és B: 38 elem) diagramja milyen képet mutat.

Ha a két részsokaságot (A: 47 elem és B: 38 elem) össze kívánjuk hasonlítani a bemutatott diagram alapján, akkor miért kell relatív mutatót használni az y tengelyen?

8.2. Az aszimmetria mérése

Egymóduszú eloszlásoknál az aszimmetria (vagy ferdeség) fokának a jellemzésére több mutatószám is használatos.

E mérőszámokkal szemben támasztott főbb követelmények:

1.a mérőszám legyen dimenzió nélküli (ne függjön az ismérvértékek mértékegységétől, nagyságrendjétől);
2.szimmetrikus eloszlás esetén nulla értékét vegyen fel.

A továbbiakban két olyan mérőszámmal foglalkozunk, amelyek az előbbi követelményeknek eleget tesznek, és a korábbiaktól már ismert jellemzőket használnak fel a méréshez.

Az "F mérőszám" azon alapul, hogy szimmetrikus eloszlásnál a kvartilisek egyenlő távolságra vannak egymástól, tehát a felső kvartilis és a medián különbsége egyenlő a medián és az alsó kvartilis különbségével ( Q 3 Me )=( Me Q 1 ) .

Aszimmetrikus eloszlásnál a különbségek eltérnek egymástól. Az "F mérőszám" képzésnél e távolságok nagyságát használjuk fel:

F= ( Q 3 Me )( Me Q 1 ) ( Q 3 Me )+( Me Q 1 ) .

Az "F mérőszám" tehát a kvartiliseknek (felső és alsó) a mediántól mért távolságai különbségének és összegének hányadosa.

Szimmetrikus eloszlásnál az "F mérőszám" 0 értéket vesz fel, bal oldali aszimmetriánál pozitív, jobb oldali aszimmetriánál negatív előjelű lesz az értéke.

1F1.

Az "F mérőszám" | 0,3 | -nál nagyobb értéke jelentős ferdeséget jelez.

Az aszimmetria egyik általános ún. "A mérőszámának" a kidolgozása K. Pearson nevéhez fűződik. A mérőszám képzése abból indul ki, hogy szimmetrikus eloszlásnál a számtani átlag és a módusz megegyezik, míg aszimmetrikus eloszlásnál eltérnek egymástól:

A= x ¯ Mo σ .

Szimmetrikus eloszlásnál az "A mérőszám" értéke 0, bal oldali aszimmetriánál pozitív, jobb oldalinál pedig negatív értéket vesz fel. Abszolút értékének nincs határozott felső korlátja, azonban már | 1,0 | -nél nagyobb abszolút érték meglehetősen erős aszimmetriára utal.

A munkanélküli ellátásban részesülők megoszlása a segély nagyságcsoportja szerint 1992. júniusában:

Forrás: Jász-Nagykun-Szolnok megye statisztikai zsebkönyve 1992.
Segély mértéke (Ft)
-4000530
4001-60002 014
6001-800013 666
8001-100004 353
10001-120002 138
12001-140001 051
14001-16000813
16001-18000291
Összesen:24 856

Határozzuk meg:

a)A munkanélküli segély egy főre jutó összegét.
b)A legnagyobb gyakoriságú értéket.
c)A szórást.
d)Az aszimmetria "A mérőszámát".

A megoldáshoz a következő táblázat nyújt segítséget.

Segély összege Ftf
x
osztályközép
fx | d i | f d i 2
-4000530200010600006058,09519451270558
4001-60002 0145000100700003058,09518834812670
6001-800013 6667000956620001058,09515299964843
8001-100004 353900039177000941,90543861919506
10001-120002 13811000235180002941,90518503977869
12001-140001 05113000136630004941,90525667972601
14001-1600081315000121950006941,90539178510841
16001-180002911700049470008941,90523267682475
24856200292000 1,64066 10 11

a) A munkanélküli segély egy főre jutó összege (számtani átlag):

x a ¯ = 200292000 24856 =8058,09Ft

b) A módusz értéke 6000-8000 között van. A gyakoriság értéke 13666, az ehhez tartozó osztályköz nagysága h = 2000.

M 0 =6000+ f mo f mo1 ( f mo f mo1 )+( f mo + f mo+1 ) h= =6000+ 136662014 ( 136662014 )+( 136664353 ) 2000=7111,56 Ft

c) Átlagos négyzetes eltérés:

σ= f d 2 n = 1,64066 10 11 24856 =2569,17 Ft

d) Az aszimmetria mérőszáma:

A= x ¯ a Mo σ = 8058,097111,56 2569,17 =0,3684

Tehát a tapasztalati eloszlás közepes baloldali aszimmetriát jelez!
Ezt erősíti meg a kiindulási táblázatból elkészített diagram is. (Lásd még: Az empirikus eloszlások elemzése leckét.)

Az empirikus eloszlások elemzésének összegzéseként megjegyezzük, hogy a középértékek, a szóródási mérőszámok és az aszimmetria mérőszámai más-más szempontból jellemzik az eloszlást.

Ezzel teljessé vált az az ismeretkör, amelynek birtokában egy sokaságról számos információt, ismeretet szerezhetünk, ha élünk a megismert:

  • csoportosítás (osztályozás);
  • ábrázolás;
  • közepes értékek meghatározása;
  • eltérések elemzése

módszereivel.

Mindezek birtokában a sokaság eloszlásáról is képet nyerhetünk. Ezen összefüggő ismeretek, komplex alkalmazására szolgálnak az alábbi feladat.

A MÁV egy kocsijavító egysége 1994. I. negyedévében 62 db teherkocsit javított meg. Az egy-egy teherkocsi javítására fordított idők (munkaóra) az alábbiak:

Munkatábla az átlagszámításhoz
Teherkocsik
javítási ideje (óra)
Teherkocsik száma (db)Összes javítási időKumulált gyakoriság
osztályközosztályközépgyakoriságértékösszeg
x i f i f k
26 - 5037,562256
51 - 7562,57437,513
76 - 10087,5151312,528
101 - 125112,591012,537
126 - 150137,5682543
151 - 175162,5465047
176 - 200187,55937,552
201 - 225212,5485056
226 - 250237,5247558
251 - 275262,51262,559
276 - 300287,5257561
301 - 325312,51312,562
Összesen:-627875,0-

Az osztályközös gyakorisági sorból kiindulva, x i átlagolandó értéknek az ún. osztályközépsőt tekintjük, ami az osztályköz szélső értékeinek egyszerű számtani közepe.

a)Számítsuk ki a teherkocsik átlagos javítási idejét,
b)Jellemezzük a teherkocsik javítási idő szerinti szóródását,
 1.a szóródás terjedelmével,
 2.az interkvartilis félterjedelemmel,
 3.az átlagos abszolút eltéréssel,
 4.az átlagos négyzetes eltéréssel,
 5.a relatív szórással.
c)Számítsuk ki a javítási időkre vonatkozóan az aszimmetria mérőszámait!

Megjegyezzük, hogy az egyes osztályközöknél, az egész számok besorolására ad útmutatást a 26 - 50; 51 - 75; 76 - 100 a két osztályköz közötti egységnyi különbség. Tehát a kerek 75 órás javítási idejű teherkocsit az 51 - 75-ös osztályba soroljuk. Ugyanakkor ezt a számításoknál nem vesszük figyelembe! Tehát 50 és 75 között értelmezzük az osztályközépsőt és nem 51 és 75 között !

a) Az osztályközös gyakorisági sorból becsült átlag:

x ¯ aS = i=1 n f i x i i=1 n f = 7875 62 =127,016 óra teherkocsi , az átlagos javítási idő.

(Amit fajlagos javítási időnek is tekinthetünk!)

A kétféle módon meghatározott átlag eltérése, természetesen az x i eredeti értékek és az x i osztályközépsők - mint becsült adatok - eltéréséből adódik.

b) A szóródás elemzése:

1. A szóródás terjedelme:

eredeti adatokból: R= x max x min =32030=290 óra a legnagyobb és a legkisebb javítási időszükséglet közötti különbség.

gyakorisági sorból: 325 - 25 = 300 óra a legnagyobb és a legkisebb javítási időszükséglet közötti különbség.

2. Az interkvartilis félterjedelem (vagy kvartilis eltérés) meghatározásához, szükség van a kvartilisekre:

eredeti adatokból:

az alsó kvartilis sorszáma: Q 1 = n+1 4 = 62+1 4 =15,75

A keresett "negyedelő pont" a rangsor 15. és 16. eleme közé esik. Mivel mindkét ismérvváltozat értéke 80 óra, nincs szükség a két tag közötti "becslésre" Q 3 =80.

A felső kvartilis sorszáma: Q 3 =j n+1 4 =3 62+1 4 =47,25

A keresett "háromnegyedelő pont" a rangsor 47. és 48.-dik eleme közé esik. A 47. tag értéke: 170 óra a 48. tag értéke: 180 óra.

Becslés:
180 - 170 = 10 óra különbség
10 : 4 = 2,5 óra
170 + 2,5 = 172,5 óra
Q 3 =172,5

A medián, vagyis a felezőpont sorszáma értelemszerűen: Q 2 =Me= n+1 2 = 61+1 4 =31,5

A rangsor 31. eleme: 110 óra; 32-ik eleme: 120 óra

Me= 115 óra.

Az interkvartilis félterjedelem: Q= Q 3 Q 1 2 = 172,580 2 =46,25 óra

Gyakorisági sorból a Q 1 becslése: Q 1 =a+ ba f Q 1 j=75+ 25 15 ( 15,7513 )=79,58 óra

Értelemszerűen a 47,25-ik tag becslése: Q 3 =175+ 25 5 ( 47,2547 )=176,25 óra

Értelemszerűen a 31,5-ik tag becslése: Me=100+ 25 9 ( 31,528 )=109,72 óra

A kvartilisek értelmében, a javított teherkocsik egy negyedében 80 óránál kevesebb ( Q 1 =79,58 ) , felében 110 óránál kevesebb ( Me=109,72 ), háromnegyedében 177 óránál kevesebb ( Q 3 =176,25 ) volt a szükséges javítási idő.

Az interkvartilis félterjedelem:

Q= 176,2579,58 2 =48,34óra A javítási időszükséglet felső és alsó kvartilisek közötti különbség fele.

3. Az átlagos abszolút eltérés (a gyakorisági sorból):
Munkatábla a szórás mutatók meghatározásához:

( x x ¯ )
d i
f| d i | d i 2
-89,516539,0968013,11448078,68
-64,516451,6124162,14329135,00
-39,516592,741561,51423422,71
-14,516130,644210,7141896,426
+10,48462,904109,914659,484
+35,484141,9361259,1145036,456
+60,484302,423658,31418291,57
+85,484341,9367307,51429230,056
+110,484220,96812206,71424413,428
+135,484135,48418355,91418355,914
+160,484320,96825755,11451510,228
+185,484185,48434404,31434404,314
-3424,192284434,27

Az átlag és a szórásmutatók meghatározásához egyetlen munkatábla szerkesztendő!

δ= i=1 n f| d i | i=1 n f i = 3424,192 62 =55,228 óra

Az egyes kocsijavítások ideje 55,2 órával tér el átlagosan a fajlagos kocsijavítási időtől.

4. Az átlagos négyzetes eltérés (a gyakorisági sorból):

σ= i=1 n f i d i 2 n = 284434,27 62 = 4587,649 =67,73 óra

Az egyes kocsijavítások ideje 67,7 órával tér el átlagosan a fajlagos kocsijavítási időtől !

5. A relatív szórás (a gyakorisági sorból):

V= σ x ¯ = 67,73 127,013 =0,5332=53,32%

Az egyes kocsik javítása 53,3%-kal tér el a fajlagos kocsijavítási időtől!

c) Az aszimmetria mérőszámai (a gyakorisági sorból):

Aszimmetria "F" mérőszáma:

F= ( Q 3 Me )( Me Q 1 ) ( Q 3 Me )+( Me Q 1 ) =
= ( 176,25109,72 )( 109,7279,58 ) ( 176,25109,72 )+( 109,7279,58 ) = = 66,5330,14 66,53+30,14 = 36,34 96,67 =0,3764

F = 0,3764

Aszimmetria "A" mérőszáma:

A= x ¯ M 0 σ

Szükségünk van a módusz becslésére:

M 0 =a+ f M 0 f M 0 1 ( f M 0 f M 0 1 )+( f M 0 f M 0 +1 ) ( ba )=
=75+ ( 157 ) ( 157 )+( 159 ) ( 10075 )=89,285789

A kocsijavítási időszükséglet 89 óra körül tömörül!

A= 127,01389,286 67,73 =0,5571

A = 0,5571

Tehát az aszimmetria mindkét mutatója számottevő bal oldali (az alacsonyabb értékek felé mutató) aszimmetriát jelez! Ezt szemlélti a következő diagram alakja is.

Önellenőrző kérdések

Olvassa el figyelmesen az alábbi feladatokat, majd a lecke tartalma alapján oldja meg őket!

1. Párosítsa az empirikus eloszlások típusait a megfelelő diagramokkal!

abc
def
A diagramok feletti betűt írja az empirikus eloszlások neve elé!
betűjeleloszlás típus neve
szimmetrikus
baloldali aszimetria
M-alakú
U-alakú
fordított J-alakú
jobboldali aszimetria
2. Párosítsa a következő aszimmetriát leíró mérőszámok neveit a megfelelő matematikai összefüggéssel!
Az aszimmetriát leíró mérőszámok neve előtti betűt írja a megfelelő matematikai összefüggés elé!
Egy mutatónak nincs párja!

a) "A" mérőszám;
b) terjedelem;
c) "F" mérőszám.
betűjelösszefüggés
( Q 3 Me )( Me Q 1 ) ( Q 3 Me )+( Me Q 1 )
x ¯ M 0 σ

3. Az alábbi adatok dolgozók jövedelmi adataiból származnak.
Határozza meg az aszimmetria fokát az "A" és az "F" összefüggés alapján!
Minősítse az aszimmetria jellegét, értelmezze a mutatók jelentését!

Adatok:
M e =35588Ft M o =28529Ft x ¯ a =36799Ft Q 1 =27857Ft Q 3 =45455Ft σ=11590Ft

Az eredményt két tizedesjegy pontosággal írja be a mezőkbe!

Az aszimmetria "A" mérőszáma:
Az aszimmetria "F" mérőszáma:

Válassza ki a helyes megoldást!
Az aszimmetria "A" mérőszáma...
jobboldali aszimmetriát jelez
baloldali aszimmetriát jelez
szimmetrikus eloszlást jelez
M-alakú eloszlást jelez
Válassza ki a helyes megoldást!
Az aszimmetria "F" mérőszáma azt jelzi:
az átlagosnál alacsonyabb jövedelmek nagyobb számban fordulnak elő
az átlagosnál magasabb jövedelmek nagyobb számban fordulnak elő
az átlagosnál alacsonyabb és magasabb jövedelmek egyaránt nagyobb számban fordulnak elő, az "átlagos" jövedelmekből van a legkevesebb
minden jövedelem azonos volt