KURZUS: Közlekedési statisztika I.

MODUL: "B" modul: Az empirikus eloszlások elemzése

7. lecke: A szóródás és mérése

A lecke követelményei

A tantárgy feldolgozása során ez a lecke a következő követelmények teljesítését segíti:

  • kiválasztani a szóródás mutatóit meghatározó helyes matematikai összefüggéseket
  • adatok alapján meghatározni a terjedelmet, az interkvartilis félterjedelmet, az átlagos abszolút eltérést, a szórást, a relatív szórást
  • kiválasztani a belső szórásnégyzet, külső szórásnégyzet, teljes szórás, külső szórás, belső szórás definícióit
  • kiválasztani a belső szórásnégyzet, külső szórásnégyzet, teljes szórás, külső szórás, belső szórás helyes matamatikai összefüggéseit
  • adatok alapján meghatározni a külső szórás, belső szórás, teljes szórás értékeit

Szóródásnak, az azonos fajta számszerű értékek - főleg a mennyiségi ismérv értékeinek - különbségét nevezzük.

A vizsgált sokaság elemei igen különbözőek, változatosak lehetnek. Azonos értéket mutató átlagok "mögött" igen heterogén, vagy éppen szinte azonos értékek sorozata, vagyis homogén sokaság állhat. Ezért szükségünk van olyan információra, hogy "jól jellemzi-e" a sokaságot az átlag. Annak a vizsgálata is igen informatív, hogy a sokaság egyedei egymáshoz képest milyen eltéréseket mutatnak.

Lássuk a következő A, B és C sokaságok ismérvértékeit.

A0606606600
B333333333
C01234560123456

x ¯ aA = 30 10 =3     x ¯ aB = 27 9 =3     x ¯ aC = 42 14 =3

Első ránézésre - csak az azonos számtani átlagokat (3) ismerve - azt állíthatnánk, hogy az A, B és C adatsorok azonos jellegű sokaságot írnak le. Ez azonban csak a számtani átlagok értékére igaz. A relatív gyakoriságot tartalmazó diagramot megvizsgálva már látható, hogy az A, B és C sokaság "eloszlása" alapvetően különbözik, bár számtani átlaguk azonos.

A differenciáltság, a szóródás elemzése, mérése, az alábbi mutatószámokkal lehetséges:

  • a terjedelem (R),
  • az interkvartilis félterjedelem (Q),
  • az átlagos abszolút eltérés ( δ),
  • a szórás ( σ),
  • a relatív szórás (V).

Megjegyzés: A szóródás nem azonos a szórással. A szórás a szóródás egyik mutatószáma.

7.1. A szóródás terjedelme

A szóródás terjedelme, az előforduló legnagyobb és legkisebb érték különbsége.

Azt mutatja meg, hogy a sokaság elemei milyen értékintervallumban (értékközben) helyezkednek el.

R= x max x min

A szóródás terjedelme természetesen a kiugró, szélső értékekre támaszkodik, amit az elemzésnél figyelembe kell venni.

Határozzuk meg a következő A, B és C sokaság szóródásának a terjedelmét:

A0606606600
B333333333
C01234560123456

R A = x Amax x Amin =60=6

R B = x Bmax x Bmin =33=0

Megjegyzés: Ha az összes elem azonos, akkor a szóródás terjedelme nulla. A sokaság homogén.

R C = x Cmax x Cmin =60=6

Megállapítható, hogy az A és C sokaság szóródásának a terjedelme azonos (R = 6), a B sokaságé különböző (R = 0).

7.2. Az interkvartilis félterjedelem

Ha az elemzés során a kiugró, szélsőséges értékeket nem célszerű figyelembe venni. Például határozatlan, nyitott osztályközöknél, akkor a sokaság "belső felét" - ami az alsó kvartilistől ( Q 1 ) a felső kvartilisig ( Q 3 ) terjed - vizsgáljuk. Ebben az intervallumban a "véletlen veszélyei" kevésbé érvényesülnek. Az ebből a különbségből képzett szóródási mutató, az interkvartilis félterjedelem (vagy kvartilis eltérés):

Q= Q 3 Q 1 2

ahol:
Q 1 = az alsó kvartilis
Q 3 = a felső kvartilis

7.3. Az átlagos abszolút eltérés

Ha nemcsak a szélső értékeket, hanem minden egyes érték és az átlag különbségét figyelembe kívánjuk venni, akkor ehhez az átlagos eltérés jó információt nyújt!

Az átlagos eltérés, az egyes értékek és azok számtani átlaga közötti eltérések abszolút értékeinek számtani átlaga.

Nem vesszük tehát figyelembe a differenciák (eltérések) előjeleit (mert a számtani átlag első tulajdonsága szerint ezek algebrai összege: 0):

Átlagos abszolút eltérés
δ= i=1 n | d i | n

ahol:
d i = x i x ¯ (differencia) az i-edik ismérv eltérése az átlagtól;
n = a sokaság elemeinek száma.

Határozzuk meg a következő A, B és C sokaság átlagos abszolút eltérését:

A0606606600
B333333333
C01234560123456

δ A = i=1 n | d i | n = 30 10 =3

δ B = i=1 n | d i | n = 0 9 =0

Megjegyzés: Ha az összes elem azonos, akkor az átlagos eltérés nulla. A sokaság homogén.

δ C = i=1 n | d i | n = i=1 n | x i x ¯ | n = 3+2+1+0+1+2+3+3+2+1+0+1+2+3 14 = 24 14 =1,71

Az A, B és C sokaságot különböző átlagos eltérések jellemzik, bár számtani átlaguk azonos (3).

Súlyozott átlagos abszolút eltérés
δ= i=1 n f i | d i | i=1 n f i

ahol:
f i = az i-edik differencia előfordulási gyakorisága;
d i = x i x ¯ (differencia) az i-edik ismérv eltérése az átlagtól;
n = a sokaság elemeinek száma.

7.4. A szórás

A szóródás elemzésének legfontosabb mutatója a négyzetes eltérés (vagy standard deviáció).

A szórás, az átlagtól vett eltérések négyzetes átlaga.

Szórás
σ= i=1 n d i 2 n

ahol:
d i = x i x ¯ (differencia) az i-edik ismérv eltérése az átlagtól;
n = a sokaság elemeinek száma.

Határozzuk meg a következő A, B és C sokaság szórását:

A0606606600
B333333333
C01234560123456

σ A = i=1 n d i 2 n = 90 10 =3

σ B = i=1 n d i 2 n = 0 9 =0

Megjegyzés: Ha az összes elem azonos, akkor a szórás nulla (mert az átlagtól való eltérés nulla). A sokaság homogén.

σ C = i=1 n d i 2 n = 9+4+1+0+1+4+9+9+4+1+0+1+4+9 14 = 56 14 =2

Az A, B és C sokaságot különböző szórások jellemzik, bár számtani átlaguk azonos (3).

Súlyozott szórás
σ= i=1 n f i d i 2 i=1 n f i

A szórás a leggyakrabban használt mérőszám, mert számos előnnyel rendelkezik:

  • valamennyi értéket figyelembe veszi;
  • egyértelműen meghatározott;
  • könnyen kezelhető.

Az 1.5. pontban tárgyaltuk, hogy a négyzetes átlag nagyobb, mint a számtani átlag, ami természetesen a differenciák átlagára is érvényes, ezért σ>δ .

Lásd például a C sokaság esetében: σ C =2> δ C =1,71

Például normális, vagy ehhez közelálló eloszlásoknál a szórás cca. 25%-kal nagyobb, mint az átlagos abszolút eltérés.

Gyakori, hogy a szórásnégyzetet, vagy más néven varianciát önálló mutatószámként használják.

1. A variancia, vagy szórásnégyzet meghatározható a számtani átlag és a négyzetes átlag négyzeteinek a különbségeként.

σ 2 = x ¯ q 2 x ¯ a 2

Ha a számtani átlag és a négyzetes átlag rendelkezésre áll, megtakarítható a szórás számítása.

Megjegyzés: Természetesen a szórás is meghatározható így, mert az a variancia négyzetgyöke.

Határozzuk meg a varianciát az alábbi 14 elemű sokaság adataiból (korábban már vizsgált "C" sokaság):

i x i x i x ¯ a ( x i x ¯ a ) 2 ( x i ) 2
10-390
21-241
32-114
43009
541116
652425
763936
80-390
91-241
102-114
113009
1241116
1352425
1463936
Σ 42 Σ 0 Σ 56 Σ 182
a)négyzetes átlag négyzete
x ¯ q 2 = i=1 n x i 2 n = 0+1+4+9+16+25+36+0+1+4+9+16+25+36 14 = 182 14 =13
b)számtani átlag négyzete
x ¯ a 2 = ( 42 14 ) 2 = 3 2 =9
c)variancia
σ 2 = x ¯ q 2 x ¯ a 2 =139=4
d)a szórás és a szórás négyzete (variancia)
σ C = i=1 n d i 2 n = 9+4+1+0+1+4+9+9+4+1+0+1+4+9 14 = 56 14 =2
σ C 2 = 2 2 =4

2. Ha a sokaság részekre bontható, akkor a szórásnégyzet is felbontható két részre:

  • belső szórásnégyzetre ( σ B 2 ) és
  • külső szórásnégyzetre ( σ K 2 ) .
σ 2 = σ B 2 + σ K 2

A belső szórásnégyzet, az egyes részsokaságok (csoporton belüli elemek és a csoport átlaga között értelmezett differenciákból meghatározott) szórásnégyzeteinek az átlaga (részsokaságra bontjuk a sokaságot és a részsokaságok nagyságával súlyozunk):

σ B 2 = j=1 m n j σ j 2 j=1 m n j

A külső szórásnégyzet, az egyes részsokaságok átlagai és a teljes sokaság átlaga eltérésnégyzeteinek (a részsokaságok nagyságával súlyozott) az átlaga:

σ K 2 = j=1 m n j ( x ¯ j x ¯ ¯ ) 2 j=1 m n j

A sokaság egészét jellemző, vagyis a teljes szórás, tehát az alábbi összefüggésből is meghatározható:

σ= σ B 2 + σ K 2

A teljes szórás ( σ) azt fejezi ki, hogy a vizsgált sokaságban az egyes értékek a főátlagtól átlagosan hogyan térnek el.

A külső szórás ( σ K ) a rész átlagoknak a főátlagtól való átlagos eltérését mutatja.

Ebben a mutatószámban fejeződik ki a csoportképző ismérvnek a vizsgált mennyiségi ismérvre gyakorolt hatása!

A belső szórás ( σ B ) azt fejezi ki, hogy az egyes értékek átlagosan - az egész sokaságra értelmezve - hogyan térnek el a saját csoportjuk részátlagától.

Ebben a mérőszámban a csoportosító ismérven kívüli, egyéb tényezőknek, a szóródó ismérvre gyakorolt hatása jelenik meg!

Ezen tulajdonság, a szórásnégyzet, vagy variancia összetevőkre bontásának felhasználásával tananyagunk második felében foglalkozunk részletesen, az ún. sztochasztikus kapcsolatok meghatározásánál.

A teljes szórásnégyzetre felírt additív összefüggés alapján ti. megoszlási viszonyszámokat számíthatunk.

1= σ K 2 σ 2 + σ B 2 σ 2

Így kifejezhetjük, hogy a vizsgált mennyiségi ismérv szórását milyen arányban (%-ban) "magyarázza" a csoportosító ismérv hatása és milyen arányban (hány %-ban) az egyéb (véletlen) tényezők hatása. Ebből az összefüggésből képezhetjük az ún. szóráshányadost, ami a csoportképző ismérv (területi, minőségi esetleg mennyiségi) és a vizsgált mennyiségi ismérv kapcsolatát jellemzi, kapcsolatának szorosságát fejezi ki:

H= σ K 2 σ 2 = 1 σ B 2 σ 2 = σ K σ

Értéke:  0H1 lehet.

7.5. A relatív szórás

Különböző mértékegységű értéksorozatok összehasonlításánál hasznos, ha relatív mutatószám alkalmazásával elvonatkoztatunk az ismérvértékek nagyságrendjétől (a szórás mérőszámainak valamelyikét osztjuk valamelyik középértékkel).

Legismertebb a szórási együttható, vagy variációs koefficiens, amit a szórás és a számtani átlag hányadosaként határozhatunk meg:

V= σ x ¯ a ( % )

A szórási együttható %-ban mutatja, hogy az átlagolandó értékek (átlagosan) hogyan térnek el az átlagtól.

Határozzuk meg a relatív szórást az A és a C sokaság adataiból:
A számtani átlag mindkét esetben: x ¯ a =3 .

σ A = i=1 n d i 2 n = 90 10 =3 V A = σ A x ¯ a = 3 3 100=100%

Az átlagolandó értékek 100%-ban térnek el az átlagtól.

σ C = i=1 n d i 2 n = 56 14 =2 V C = σ C x ¯ a = 2 3 100=66,66%

Az átlagolandó értékek 66,66%-ban térnek el az átlagtól.

Önellenőrző kérdések

Olvassa el figyelmesen az alábbi feladatokat, majd a lecke tartalma alapján oldja meg őket!

1. Párosítsa a következő szóródási mutatókat a megfelelő matematikai összefüggéssel!
A szóródás neve előtti betűt írja a megfelelő matematikai összefüggés elé!
Egy mutatónak nincs párja!

a) terjedelem;
b) interkvartilis félterjedelem;
c) decilis;
d) átlagos abszolút eltérés;
e) szórás;
f) relatív szórás.
betűjelösszefüggés
V= σ x ¯ a ( % )
δ= i=1 n | d i | n
Q= Q 3 Q 1 2
R= x max x min
σ= i=1 n d i 2 n

2. Az alábbi ismérvértékek alapján határozza meg a terjedelmet, az átlagos abszolút eltérést, a szórást, a relatív szórást. Az egész számokat tizedesjegy nélkül, a törtszámokat két tizedesjegy pontossággal adja meg! Az eredmények bevitelére a számbillentyűket és a tizedes vesszőt használja!

Adatok
247610312590
Az eredményeket írja az üres mezőkbe!

a) terjedelem:
b) átlagos abszolút eltérés:
c) szórás:
d) relatív szórás:

3. Párosítsa a következő szóródási mutatókat a megfelelő matematikai összefüggéssel!
A szóródás neve előtti betűt írja a megfelelő matematikai összefüggés elé!
Egy mutatónak nincs párja!

a) külső szórás;
b) belső szórásnégyzet;
c) teljes szórás;
d) szóráshányados.
betűjelösszefüggés
j=1 m n j σ j 2 j=1 m n j
σ B 2 + σ K 2
j=1 m n j ( x ¯ j x ¯ ¯ ) 2 j=1 m n j