KURZUS: Statisztika II.

MODUL: I. modul: Becslés

1. lecke: Alapfogalmak

Követelmények

Ön akkor sajátította el megfelelően a tananyagot, ha

  • ki tudja választani a részleges adatgyűjtés jellemzőit,
  • ki tudja választani a reprezentatív adatgyűjtés jellemzőit,
  • a felsorolásból ki tudja választani a véletlen mintavételi eljárásokat,
  • ki tudja választani a rétegezett mintavétel típusait és azok jellemzőit.
1. Mintavétel

A statisztikai elemzés során, ha a megfigyelés és az adatgyűjtés a sokaság minden egyes tagjára vonatkozik, akkor teljes körű megfigyelésről beszélünk.

A társadalmi-gazdasági statisztikában általában nem tudunk minden adatot összegyűjteni, illetve elemezni, ezért általában csak részleges adatgyűjtést végzünk, amelynek egyik módja a reprezentatív mintavétel, pl. a lakosság jövedelmi helyzetének, fogyasztási szokásainak elemzéséhez gyűjtött adatok.

A reprezentatív megfigyelés (mintavétel) célja, hogy valamely sokaság egy részének megfigyelése révén következtetéseket tudjunk levonni a sokaság egészére, annak jellemzőire, összetételére vonatkozóan. A reprezentatív felvételezés során a teljes sokaságból szigorú szabályok szerint kiválasztunk egy részsokaságot, és csak ennek elemeire vonatkozóan gyűjtünk adatokat.

Azt a sokaságot, amelyre a mintavétel segítségével következtetni szeretnénk, alapsokaságnak, az alapsokaság azon részét, amely alapján a következtetéseket levonjuk, mintasokaságnak nevezzük.

A statisztikai adatfelvételek és az annak eredményeit felhasználó elemzések mindig tartalmaznak hibát. A statisztikai hiba egy része a módszertan sajátosságaiból is adódik (tömörítés, közelítés, becslés), ez velejárója a statisztikai elemzéseknek. A statisztikus célja, hogy a hibát minimálisra csökkentse (mintavételi és nem mintavételi hibát együtt). A mintavételi hiba matematikai-statisztikai eszközökkel becsülhető. A nem mintavételi hiba korábbi tapasztalatok alapján becsülhető meg. A mintavétel tervezésénél a mintavételi hibával és annak vizsgálatával foglalkozunk.

Egy sokaság elemszáma lehet véges és végtelen. A véges (N) elemszámú sokaság megadásának legegyszerűbb módja egyetlen ismérv szerint az alábbi:

Y1, Y2, ..., YN

Ha a sokaság végtelen számú, akkor nem adható meg ebben a formában. Ekkor két esetet különböztetünk meg:

  • diszkrét ismérv esetén, ami azt jelenti, hogy az ismérvértékek véges vagy megszámlálhatatlan végtelent alkotnak, akkor a valószínűségi eloszlás használható:

    P(Y=k)=Pk
  • folytonos ismérv esetén pedig a:

    P(Y<y)=F(y)

    eloszlásfüggvénnyel és ennek deriváltjával, az

    F'(Y)=f(y)

    sűrűségfüggvénnyel adható meg a sokaság.

Összefoglalva:

IsmérvSokaság
Végesvégtelen
DiszkrétFelsorolással, valószínűség-eloszlássalValószínűség-eloszlás
folytonosFelsorolással, eloszlás függvénnyeleloszlásfüggvénnyel

A gyakorlatban többnyire véges sokaságból történik a mintavétel. A sokaság milyenségétől függetlenül a belőle származó minta mindig véges, és elemszámát n-nel jelöljük. A minta megadása pedig az elemek felsorolásával történik: y=(y1, y2, .., yn).

Fontos kérdés, hogy hogyan válasszunk ki mintát a sokaságból. Ennek különböző módjai ismertek. A mintavételnél fontos követelmény a pontosság és az olcsóság. Hogy a kettő közül melyiket mennyire veszzük figyelembe, az meghatározza a mintaelemek kiválasztási módját.

A mintaelemek kiválasztása történhet visszatevéssel vagy visszatevés nélkül.

Visszatevéses mintavétel: a kiválasztott elemeket visszahelyezzük a mintába és így ugyanaz az elem többször is bekerülhet a mintába. (Ez a független, azonos eloszlású minta: FAE). Egy N elemszámú sokaságból n-elemet Nn-féleképpen választhatunk ki.

Visszatevés nélküli mintavétel: a kiválasztott elemet nem tesszük vissza, így minden mintaelem csak egyszer kerülhet a mintába (Egyszerű véletlen mintavétel (EV). Egy N elemszámú sokaságból n-elemet ( N n ) -féleképpen választhatunk ki.

Végtelen elemszámú sokaság esetén mindkét eljárásnál a minta elemei, mint valószínűségi változók, minden esetben függetlenek lesznek egymástól. Véges sokaság esetén csak a visszatevéses mintavétel eredményez független mintaelemeket.

Véges sokaság esetén a minta jellemzője az n/N kiválasztási arány, amely azt mutatja meg, hogy a sokaság elemeinek mekkora hányada kerül a mintába.

A mintavétel módja nagymértékben meghatározza a minta tulajdonságát, aminek igazi jelentősége a mintavételi hiba meghatározásánál van.

A mintával kapcsolatban fontos fogalom a kis és nagy minta. Ennek jelentőségét az adja, hogy a mintából számított jellemzők nagy részének (átlag, szórás, stb.) eloszlása nagy minta esetén közelítőleg normális eloszlásúvá válik, így egyszerűbb kezelni. Kis mintaszám esetén ez általában nem mutatható ki. Szimmetrikus vagy ahhoz közel álló sokasági eloszlás estén már viszonylag kis elemszámú minták (n>30) is nagy mintának tekinthetők, míg a szimmetrikustól eltérő sokaság esetén csak a több százas mintanagyság tekinthető nagy mintának.

A minta nagysága és a mintavétel módja mellett fontos a mintavételi eljárás megválasztása. A mintavételi eljárás során az alapsokaságból meghatározott számú egyedet választunk ki. A mintavételi eljárások sokféleségét az adja, hogy a minimális ráfordítással, maximális információt elve tartalmazza az olcsóság és fontosság ellentétét. Ezért a mintavételi eljárások mindig kompromisszumot takarnak a rendelkezésre álló pénz és idő, valamint az elérhető pontosság között. A mintavételi eljárások sokfélesége végül is ennek az ésszerű kompromisszumnak az adott vizsgálati célhoz való illesztését jelentik

1.1. Véletlen mintavételi eljárások

A véletlen mintavétel lényege, hogy a mintát alkotó elemek a kiválasztás során egyenlő valószínűséggel kerüljenek bele a mintába. Az ember a véletlen kiválasztás végrehajtására nem megfelelő, ugyanis a szubjektív kiválasztás általában nem felel meg az egyenlő valószínűség elvének, főleg nagy sokaság és minta esetén. A véletlen mintavétel történhet.

  • sorshúzással,
  • Véletlen számok segítségével:
    • véletlen számok táblázat segítségével,
    • számítógépes véletlen szám generálással.

A véletlen szám segítségével történő mintavétel csak olyan esetekben használható, ha a sokaság egyenletes eloszlású.

Folytonos sokaság esetében a felezéses módszert alkalmazzák, addig felezik a mintát, amíg vizsgálható méretű mintanagyságot kapnak.

1.1.1.Egyszerű véletlen mintavétel (EV)

Homogén, véges elemszámú sokaság esetén visszatevés nélkül választjuk ki a mintát, elemenként egyenlő valószínűséggel. Véletlen szám segítségével történő mintavételkor az ismételten előforduló sorszámot átugorjuk. A mintavétel során az N elemű sokaságból ( N n ) -féle (N alatt az n) különböző összetételű mintát kapunk.

Ez a módszer főleg a természettudományi kísérleteknél, főleg a biológiai eredmények értékelésekor alkalmazható. Társadalmi-gazdasági jelenségek vizsgálatára nem használható.

1.1.2. Független, azonos eloszlású minta (FAE)

FAE mintát akkor kapunk, ha homogén és végtelen sokaságból veszünk mintát. Az egyes mintaelemek kiválasztása azonos valószínűséggel történik. Tipikus alkalmazási területe a tömegtermelés minőségi ellenőrzésének.

1.1.3. Rétegezett mintavétel (R)

A rétegezett mintavétel során a vizsgált ismérv szempontjából heterogén sokaságot több homogén (minél kisebb szórású) részsokaságra bontjuk úgy, hogy a csoportok kiadják a teljes sokaságot, továbbá egyetlen sokasági elem se tartozzon két vagy több csoportba. Az egyes rétegeken belül a minta elemének a kiválasztása egyszerű véletlen mintavétellel történik. Ez a módszer a társadalomtudományok területén nagyon gyakori.

  • Egyenletes elosztás: Lényege, hogy minden rétegben azonos számú mintaelem kerül, azaz nj=n/M. Egyszerű végrehajtani, de hátránya, hogy nem veszi figyelembe a teljes sokaságot adó részsokaságok nagyságát és szórását, így nagyfokú torzítást okozhat
  • Arányos elosztás: Lényege, hogy a mintába a sokasági arányoknak megfelelően választjuk meg az arányszámot: nj=n*Nj/N. A mintában ugyanazok a súlyarányok szerepelnek, mint a sokaságban. Végrehajtása egyszerű.
  • Nem arányos elosztás: a mintában a rétegarányok nem egyeznek meg az alapsokasági rétegarányokkal: nj n*Nj/N
  • Neyman-féle optimális elosztás: A nem arányos elosztás egyik fajtája. Alkalmazásának feltétele, hogy előre ismerjük vagy becsülni tudjuk az egyes rétegekbe lévő adatok szórását ( σ i ). A nagyobb szórású rétegekből nagyobb számú mintát veszünk. Előnye, hogy minimális hibával számolható ki az ilyen mintából a főátlag, de nehéz végrehajtani, mivel a rétegenkénti szórás szükséges hozzá.
  • Költségoptimális elosztás: A rétegezett mintavétel egyik módja, és feltételezi, hogy ismerjük az egyes rétegek megfigyelési egységköltségeit is. Egy elem átlagos megfigyelési költsége Π j forint. Azonos rétegnagyság és szórás esetén minél nagyobb a mintavétel költsége, annál kisebb mintát kell venni a rétegből
1.1.4. Csoportos mintavétel (Cs)

A homogén sokaságot csoportokra bontjuk, a mintát egyszerű véletlen mintavétellel kiválasztott csoport egyedei alkotják. A csoportok meghatározása lehet természetes, azaz eleve adott, de mesterségesen is történhet. Az N elemű sokaságot M részre bontjuk, ahol az egyes csoportok ni eleműek, és n i =N .

Főleg közvélemény-kutatáskor alkalmazzák ezt a mintavételt.

1.1.5. Többlépcsős mintavétel (TL)

Homogén sokaság vizsgálata esetén alkalmazható. Először csoportos mintavétellel kiválasztjuk az elsődleges mintavételi egységeket. 1-1 homogén nagyobb csoportból egyszerű véletlen kiválasztással egyedeket jelölünk ki, amelyek kiscsoportokat alkotnak. Ha megfelelő a minta, akkor kétlépcsős mintavételről beszélünk. Ha nem, akkor a kiscsoportokkal tovább ismételjük az eljárást.

1.2. Nem véletlen mintavételi eljárások

A véletlen mintavétel esetén elkövetett hibák valószínűség-számítási ismeretek segítségével meghatározhatóak. A nem véletlen mintavétel esetén kapott minta és az eredeti sokaság között azonban nehéz a mintavétel során elkövetett hibákat számszerűsíteni, a torzításokat kiszűrni.

A torzítások csak csökkenthetők, de nem szűrhetők ki teljesen. A torzítások minimalizálása érdekében célszerű, ha

  • a vizsgálat alanya nem ismeri az adatfelvétel célját,
  • egyértelmű kérdések vannak megfogalmazva,
  • kontrolkérdéseket is beiktatnak a kérdések közé.

A nem véletlen mintavételi eljárások tipikus esetei a társadalmi vizsgálatok, sok esetben személyes megkérdezés során alakul ki az információ.

1.2.1. Szubjektív kiválasztás

Önkényesnek is nevezik, mivel a mintavevő a szakmai ismeretére támaszkodva az általa jellemzőnek tartott egyedeket választja ki a sokaságból

1.2.2. Kvóta szerinti kiválasztás

Előre megadjuk a minta összetételét, azaz előre rögzített megoszlási viszonyszámnak megfelelő lesz a minta. Ehhez megfelelő információ szükséges a sokaságról a vizsgált ismérv szerint. A véletlennel kombinált kvóta kiválasztás azonban jobb, mint a csak kvóta szerinti. A kvótás eljárás a rétegezett mintavételhez hasonló eredményt ad. A lakosság körében végzett felmérések, az adatvédelem miatt egyre inkább kvótás eljárással készülnek.

1.2.3. Koncentrált kiválasztás

Feltételezi, hogy a sokaság vizsgált jellemzőjét döntően kevés számú egyed határozza meg. A mintavétel során ezeket, a meghatározó elemeket választjuk ki. Pl.: a nemzetgazdasági fogyasztással kapcsolatos elemzések során a fogyasztói árindex meghatározásánál a legnagyobb mértékben fogyasztott termékeket választják ki.

1.3. Kombinált kiválasztás

A véletlen és a tudatos kiválasztás kombinációja. Az N elemű véges sokaságot a vizsgálandó ismérv alapján sorba rendezzük. Az n mintaelem-szám megadása után a sokaság minden k-adik eleme bekerül a mintába olyan módon, hogy

k=[ N n ] (a hányados egész része)

Összefoglalásul elmondható, hogy a mintavétel alapvető célja, hogy létrehozzon az alapsokaság helyett egy kevesebb költséggel és idővel vizsgálható részsokaságot, amely minta elegendő információt nyújt arra, hogy belőle az eredeti sokaságra levont következtetéseink valószínűségi értelemben kellően pontosak legyenek.

Önellenőrző kérdések
1. Jelölje meg az alábbi fogalmak közül azokat, amelyek a részleges adatgyűjtésre igazak!
A minta elemszáma azonos a sokaság elemszámával.
Az eredmények kisebb nagyobb hibával tükrözik a valóságot.
Az eredmények a valóságot tükrözik.
Az alapsokaságnak csak egy része kerül a mintába.
2. Jelölje meg az alábbi fogalmak közül azokat, amelyek a részleges adatgyűjtésre igazak!
Reprezentatív adatgyűjtés során a megfigyelni kívánt sokságból tetszés szerint veszünk mintát.
Reprezentatív adatgyűjtés esetén a kapott eredményeket az alapsokaságra vonatkoztatjuk.
A mintából számított adatokat mindenféle megfontolás nélkül vonatkoztathatjuk az alapsokaságra.
3. Válassza ki a véletlen mintavételi eljárásokat!
Rétegezett mintavétel
Kvóta szerinti kiválasztás
Koncentrált kiválasztás
Csoportos mintavétel
4. Válassza ki az igaz állítást!
A mintavétel lehet visszatevéses és visszatevés nélküli.
A mintavétel csak visszatevéses lehet.
A mintavétel csak visszatevés nélküli lehet.
5. A véletlen mintavételi eljárások:
sorsolással történnek.
véletlen számok segítségével történnek.
kvóta szerinti kiválasztással történnek.
6. A rétegezett mintavétel lehet:
Arányos elosztás: a mintában a rétegarányok megegyeznek az alapsokasági rétegarányokkal.
Arányos elosztás: a mintában a rétegarányok nem egyeznek meg az alapsokasági rétegarányokkal.
Nem arányos elosztás: a mintában a rétegarányok nem egyeznek meg az alapsokasági rétegarányokkal.
Nem arányos elosztás: a mintában a rétegarányok megegyeznek az alapsokasági rétegarányokkal.

Válassza ki a helyes megfogalmazást!

7. Véletlen mintavételről beszélünk, ha...
egy N elemből álló sokaság minden elemének egyenlő esélyt biztosítunk a mintába való bekerülésre.
egy N elemből álló sokaság elemei különböző eséllyel kerülhetnek be a mintába.
egy n elemből álló minta minden elemének egyenlő esélyt biztosítunk a sokaságba való bekerülésre.
8. A minta elemszáma alapján "nagy mintáról" beszélünk, ha
n < 20
n > 30-40
n > 100
n > 1000