Statisztika - alapfogalmak

tatisztika

Mik a változók. A változók, vagy másképp, statisztikai karakterek, vektorok olyan dolgok, amelyeket a kutatás során mérünk, figyelünk vagy manipulálunk. Különböznek a kutatásunkban betöltött szerepükben és a mérhetőségükben.

Milyen népesség. A népesség, különben alapkészlet, az összes lehetséges elem, válaszadó összessége, amely alkalmas az érdeklődésre számot tartó jelenségre. Például az elnökválasztáson minden választópolgár. Vagy minden leukémiában szenvedő ember, ha gyógyszert keresünk erre a betegségre. Vagy mindegyik lehetséges mező, ha a talajvizsgálat tárgya.

Mi a minta. Egy minta, vagy egy válogatás, vagy másképpen egy adat, egy adatsor a teljes populáció részhalmaza. A kutató elemzi a mintát, és a rajta talált eredményeket megpróbálja általánosítani az egész populációra. Egy adatfájlban egy válaszadó egy sort, a változók pedig oszlopokat képviselnek. Ez tehát egy olyan mátrix, amelynek annyi sora van, ahány válaszadó van a mintában, és ahány oszlop, annyi megfigyelt változó van. Az összes lehetséges minta egyesítésével megkapjuk a teljes populációt.

Összefüggés és kísérleti kutatás. Korrelációs kutatásban a változók közötti kapcsolatokat vizsgáljuk, miközben a változókat nem érintjük, csak mérjük és összefüggéseket keresünk, pl. mi a kapcsolat a 100 méteres medence átlépésekor elért idő és a lövések száma között. Kísérleti kutatás során manipulálunk néhány változót, majd megmérjük ennek a manipulációnak a hatását más változókra. Például kiképezzük a válaszadókat egy ideig úszni, majd megmérjük a fent említett függőséget. Csak a kísérleti kutatások adnak teljes bizonyítékot ok-okozati összefüggésre. Kísérleti kutatás során lehetőségünk van kideríteni, hogy az A változó változása okozta a B változó változását. Míg a korrelációs kutatás csak a függőségről beszél, de nem nyújt meggyőző bizonyítékot az okra.

A változók közötti kapcsolatok. A változók típusuktól függetlenül összefüggésben vannak, más szóval kapcsolat van közöttük, függőség, ha a válaszadók mintájában szereplő értékeik szisztematikusan megfelelnek egymásnak. Vegyünk például egy mintát azokból a válaszadókból, akiknek magasságát és súlyát mérjük. Általános szabály, hogy a magasabb általában nehezebb, ezért számíthatunk arra, hogy ez a két változó összefüggésben van, más szóval - független.

A változók közötti kapcsolatok két alapvető jellemzője. Ezek a méret és a megbízhatóság, vagyis a megbízhatóság.
A mintában lévő munkamenet nagysága könnyen mérhető. Például az elhízás és a vér koleszterinszintje közötti kapcsolat nagysága magas. Legalább egy konkrét kutatási mintán megjósolhatjuk, hogy az első okozza a másodikat.
A megbízhatóság kevésbé intuitív, mint a méret, de nagyon fontos. Beszél egy adott mintából kapott eredmény reprezentativitásáról. Arról a valószínűségről beszél, hogy ha más válaszadókat választunk ugyanabból a populációból, akkor hasonló eredményre számíthatunk, mint az eredeti mintánál. Általános szabály, hogy a kutatónak általánosítania kell a mintából kapott eredményt az egész populációra. A megbízhatóság mennyiségileg becsülhető, és a következő szövegben p-értékként vagy szignifikancia-szintként fogunk találkozni vele.

Mi a szignifikancia szint (p-érték). A mintából kapott eredmény szignifikancia szintje annak a valószínűsége, hogy a megfigyelt függőség, ill. a válaszadók mintájában szereplő változók közötti különbség tisztán véletlenszerű, és az egész populációban, amelyből a mintát kiválasztották, ez a függőség, ill. nincs különbség. Minél magasabb a szignifikancia szintje, annál kevésbé várható a válaszadók kutatási mintájától kapott megfigyelt függőség a teljes populációra nézve.
Például a 0,05-ös szignifikanciaszint azt jelzi, hogy legfeljebb 5% a valószínűsége annak, hogy a mintában talált változók közötti kapcsolat tisztán véletlenszerű. Más szavakkal, a p-érték annak a hibának a valószínűsége, amelyet a mintából kapott függőség eredményének az egész sokaságra érvényes elfogadása okoz. Ezért feltételezve, hogy a populációban nincs ilyen kapcsolat, akkor a kísérlet minden 20 ismétléséhez 0,05-ös p-értéknél ez a kapcsolat egy mintában jelenhet meg. De ha valóban van ilyen kapcsolat a populációban, akkor annak valószínűségét, hogy ezt a tényt a kísérlet megismétlése megerősíti, a teszt erősségének nevezzük, és vigyázz, ez nem 1-p.
Egy igazán jelentős függőségért, ill. különbség, akkor ilyen eredményt veszünk figyelembe, ha a p-érték kisebb, mint 0,05. Egyes kutatási feladatoknál szigorúbb kritériumot alkalmaznak, p

A függőség mértéke és értelmezése. A statisztikai teszt célja a változók közötti kapcsolat megbecsülése, azaz az egyik változó magyarázott variációjának és a változó teljes variációjának aránya. Tehát annyiban, amely százalékban kifejezve az első változó változása a második változásával és fordítva magyarázható.

A normális vélelem be nem tartásának hatása. A fenti állítások többsége matematikailag igazolt, de néhányuk csak empirikusan, úgynevezett Monte-Carlo kísérleteken alapul. Így meghatározták, hogy a normalitáson alapuló tesztek mennyire érzékenyek a normális eloszlás feltételezésének be nem tartására. E tanulmányok következtetése az volt, hogy ennek a meg nem felelésnek a következménye kevésbé súlyos, mint azt eredetileg gondolták. Ezért a particionálási tesztek használata minden típusú kutatásban jelenleg egyre népszerűbb.

Lefordított részek:
StatSoft, Inc. (1999). Elektronikus statisztikai tankönyv. Tulsa, OK: StatSoft. WEB: http://www.statsoft.com/textbook/stathome.html