A statisztikák megértésének megkönnyítése érdekében meg kell magyarázni néhány statisztikai alapfogalmat.
Statisztikai fájl
A statisztika foglalkozik az általunk hívott jelenségekkel tömegjelenségek. Kétféle tömegjelenséget különböztetünk meg. Az egyik faj az, amely nagyszámú tárgyban fordul elő - magasság, súly, szemszín, nem, életkor, szakma, gyermekszám stb. A második faj az, amely nagyszámú ismétlés eredménye, pl. egy tárgy ismételt mérlegelése, ismételt dobókockák, érmék stb. Nevezzük azokat az objektumokat, amelyeket a statisztika megvizsgál statisztikai fájl - például. egy területen élő emberek összessége.
Alapvető statisztikai fájl hatálya N az összes statisztikai egység halmazát jelenti. Ha az alapfájlt nem lehet megvizsgálni (időbeli, pénzügyi vagy egyéb okokból), akkor abból készítünk minta fájl előre meghatározott szabályok szerint. A felmérésben csak a lakosság egy részére gyűjtik az adatokat, az ún minta. Ezeket az adatokat felhasználják a teljes népesség jellemzőinek becslésére. Ebben az esetben biztosítani kell, hogy a minta reprezentálja az érintett populációt. Például a 18 évesnél fiatalabbak vagy a nők és férfiak arányának a háztartások egy kiválasztott mintájában tükröznie kell a teljes népesség valóságát.
A kiválasztást úgy kell elvégeznünk, hogy a kiválasztott objektumok olyan tulajdonsággal rendelkezzenek, mint az egész alapfájl. Ezt a tulajdonságot hívjuk statisztikai jel (lehet nem, foglalkozás, gyermekszám, életkor, végzettség stb.). Változatokat, statisztikai előjel különböző értékeinek változatait hívjuk.
Statisztikai jel
A statisztikai karaktereket különböző szempontok szerint lehet felosztani. Az alapvető felosztás minőségi és mennyiségi jellemzőkre oszlik:
Minőségi (kategorikus) jellemzők verbálisan fejezze ki egy statisztikai egység tulajdonságát. A kvalitatív karakterek értékeit általában számokkal jelöljük, kódoljuk. A minőségi jellemzőket a következőkre osztjuk:
- - névleges - név karakterek, meg tudjuk nevezni értékeiket, de nem rangsorolhatjuk őket. Mondhatjuk, hogy különböznek vagy egyenlőek (nem, szemszín, nemzetiség);
- - sorszám - soros karakterek, Természetesen rendezhetjük az értékeiket, de nem tudjuk meghatározni, hogy az egyik érték mennyivel nagyobb a másiknál (érem - arany, ezüst, bronz, hadsereg rangja, a tanuló minőségi értékelése - kiváló, nagyon jó, jó, nem sikerült, kifejezhetünk numerikus értékelést 1, 2, 3, 4).
Mennyiségi (kardinális, numerikus) karakterek valós számok, megtudhatjuk az értékeikről, hogy azonosak vagy különböznek-e, sorrendbe rendezhetjük őket, és meghatározhatjuk azt is, hogy az egyik érték mennyivel nagyobb a másiknál. Ezeknek a karaktereknek nulla értéke és mértékegysége is van. A mennyiségi jellemzők a következőkre oszlanak:
- - diszkrét karakterek - véges, de megszámlálható számú variációjuk van, és minden variáció természetes, 1, 2, 3 számokkal számozható, például a családban a gyermekek száma, a teszt pontjainak száma;
- - folyamatoskarakterek - számértéke eltérhet egy bizonyos intervallumtól (testmagasság, jövedelem).
Intervallum karakterek (differenciál) azok, amelyeknek értékeit sorrendbe tudjuk rendezni, meghatározhatjuk, hogy az egyik érték mennyivel nagyobb, mint a másik, és mekkora a különbség (intervallum) az értékek között, de nem tudjuk meghatározni, hogy egy érték hányszor nagyobb mint a másik. Az intervallum karakter nem rendelkezik természetes nulla ponttal, de a nulla pont megállapodással meghatározható. Ezért az intervallum karakterek összeadhatók és kivonhatók, de nem szorozhatók és oszthatók fel. Pozitív és negatív értékeket is kaphatnak, például: a "Celsius-hőmérséklet" előjel nulla-jég olvadási hőmérsékletű.
Az arányos karakterek (arányos) az intervallum karakterek speciális esetei. Sorrendbe rendezhetők, és meghatározhatjuk az értékek közötti különbségeket. Van egy természetes nulla pontjuk is, abszolút 0, ami azt jelenti, hogy a karakter nem létezik. Értékeik nem lehetnek negatívak, összeadhatók, kivonhatók, szorozhatók és eloszthatók. Például az életkori karakter abszolút nulla 0 év. Egy 60 éves nő 40 évvel idősebb 20 évnél, és elmondhatjuk, hogy háromszor idősebb, mint a húszas éveiben.
A statisztikai jellemzők értékeinek meghatározását egy statisztikai fájlban statisztikai felmérésnek nevezzük. A statisztikai adatfeldolgozás során gyakran a minőségi jellemzőt helyettesítjük mennyiségi jelleggel.
(pl. minőségi tulajdonság nem: férfiak = 1, nők = 2).
Olyan karaktert hívunk, amelynek csak egy fix értéke van állandó. A statisztikák elsősorban azokat a karaktereket figyelik, amelyek legalább két vagy több variációval rendelkeznek. Az ilyen karakternek neve van változó.
Statisztikai osztályozás
A statisztikai felmérésekkel nyert adatok egyszerűsítésének és pontosításának legjobb módja az, ha bizonyos csoportokba - osztályokba rendezi őket.
A statisztikai adatok bizonyos jellemzők szerinti csoportokba (osztályokba) rendezésének módszerét rendezésnek nevezzük.
osztályozás = a statisztikai egységek felosztása olyan csoportokba (osztályokba), hogy a vizsgált jelenségek jellemző tulajdonságai a lehető legjobban feltűnjenek;
sort karakter = statisztikai karakter, amely kritérium a statisztikai fájl rendezéséhez;
osztály = statisztikai egységek csoportja, azonos karakter (variáns) karakterrel.
Példák a statisztikai fájlok rendezésére:
- az iskolai osztályozás során megkülönböztetünk egy osztály osztályt, páros osztályt, hármas osztályt, .
- személyek besorolása az elért iskolai végzettség szerint - alapképzettségű csoport, középfokú végzettségű, érettségi nélküli csoport, középfokú végzettséggel rendelkező csoport érettségivel.
Ha egy statisztikának kevés változata van, mindegyik változata külön osztályt képvisel. Az ilyen adatok bemutatására egy frekvenciaeloszlási táblázatot is használnak gyakorisági táblázat. Általában kb a statisztika feldolgozásának első lépése.
Frekvenciaeloszlás - frekvenciatáblázat
A gyakorisági táblázatok az adatok megjelenítésére szolgálnak, vagyis az adatok rendszerezésének világos módja. A statisztikákat bizonyos számú osztályokba sorolják, és frekvenciaeloszlást hoznak létre.
A gyakorisági táblázatok a következőket tartalmazzák:
- - a karakter megfigyelt értékeiről és a statisztikai fájlban való előfordulásának gyakoriságáról (abszolút szám), szám ni, azt jelzi, hogy a statisztikai fájl hány egysége tartozik egy bizonyos tulajdonságú osztályhoz, vagy a fájl hány egységének van karakterértékex i
- - a fájlban szereplő karakterértékek relatív reprezentációjáról (relatív gyakoriság), = szám vi, jelzi, hogy a fájl mely része tartozik az adott tulajdonságú osztályhoz; az abszolút bőség aránya határozza meg ni és a fájl terjedelme n.
- - a karakter egyedi értékének a karakter gyakoriságának (kumulatív gyakorisága) teljes eloszlásába való felvételéről
A háztartások nappali szobáinak számát lehetséges eredménnyel határoztuk meg: 1, 2, 3, 4, 5+ (azaz 5 vagy több szoba). Ebben a felmérésben véletlenszerűen 25 válaszadót választottak ki az alábbi eredményekkel, akik a következő szobaszámú apartmanokban éltek: 1, 3, 2, 4, 5+, 2, 3, 2, 5+, 1, 4, 2, 3, 3, 5+, 3, 3, 2, 4, 4, 2, 3, 4, 3, 2
Készítsen táblázatot a frekvencia és a relatív frekvenciaeloszlásokról. Próbálja ki a kapott eredmények rövid értelmezését, amely tartalmazza a megfigyelt karakter legtöbb és legkevesebb értékét.
A megoldás
A megfigyelt karaktert szimbólummal jelöljük x (lakóhelyiségek száma), amely x i értékeket vehet fel (j = 1, 2, 3, 4, 5+). Abszolút számokat jelölünk ni, relatív bőség vj.
asztal: Abszolút és relatív számok a nappali szobák száma szerint
A legtöbb ember három nappalival rendelkező háztartásokban él (32%), míg az egy nappalival rendelkező háztartások a legkevesebb embert (8%).
Átlagos értékek
A numerikus jellemzők két alapvető csoportját ismerjük egy statisztikai jellemző tanulmányozásához:
pozíció jellemzői (középen) - kifejezzen egy bizonyos szintű karaktert, amely körül a karakter más értékei többé-kevésbé koncentrálódnak;
a változékonyság jellemzői - fejezze ki, hogy a halmaz elemei karakterének értékei hogyan különböznek a kiválasztott helyzetjellemzőtől vagy egymástól
Pozíció jellemzői (szintek, középpont) - számok, amelyek jellemzik az ún a megfigyelt statisztikai jellemző "átlagos értéke". Két alapvető csoportra osztjuk őket:
- átlagok - lehetnek egyszerűek vagy mérhetőek
a) számtani átlag
b) geometriai átmérő
c) harmonikus átlag
- egyéb átlagértékek - medián, mód
Számtani átlaga
A számtani átlagot köznyelven nevezzük átlagos, egy számcsoport értékeinek összege elosztva a csoport számainak számával. Az átlag felfogható úgy, hogy egy számcsoportot összeszámolunk egy számba.
Számtani átlaga x az X értékek térfogatát fejezi ki fájlegységenként átlagosan. A kapcsolat határozza meg:
N - fájltartomány,
x i - az X karakter értéke az i-edik egységnél.
Példa
A csoportban 9 szám van: 10, 12, 11, 15, 13, 35, 41, 23, 20. Ennek a 9 számnak az összege 180. Ezután a 180 összegét elosztjuk a 9 számmal, hogy megkapjuk az átlagot. . Az átlag 180/9 = 20.
Példa
A születésekről és halálozásokról szóló statisztikai jelentések, valamint a migráció iratai alapján a Szlovák Köztársaság Statisztikai Hivatala elkészíti a Szlovák Köztársaság népességének éves mérlegét az összes település számára.
Megvan az átlagos (átlagos) állandó lakosok száma a Szlovák Köztársaság egyes régióiban 2018. december 31-én., Trencséni régió 588, Nyitra 679, Zsolnai kerület 691, Besztercebányai régió 650, Eperjesi régió 823, Kassa 798.
Számítsa ki a Szlovák Köztársaság egy régiójában élő lakosok számtani átlagát.
A megoldás
A megadott adatokat a számtani átlag képletével helyettesítjük. Nem szabad megfeledkeznünk arról, hogy ezres számokat fogunk beilleszteni a képletbe, így az eredményül kapott népesség ezer lesz.
x = (646 + 562 + 588 + 679 + 691 + 650 + 823 + 798)/8 = 679 625 ≐ (kb.) 680
Megállapíthatjuk, hogy a Szlovák Köztársaság minden régiójában átlagosan 680 ezer lakos él.
Számtani átlag (az illusztráció videó tartalmazhat hirdetéseket)
A hivatalos statisztikákban ez a leggyakoribb átlagtípus súlyozott átlag, mert ritkán van minden elemnek azonos jelentése. A súlyozott átlagban az egyes figyelembe vett tételeket megszorozzuk egy számmal (súly), amely tükrözi az elem relatív fontosságát, majd kiszámítják az eredményt, majd elosztják a tételek számával.
Súlyozott számtani átlag x akkor használjuk, ha a karakterek rendezett halmazával dolgozunk x. Ennek kiszámításához a relációt használjuk:
N - fájltartomány,
x i - az X karakter értéke az i-edik egységnél.
Súlyozott átlag (a cseh illusztrációs videó tartalmazhat hirdetéseket)
Geometriai átmérő (az illusztráció videó tartalmazhat hirdetéseket)
Mód
Mo a leggyakoribb karakterérték x, rendezett fájl esetén pedig a legnagyobb abszolút bőségű érték.
Példa
A háztartások nappali szobáinak számát lehetséges eredménnyel határoztuk meg: 1, 2, 3, 4, 5+ (azaz 5 vagy több szoba). A felmérés során 25 válaszadót választottak ki véletlenszerűen, mindegyik egy bizonyos számú szobával rendelkező lakásban élt (az első egyszobás lakásban, a második egy háromszobás lakásban élt: 1, 3, 2, 4, 5 +, 2, 3, 2, 5+, 1, 4, 2, 3, 3, 5+, 3, 3, 2, 4, 4, 2, 3, 4, 3, 2
A 3. érték a leggyakoribb ebben a példában, ami azt jelenti, hogy a mód 3.
Mod (x) = 3, a 3. érték a leggyakoribb, legfeljebb 8-szor fordul elő.
Középső
Középső Nekem az az érték, amely a detektált értékek halmazát két egyformán sok csoportra osztja, t. j. csoportok, amelyek közül az első a karakter értékű statisztikai egységek 50% -át tartalmazza x kevesebb, mint a medián, a második a fennmaradó statisztikai egységek 50% -át tartalmazza, amelyek értéke nagyobb, mint a medián. Ha a karakter összes értékét méret szerint rendezzük nem csökkenő (vagy nem növekvő) szekvenciába, akkor a medián lesz az az érték, amely a figyelembe vett szekvencia közepén helyezkedik el.
Rendezett fájl esetén:
és - a médiaintervallumot megelőző osztály felső határa,
N - fájltartomány,
n1 - az összes elem száma a médiaintervallum alatt,
n2 - a média intervallum elemeinek száma,
h - osztály szélessége.
Példa
Az öt kocka élmérete 6, 8, 9, 10 és 11 (cm-ben). Határozza meg a medián értéket:
a) felületükre,
b) e kockák térfogatára.
A megoldás
a) Először kiszámoljuk az egyes kockák felületét (cm 2 -ben). A megadott élméreteknél ezek megegyeznek: 216, 384, 486, 600, 726.
Most már meghatározható a medián:
Med (x) = x (n + 1)/2 = x6/2 = x3 = 486, mert n páratlan.
b) Először kiszámoljuk az egyes kockák térfogatát (cm 3 -ben). Az élek megadott méretei esetén fokozatosan megegyeznek: 216, 512, 729, 1000, 1331. Most már meghatározható a medián:
Med (x) = x (n + 1)/2 = x6/2 = x3 = 729, mert n páratlan.
Mód, medián (az illusztráció videó tartalmazhat hirdetéseket)
Változékonyság
A variabilitás jellemzői (variabilitás, szóródás) = számok, amelyek jelzik, hogy a karakter értékei milyen mértékben térnek el a kiválasztott jellemző pozíciótól, vagy egymástól. Ezek tartalmazzák:
- variációs tartomány
- szétszóródás
- szórás
Variációs tartomány A vr csak hozzávetőleges jellemzője a megfigyelt tulajdonság értékeinek változékonyságának. A kvantitatív tulajdonság legnagyobb és legkisebb értéke közötti különbségként t. j. v r = xmax - xmin .
Szétszóródás
Szétszóródás δ 2 az átlagtól való eltérések négyzetének számtani közepét jelenti x. A képlet határozza meg:
Rendezett fájl esetén a reláció szerint számoljuk ki:
N - fájltartomány,
m - osztályok száma a fájlban,
nj - abszolút bőség j-ennek az osztálynak (j = 1, 2, . m),
xj - karakterérték x, amely képviseli j-az osztály.
A szórás egyik fontos tulajdonsága az:
a) Az állandó varianciája nulla.
b) Ha hozzáadjuk az állandó karakter összes értékét, a variancia nem változik.
c) Ha a karakter összes értékét megszorozzuk az a konstanssal, akkor a kapott értékek szórása megegyezik az eredeti halmaz varianciájának és az a konstans négyzetének szorzatával .
Példa
A háztartási cikkek áruházában 18 seprű szállítmányt kaptak, míg a seprűk előírt hossza 120 cm volt. A mérések azonban azt mutatták, hogy a tényleges hosszak a következők:
117., 122., 125., 118., 119., 120., 122., 123., 116., 117., 121., 120., 123., 120., 119., 121., 124., 115. oldal.
Mindenképpen a seprűk szóródása.
A megoldás
Először kiszámoljuk az átlagot:
x = (117 + 122 + 125 + 118 +. + 121 + 124 + 115)/18 = 2162/18 = 120.1
A képletbe behelyettesítve kiszámítjuk a varianciát:
Az így kapott variancia 6,69.
Szórás (az illusztráció videó tartalmazhat hirdetéseket)
Bevezetés a szórásba és a szórásba (az illusztráció videó reklámokat tartalmazhat)
Standard (standard) eltérés A δ meghatározása δ = √δ 2, és azt jelzi, hogy az adott halmaz átlagai hogyan térnek el a karakterértékektől a számtani átlagtól.
Szórás (az illusztráció videó tartalmazhat hirdetéseket)