25.4. 2008 14:51 Stephen T. Ziliak és Deirdre N. McCloskey könyvismertetése: A statisztikai jelentőség kultusza

folyamat

Képzeljen el két fogyókúrás gyógyszert, amelyeknek ugyanazok a mellékhatásai vannak, és ugyanolyan drágák. Az egyik esetében az átlagos fogyás fél év alatt 20 kilogramm, átlagos eltérés 10 kilogramm. A másodikban az átlagos veszteség öt kilogramm fél év alatt, az átlagos eltérés pedig egy kilogramm. Tehát számíthat arra, hogy az első tablettával 10–30 kilogrammot veszít, míg a másodikkal négy és hat kiló között fog fogyni.

Melyik tabletta jobb? A fogyni vágyó személy minden bizonnyal az elsőt választaná. Egy akadémikus közgazdász azt mondaná, hogy a második tabletta "statisztikailag jelentősebb". A legtöbb helyzetben a pontosság hangsúlyozása, nem pedig az összhatás nagysága, torz képet ad a valóságról. Stephen Ziliak és Deirdre McCloskey azzal érvelnek, hogy ez az indokolatlan hangsúlyozás a modern empirikus módszerek egyik fő hiányossága a társadalomtudományokban.

Statisztikai jelentőség

Forrás: Szavazz erre a cikkre a vybrali.sme.sk oldalon

Stephen T. Ziliak és Deirdre N. McCloskey: A statisztikai jelentőségű kultusz. A szokásos hiba költsége a munkánk, az igazságosság és az élet. Ann Arbor: University of Michigan Press (2008), 320 p.

A statisztikai szignifikancia a regresszióanalízisre utaló kifejezés. Ebben a kutatók egy függő változót (például gazdasági növekedést) próbálnak megmagyarázni más változók kombinációjával (például a tudományos kutatás intenzitása, a lakosság műveltsége vagy az intézmények minősége). A regresszióanalízis tehát egy sor becslést ad, amelyekből levezethető a kutatás, az írástudás vagy az intézmények hatása a gazdasági növekedésre.

A regresszióanalízissel dolgozók hagyományos feladata a statisztikai szignifikancia tesztelése - vajon mondjuk tudományos kutatás hatásának becslése nem magyarázható-e kizárólag a véletlen következményeként. Ha egy ilyen hipotézist nem lehet elutasítani, akkor a változót statisztikailag jelentéktelennek tekintjük. Ha egy ilyen hipotézist el lehet utasítani, akkor a kutatásnak a gazdasági növekedésre gyakorolt ​​hatása több, mint véletlenszerű munka.

De a statisztikai szignifikancia mechanikus vizsgálata elhomályosíthatja a valódi, "érdemi" jelentőséget. Akárcsak a fogyókúrás tabletták esetében, az empirikus közgazdaságtanban is előfordulhat olyan helyzet, hogy egy potenciálisan nagy hatás számunkra statisztikailag jelentéktelennek tűnik. Például azért, mert a vonatkozó változót nagyon pontatlanul mérik.

A józan ész szerint a hatás nagysága fontosabb, mint statisztikai szignifikanciája. A fizikusok ezt nagyon jól megértik, és az első reflexük mindig az, hogy a vizsgált hatás nagyságáról kérdeznek. A fizikában sok statisztikailag szignifikáns összefüggést elhanyagolhatónak tekintenek, ha a hatások nagysága túl kicsi. Éppen ellenkezőleg, a közgazdaságtanban sok apró és elhanyagolható hatást statisztikailag szignifikáns összefüggésnek tekintenek. És túl gyakran figyelmen kívül hagyják azokat a potenciálisan jelentős hatásokat, amelyek nagy pontatlanságot mutatnak. Döntő fontosságú felismerni, hogy a statisztikai szignifikancia önmagában sem nem szükséges, sem nem elégséges feltétel a megfigyelt változó valós jelentőségéhez.

Iskolai hiba

Ezenkívül a statisztikai szignifikancia meggondolatlan tesztelése elrejti a buktatót egy iskolai hiba formájában - a feltételes valószínűség két különböző típusának összetévesztését. Mennyi a valószínűsége annak, hogy egy véletlenszerűen kiválasztott halottat felakasztottak? Indokolt feltételezni, hogy viszonylag kicsi lesz. Fordítva: mekkora annak a valószínűsége, hogy egy véletlenszerűen kiválasztott akasztott ember meghalt? Ez a valószínűség nagyon közel lesz a bizonyossághoz.

Látszólag triviális és könnyen leleplezhetetlen hiba lehet. A gazdasági folyóiratok olvasója azonban könnyen találkozhat "tudományosabb" formájával - helytelenül alkalmazva vagy értelmezve a Student t-tesztjét. E név mögött egy matematikai eszköz rejlik a kiválasztott mintára mért adatok statisztikai szignifikanciájának hipotézisének tesztelésére. A gyakorlatban például annak összehasonlítására használják, hogy egy kiválasztott minta mérési eredményei statisztikailag szignifikánsan különböznek-e a kontroll mintától.

A matematikus szerint a t-teszt igazolja, hogy a kiválasztott mintán mért adatok alapján kizárható-e az a feltételezés, hogy a tényleges hatás nulla. Nagy hiba összetéveszteni ezt azzal az egyszerűsített állítással, hogy tesztelik, hogy a vizsgált hatás nagysága nulla-e. Ha nem tudjuk elutasítani az úgynevezett nullhipotézist, az még mindig nem ad jogot arra, hogy egyértelműen kijelentsük, hogy a valós hatás nulla. Vagy emberi nyelven: hasonló ahhoz a helyzethez, amikor nem utasíthatjuk el azt a hipotézist, miszerint egy véletlenszerűen kiválasztott akasztott ember halott. Túl sok társadalomtudós követi el ezt a hibát.

Félrevezető és káros

Ziliak és McCloskey szerint a statisztikai szignifikancia hangsúlyozása félrevezető és káros. Szerintük a statisztikai szignifikancia nem is hasznos eszköz az adatok kezdeti vizsgálatához, mivel túl gyakran vezethet teljesen téves következtetésekhez. Paradox, milyen nagy jelentőséget tulajdonítanak a "jelentős" eredményeket mutató empirikus kutatásoknak. Az egyik első megállapítás, amelyet minden ökonometriai hallgató elméjébe ültet, az, hogy eredményei statisztikailag szignifikánsak.

Az ökonometriai tankönyvek a t-tesztből és a bálvány egy százalékos jelentőségi szintjéből jöttek létre, amelynek szinte a teljes gazdasági szakma kritikátlanul meghajol. Ziliak és McCloskey empirikus cikkeket követtek a gazdasági szakma legrangosabb folyóiratában, az American Economic Review-ben, és megállapították, hogy a statisztikai szignifikancia hangsúlyozása más, sokkal fontosabb szempontokat vet fel. Csak a cikkek minimuma mutatta meg az adott teszt erősségét. Sok cikk nem tárgyalta a talált hatások nagyságát és összehasonlítását azzal, amit a szerzők elvártak a modellektől.

Igaz, hogy a helyzet némileg javult az 1980-as évekhez képest. De továbbra is a módszerek megközelítése dominál, amely meggondolatlanul alkalmazza a statisztikai szignifikancia elvét, és figyelmen kívül hagyja a vizsgált hatások nagyságát. Ezt a tendenciát még a modern gazdaság nagy nevei sem kerülik el. A szerzők élvezettel említik Gary Becker, Ben Bernanke, Paul Krugman vagy David Card és Alan Krueger műveit, amelyek mechanikusan és meggondolatlanul használják a statisztikai szignifikancia fogalmát az általuk vizsgált hatások valódi jelentőségének állítólagos bizonyítékaként.

Széles körű betegség

A regresszióanalízist nemcsak a közgazdaságtanban alkalmazzák. Gyakori eszköz a pszichológiai és orvosi kutatásban. A szerzők szerint a mai pszichológia jobb, mint a közgazdaságtan, mert a tudományos folyóiratok szigorúbb követelményeket támasztanak az eredmények ténybeli, nemcsak statisztikai jelentőségével szemben. Az orvostudományban a gyógyszerek klinikai vizsgálata statisztikai jelentőségre támaszkodik. Ez pedig szó szerint végzetes lehet.

A Merck által kifejlesztett Vioxx fájdalomcsillapítót 1999 és 2003 között több mint 80 országban forgalmazták. Miután egy 70 éves nő szívroham következtében vény nélkül szedte a Vioxx-et, a klinikai vizsgálatokat újból megvizsgálták. A perre számítva a Merck megvonta a kábítószert az értékesítéstől. Hogyan viszonyul a statisztikai szignifikanciához?

Öt Vioxx-ot szedő beteg szívrohamot szenvedett a klinikai vizsgálatok során. Ugyanebben az időszakban a kontrollcsoportban csak egy beteg szenvedett szívrohamot. Ez a különbség nem érte el a statisztikai szignifikancia 5% -os határát. Merck ezért azzal érvelt, hogy a Vioxx rovására tett látszólagos öt-egy arány ellenére nincs különbség a két gyógyszer keringési rendszerre gyakorolt ​​hatásában. A helyzetet tovább rontja, hogy később kiderült, hogy további három beteget, akik szívinfarktusban szenvedtek vagy haltak meg, kizárták a mintából a vizsgálat során. Végül nem öt és egy, hanem nyolc és egy arány volt (ami már statisztikailag szignifikáns lenne).

Érthető, hogy egy becsületes közgazdász elfogadhatatlannak találná az adatok manipulálását. De a fő probléma az, hogy magában a manipulációban a hangsúly a statisztikai jelentőségen volt, mint a kockázat egyetlen mérőszámán. Mechanikus alkalmazása tökéletes motivációt teremt a manipulációk gyakori előfordulásához. Ezért, ha magasabb szintű átláthatóságot akarunk elérni a tudományos kutatásban, ragaszkodnunk kell ahhoz, hogy a statisztikai jelentőségű tesztek ne képezzék az adatokkal való munka sarokkövét.

A statisztika története

A Student t-tesztjének története, amelyet Ziliak és McCloskey a könyv utolsó harmadában mondanak el, szintén lenyűgöző. A biometriában elméleteket publikáló hallgatót valójában William S. Gosset-nek hívták, és a dublini Guinness sörfőzdében dolgozott. A munkáltató nem engedte, hogy valódi nevén publikáljon. A módszer, amelyet főként a sörkészítés technológiai folyamatainak összehasonlításában vagy a komlófajták minőségének összehasonlításában alkalmazott, Ronald A. Fisher, egy ambiciózus statisztikus kezébe került, aki később eugenika professzor lett a londoni University College-ban.

Gosset óva intett attól, hogy a t-teszt mechanikai eszközzé váljon a magyarázó változók statisztikai regresszióban betöltött jelentőségének értékelésére, miközben figyelmen kívül hagyja a hatás nagyságát. Azonban a gátlástalan Fisher, aki tudatosan lebecsülte a Student jelentőségét saját kutatásai szempontjából, a statisztikai szignifikancia tesztjét a modern statisztika bálványává változtatta.

R. A. Fisher hatása és az egyszerű, automatikusan alkalmazott szabályok eredeti vonzereje áll az a tény mögött, hogy az alkalmazott közgazdaságtan, a pszichológia és a klinikai orvoslás indokolatlan hangsúlyt fektet a t-tesztre. Szerepet játszott a számítástechnika bővítése is, amely lehetővé teszi a statisztikai szignifikancia azonnali tesztelését.

Ha a statisztikai szignifikancia teszt alkalmazásának költségei gyakorlatilag nullaak, akkor a gazdaság azt jósolja, hogy hosszú távon e tesztek hozama is nulla lesz. És ez úgy tűnik, hogy pontosan leírja a helyzetet a kortárs empirikus tudományágakban. A statisztikai jelentőség mindennapos jelenség, amely nagyon kevés haszonnal jár a valós ismeretek számára.

Ziliak és McCloskey radikális paradigmaváltásra hívnak fel. Felszólítják a társadalomtudósokat, hogy ne alkalmazzák a t-tesztet szakácskönyv recepteként, hanem a különféle hatások jelentőségének értékelésekor inkább a nagyságukat nézzék meg. És szembesítették vele, amit elméleteik ésszerűen meghatározott paraméterekkel jósolnak. Egy ilyen változás nagyobb követelményeket támasztana a minőség iránt, és segítené a társadalomtudományokat abban, hogy őszintébbek legyenek, és többet beszéljenek a valóságról, mint ahogy jelenleg mondják.

    Stephen T. Ziliak a chicagói Roosevelt Egyetem gazdasági professzora. A gazdaságtörténet mellett a matematikai statisztika módszertanára és történetére koncentrál.

Deirdre N. McCloskey (született Donald N. McCloskey) a chicagói Illinois-i Egyetem gazdasági, történelem-, angol- és kommunikációs professzora. A klometria egyik alapítója - a gazdaságtörténet kvantitatív vizsgálata. Az ezen a területen végzett fontos hozzájárulások mellett McCloskey főként a retorika gazdasági és szociológiai jelentőségének kutatásával vált híressé.

Az ismertető szerzője a George Mason Egyetem doktorandusz hallgatója.