800 գիտնական ասում է, որ ժամանակն է հրաժարվել վիճակագրական նշանակությունից

P-արժեքները և վիճակագրական նշանակությունը լայնորեն սխալ են ընկալվում: Ահա թե ինչ են նրանք իրականում նշանակում.

Կա մի լուրջ դեպք, որ p-արժեքների հետապնդումը մոլորեցրել է գիտությունը:

erhui1979 /Getty Creative Images

Շատ երկար գիտնականների կարիերան կառուցվել է մեկ վիճակագրության հետապնդման շուրջ.<.05.



Շատ գիտական ​​առարկաներում դա այն շեմն է, որից այն կողմ ուսումնասիրության արդյունքները կարող են վիճակագրորեն նշանակալի հայտարարվել, ինչը հաճախ մեկնաբանվում է այնպես, որ քիչ հավանական է, որ արդյունքները պատահական պատահականության արդյունք են:

Թեև դա այն չէ, ինչ իրականում նշանակում է գործնականում: Վիճակագրական նշանակությունը շատ հաճախ սխալ է ընկալվում և սխալ օգտագործվում: Ահա թե ինչու գիտնականների եռյակը գրում է Բնություն այս շաբաթ կոչ են անում հրաժարվել վիճակագրական նշանակության ողջ հայեցակարգից։

Նրանց ամենամեծ փաստարկը․ Իրական էֆեկտը երբեմն կարող է տալ 0,05-ից ավելի p արժեք: Եվ մենք վերջին տարիներից գիտենք, որ գիտությունը լի է կեղծ դրական ուսումնասիրություններով, որոնք հասել են 0,05-ից ցածր արժեքների (կարդացեք իմ բացատրությունը Կրկնօրինակման ճգնաժամը սոցիալական գիտության մեջ ավելին):

Այն Բնություն Մեկնաբանության հեղինակները պնդում են, որ խնդիրը մաթեմատիկան չէ: Փոխարենը, դա մարդու հոգեբանությունն է: Նրանք գրում են, որ շերեփային արդյունքները դառնում են վիճակագրորեն նշանակալի և վիճակագրորեն ոչ էական, հանգեցնում է գիտության ուսումնասիրության չափազանց սև-սպիտակ մոտեցման:

Ավելի քան 800 այլ գիտնականներ և ամբողջ աշխարհի վիճակագիրները ստորագրել են այս մանիֆեստը: Առայժմ դա ավելի շատ սադրիչ փաստարկ է թվում, քան իրական ծովային փոփոխության մեկնարկ: Բնություն, մեկը, չի ձգտում փոխել այն, թե ինչպես է դիտարկում վիճակագրական վերլուծությունը փաստաթղթերի գնահատման ժամանակ, նշում է ամսագիրը:

Սակայն մակընթացությունները կարող են աճել՝ հակառակ վիճակագրական նշանակության: Սա առաջին դեպքը չէ, երբ գիտնականներն ու վիճակագիրները վիճարկում են ստատուս քվոն: 2016 թվականին Ի գրել է այն մասին, թե ինչպես է նրանցից մի մեծ խումբ կոչ արել բարձրացնել շեմը մինչև .005, ինչը շատ ավելի դժվար է դարձնում արդյունքը վիճակագրորեն նշանակալի անվանելը: (Միաժամանակ, հետ Բնություն մեկնաբանություն, ամսագիր Ամերիկացի վիճակագիր մի ամբողջ խնդիր նվիրեց վիճակագրական նշանակության խնդրին:) Լայն ճանաչում կա, որ p-արժեքները կարող են խնդրահարույց լինել:

Ես կասկածում եմ, որ այս առաջարկը բուռն քննարկման առարկա կդառնա (ինչպես գիտության մեջ ամեն ինչ): Առնվազն արմատական ​​փոփոխությունների այս վերջին կոչը ընդգծում է գիտությանը պատուհասող կարևոր փաստ. վիճակագրական նշանակությունը լայնորեն սխալ է ընկալվում: Թույլ տվեք ձեզ անցնել դրա միջով: Կարծում եմ, դա կօգնի ձեզ ավելի լավ հասկանալ այս բանավեճը և կօգնի ձեզ տեսնել, որ գիտական ​​հայտնագործության արժանիքները դատելու շատ ավելի շատ եղանակներ կան, քան p-արժեքները:

Սպասեք, ինչ է p-արժեքը: Ի՞նչ է վիճակագրական նշանակությունը:

Միք Ուիգինս /Getty Creative Images

Նույնիսկ p-արժեքների ամենապարզ սահմանումները հակված են բարդանալու, այնպես որ համբերեք ինձ, երբ ես այն քանդում եմ:

Երբ հետազոտողները հաշվարկում են p-արժեքը, նրանք փորձության են ենթարկում այն, ինչը հայտնի է որպես զրոյական հիպոթեզ: Առաջին բանը, որ պետք է իմանալ, սա է ոչ այն հարցի թեստը, որին ամենաշատը ցանկանում է պատասխանել փորձարարը:

Ենթադրենք, որ փորձարարն իսկապես ցանկանում է իմանալ, թե արդյոք օրական մեկ սալիկ շոկոլադ ուտելը հանգեցնում է քաշի կորստի: Դա ստուգելու համար նրանք 50 մասնակցի հանձնարարում են օրական մեկ սալիկ շոկոլադ ուտել: Եվս 50-ին հրամայված է զերծ մնալ համեղ ուտեստներից: Երկու խմբերն էլ կշռվում են փորձից առաջ, իսկ հետո, և համեմատվում է նրանց միջին քաշի փոփոխությունը:

որքան հաճախ է հանուկան ընկնում Սուրբ Ծննդի նախօրեին

Զուր վարկածը սատանայի փաստաբանի փաստարկն է: Այն նշում է, որ տարբերություն չկա շոկոլադ ուտողների և շոկոլադից ձեռնպահ մնալու քաշի կորստի մեջ:

Չեղյալը մերժելը մեծ խոչընդոտ է, որը գիտնականները պետք է մաքրեն իրենց վարկածն ապացուցելու համար: Եթե ​​զրոյականը մնում է, դա նշանակում է, որ նրանք չեն վերացրել իրենց արդյունքների հիմնական այլընտրանքային բացատրությունը: Իսկ ի՞նչ է գիտությունը, եթե ոչ բացատրությունների նեղացման գործընթաց:

Այսպիսով, ինչպես են նրանք բացառում զրոյականը: Որոշ վիճակագրություն են հաշվարկում։

Հետազոտողը հիմնականում հարցնում է. Որքանո՞վ ծիծաղելի կլիներ հավատալ, որ զրոյական վարկածը ճշմարիտ պատասխանն է՝ հաշվի առնելով այն արդյունքները, որոնք մենք տեսնում ենք:

Չեղյալ համարելը մի տեսակ նման է դատական ​​գործերում անմեղության սկզբունքին, քանի դեռ նրա մեղավորությունն ապացուցված չէ, բացատրում է Ռեգինա Նուցոն՝ Գալոդետի համալսարանի մաթեմատիկայի պրոֆեսոր: Դատարանում դուք սկսում եք այն ենթադրությամբ, որ ամբաստանյալն անմեղ է: Հետո սկսում ես ապացույցները նայել՝ արյունոտ դանակը, որի վրա մատնահետքեր են դրված, նրա բռնության պատմությունը, ականատեսների վկայությունները: Քանի որ ապացույցները մեծանում են, այդ անմեղության կանխավարկածը սկսում է միամիտ թվալ: Ինչ-որ պահի երդվյալ ատենակալները, ողջամիտ կասկածից դուրս, զգում են, որ ամբաստանյալն անմեղ չէ:

Զուր վարկածների փորձարկումը հետևում է նույն տրամաբանությանը. Եթե շոկոլադ ուտողների և շոկոլադից ձեռնպահ մնալու քաշի հսկայական տարբերություններ կան, ապա զրոյական վարկածը, որ քաշի տարբերություններ չկան, սկսում է հիմար թվալ, և դուք կարող եք մերժել այն:

Դուք կարող եք մտածել. Արդյո՞ք սա գեղեցիկ շրջանաձև միջոց չէ ապացուցելու, որ փորձն աշխատել է:

Դուք ճիշտ եք!

Զուր վարկածի մերժումն է անուղղակի փորձարարական վարկածի ապացույց: Այն ոչինչ չի ասում այն ​​մասին, թե արդյոք ձեր գիտական ​​եզրակացությունը ճիշտ է:

Իհարկե, շոկոլադ ուտողները կարող են որոշ քաշ կորցնել: Բայց արդյո՞ք դա շոկոլադի պատճառով է: Միգուցե. Կամ գուցե նրանք ավելորդ մեղավոր էին զգում ամեն օր կոնֆետ ուտելով, և գիտեին, որ իրենց կշռելու են լաբորատոր բաճկոններ հագած անծանոթները (տարօրինակ է), ուստի նրանք խնայում էին այլ կերակուրներ:

Վեգասի հավանականություն 2020 թվականի նախագահական ընտրություններում

Նուլը մերժելը ձեզ ոչինչ չի ասում այն ​​մեխանիզմի մասին, որով շոկոլադը հանգեցնում է քաշի կորստի: Այն ձեզ չի ասում, թե արդյոք փորձը լավ մշակված է, կամ լավ վերահսկվող, կամ արդյունքները ընտրված են:

Դա պարզապես օգնում է ձեզ հասկանալ, թե որքան հազվադեպ է արդյունքներն են.

Բայց — և սա խրթին, խրթին կետ է, — այնքան էլ հազվադեպ չեն ձեր արդյունքները փորձ են. Այնքան հազվադեպ են արդյունքներն այն աշխարհում, որտեղ զրոյական վարկածը ճշմարիտ է: Այսինքն, արդյունքները որքան հազվադեպ կլինեն, եթե ձեր փորձի մեջ ոչինչ չաշխատի, և քաշի տարբերությունը միայն պատահական պատահականության պատճառով լիներ:

Ահա թե որտեղ է մտնում p-արժեքը. p-արժեքը քանակականացնում է այս հազվադեպությունը: Այն պատմում է ձեզ, թե որքան հաճախ եք տեսնելու փորձի թվային արդյունքները կամ նույնիսկ ավելի ծայրահեղ արդյունքները, եթե զրոյական վարկածը ճիշտ է, և խմբերի միջև տարբերություն չկա:

Եթե ​​p-արժեքը շատ փոքր է, դա նշանակում է, որ թվերը հազվադեպ են (բայց ոչ երբեք!) պատահականորեն առաջանալ: Այսպիսով, երբ p-ն փոքր է, հետազոտողները սկսում են մտածել, որ զրոյական վարկածը անհավանական է թվում: Եվ նրանք մի թռիչք են անում՝ եզրակացնելու, որ իրենց [փորձարարական] տվյալները քիչ հավանական է, որ պատահական պատահականության պատճառով լինեն, բացատրում է Նուցոն:

Ահա ևս մեկ բարդ կետ. Հետազոտողները երբեք չեն կարող ամբողջությամբ բացառել զրոյականը (ճիշտ այնպես, ինչպես երդվյալ ատենակալները հանցագործության անմիջական վկաներ չեն): Այսպիսով, գիտնականները փոխարենը ընտրում են մի շեմ, որտեղ նրանք բավականին վստահ են զգում, որ կարող են մերժել զրոյականը: Շատ առարկաների համար դա այժմ սահմանված է 0,05-ից պակաս:

Իդեալում, 0.05-ի p-ը նշանակում է, որ եթե դուք փորձարկումն անցկացնեիք 100 անգամ (կրկին, եթե ենթադրենք, որ զրոյական վարկածը ճիշտ է), դուք կտեսնեք այս նույն թվերը (կամ ավելի ծայրահեղ արդյունքները) հինգ անգամ:

Եվ մի վերջին, գերփշոտ հասկացություն, որը գրեթե բոլորը սխալվում են<.05 does ոչ նշանակում է, որ ձեր փորձնական արդյունքների 5 տոկոսից պակաս հավանականություն կա պատահական պատահականության պատճառով: Դա չի նշանակում, որ կա միայն 5 տոկոս հավանականություն, որ դուք հայտնվել եք կեղծ դրականի վրա: Ոչ. Ընդհանրապես.

Կրկին. 0,05-ից պակաս p արժեքը նշանակում է, որ այս արդյունքները (կամ ավելի ծայրահեղ արդյունքներ) տեսնելու 5 տոկոսից էլ քիչ հավանականություն կա աշխարհում, որտեղ զրոյական վարկածը ճշմարիտ է: Սա անհեթեթ է թվում, բայց կարևոր է: Դա թյուրիմացությունն է, որը մարդկանց ստիպում է անհարկի վստահ լինել p-արժեքների նկատմամբ: Փորձերի կեղծ դրական դրույքաչափը p=.05-ում կարող է շատ ավելի բարձր լինել, քան 5 տոկոսը .

Եկեք կրկնենք դա. P-արժեքները պարտադիր չէ, որ ձեզ ասեն՝ փորձն աշխատե՞լ է, թե՞ ոչ

Հոգեբանության ասպիրանտ Քրիստոֆեր Մագնուսսոնը նախագծել է ա բավականին հիանալի ինտերակտիվ հաշվիչ որը գնահատում է խմբերի միջև ցանկացած իրական տարբերության համար p-արժեքների տիրույթ ստանալու հավանականությունը: Ես այն օգտագործել եմ հետևյալ սցենարը ստեղծելու համար.

Ենթադրենք, կա ուսումնասիրություն, որտեղ իրական տարբերությունն է միջեւ երկու խումբը հավասար է ստանդարտ շեղման կեսին: (Այո, սա արտահայտելու անհեթեթ ձև է: Բայց մտածեք դրա մասին այսպես նշանակում է 69 տոկոս Փորձարարական խմբում ընդգրկվածներից ավելի բարձր արդյունքներ են ցույց տվել, քան վերահսկիչ խմբի միջինը: Հետազոտողները սա անվանում են միջին չափի էֆեկտ:) Եվ ենթադրենք, որ փորձարարական խմբում և վերահսկիչ խմբում կա 50-ական մարդ:

Այս սցենարով , դուք պետք է կարողանաք ստանալ p-արժեքը 0,03-ից 0,05-ի միջև միայն ժամանակի 7,62 տոկոսի սահմաններում:

Եթե ​​այս փորձը նորից ու նորից ու նորից անցկացնեիք, իրականում ակնկալում էիք, որ կտեսնեք շատ ավելի շատ p-արժեքներ՝ շատ ավելի ցածր թվով: Դա այն է, ինչ ցույց է տալիս հետևյալ աղյուսակը: X-առանցքը հատուկ p արժեքներն են, իսկ y առանցքը այն հաճախականությունն է, որը դուք կարող եք գտնել այս փորձը կրկնելիս: Նայեք, թե քանի p արժեք կգտնեք ստորև .001:

Ահա թե ինչու շատ գիտնականներ զգուշանում են, երբ տեսնում են, որ չափից շատ արդյունքներ են հավաքվում .05-ի շուրջ: Չպետք է պատահի, որ հաճախակի և կարմիր դրոշներ բարձրացնի, որ արդյունքները ընտրված լինեն կամ, գիտության լեզվով ասած, կոտրված լինեն: Գիտության մեջ դա կարող է շատ լինել չափազանց հեշտ է խաղը և վիճակագրությունը ճշգրտելը նշանակության հասնելու համար։

Եվ այս գծապատկերից դուք կտեսնեք. Այո, դուք կարող եք ստանալ 0,05-ից մեծ p արժեք, երբ փորձարարական վարկածը ճշմարիտ է: Դա պարզապես չպետք է տեղի ունենա այնքան հաճախ: Այս դեպքում բոլոր p-արժեքների շուրջ 9,84 տոկոսը պետք է ընկնի 0,05-ից և ,1-ի միջև:

ինչու են մեքենաներն այդքան թանկ 2021 թ

Գիտության գնահատման ավելի լավ, ավելի նրբերանգ մոտեցումներ կան

Շատ գիտնականներ գիտակցում են, որ գիտական ​​հայտնագործությունը գնահատելու ավելի ամուր եղանակներ կան: Եվ նրանք արդեն զբաղվում են դրանցով: Բայց նրանք, ինչ-որ կերպ, ներկայումս այնքան ուժ չունեն, որքան վիճակագրական նշանակությունը: Նրանք են:

  • Կենտրոնանալով էֆեկտների չափերը (որքա՞ն մեծ է միջամտությունը և արդյո՞ք այն գործնականում իմաստալից է):
  • Վստահության միջակայքերը (որն է կասկածի շրջանակը, որը ներկառուցված է ցանկացած պատասխանի մեջ):
  • Անկախ նրանից, թե արդյունքը նոր ուսումնասիրություն է, թե կրկնօրինակում (ավելի շատ ուշադրություն դարձրեք այն տեսությանը, որը շատ լաբորատորիաներ են ուսումնասիրել)
  • Արդյոք հետազոտության դիզայնը նախապես գրանցված է եղել (որպեսզի հեղինակները չկարողանան շահարկել իրենց արդյունքները հետթեստից), և որ հիմքում ընկած տվյալները ազատ հասանելի են (այնպես որ յուրաքանչյուրը կարող է ստուգել մաթեմատիկան)
  • Կան նաև այլընտրանքային վիճակագրական մեթոդներ, ինչպիսիք են Բայեսյան վերլուծությունը, որոնք որոշ առումներով ավելի անմիջականորեն գնահատում են ուսումնասիրության արդյունքները: (P-արժեքները հարց են տալիս, թե որքան հազվադեպ են իմ արդյունքները: Բեյսի գործոնները տալիս են այն հարցը, թե որն է հավանականությունը, որ իմ վարկածը լավագույն բացատրությունն է մեր գտած արդյունքների համար: Երկու մոտեցումներն էլ ունեն փոխզիջումներ: )

Իրական խնդիրը վիճակագրական նշանակության մեջ չէ. դա գիտության մշակույթի հետ է

Վերջինի հեղինակները Բնություն մեկնաբանությունները չեն պահանջում p-արժեքների վերջը: Նրանք դեռ կցանկանային, որ գիտնականները զեկուցեն դրանց մասին, որտեղ անհրաժեշտ է, բայց պարտադիր չէ, որ դրանք նշանակեն, թե ոչ:

Հավանական է, որ այս ռազմավարության շուրջ վեճեր լինեն: Ոմանք կարող են մտածել, որ գիտությունը գնահատելու համար օգտակար է ունենալ պարզ կանոններ կամ շեմեր: Եվ մենք դեռ պետք է ունենանք արտահայտություններ մեր լեզվում՝ գիտական ​​արդյունքները նկարագրելու համար: Վիճակագրական նշանակությունը ջնջելը կարող է պարզապես շփոթել:

Ամեն դեպքում, վիճակագրական նշանակության սահմանումը փոխելը կամ այն ​​ամբողջությամբ չեղարկելը չի ​​լուծում իրական խնդիրը: Իսկ իրական խնդիրը գիտության մշակույթն է։

2016թ. Vox-ն ուղարկվեց հարցում ավելի քան 200 գիտնականների համար, ովքեր հարցնում էին. Եթե կարողանայիք փոխել մի բան այն մասին, թե ինչպես է այսօր գործում գիտությունը, ի՞նչ կլիներ դա և ինչու: Պատասխանների հստակ թեմաներից մեկը. գիտության ինստիտուտները պետք է ավելի լավը դառնան անհաջողություններին հատուցելու հարցում:

Մի երիտասարդ գիտնական մեզ ասաց, որ ես տարանջատված եմ հարցեր տալու, որոնք գիտեմ, որ կհանգեցնեն վիճակագրական նշանակության և կարևոր հարցերի միջև:

Գիտության մեջ ամենամեծ խնդիրը վիճակագրական նշանակությունը չէ. դա մշակույթն է: Նա իրեն պատռված էր զգում, քանի որ երիտասարդ գիտնականներին աշխատանք գտնելու համար հրապարակումներ են պետք: Ստատուս քվոյի պայմաններում հրապարակումներ ստանալու համար անհրաժեշտ են վիճակագրորեն նշանակալի արդյունքներ։ Միայն վիճակագրական նշանակությունը չի հանգեցրել կրկնօրինակման ճգնաժամի: Գիտության ինստիտուտները խրախուսեցին այն վարքագծերը, որոնք թույլ տվեցին այն թրթռալ: