800 գիտնական ասում է, որ ժամանակն է հրաժարվել վիճակագրական նշանակությունից
P-արժեքները և վիճակագրական նշանակությունը լայնորեն սխալ են ընկալվում: Ահա թե ինչ են նրանք իրականում նշանակում.

Շատ երկար գիտնականների կարիերան կառուցվել է մեկ վիճակագրության հետապնդման շուրջ.<.05.
Շատ գիտական առարկաներում դա այն շեմն է, որից այն կողմ ուսումնասիրության արդյունքները կարող են վիճակագրորեն նշանակալի հայտարարվել, ինչը հաճախ մեկնաբանվում է այնպես, որ քիչ հավանական է, որ արդյունքները պատահական պատահականության արդյունք են:
Թեև դա այն չէ, ինչ իրականում նշանակում է գործնականում: Վիճակագրական նշանակությունը շատ հաճախ սխալ է ընկալվում և սխալ օգտագործվում: Ահա թե ինչու գիտնականների եռյակը գրում է Բնություն այս շաբաթ կոչ են անում հրաժարվել վիճակագրական նշանակության ողջ հայեցակարգից։
Նրանց ամենամեծ փաստարկը․ Իրական էֆեկտը երբեմն կարող է տալ 0,05-ից ավելի p արժեք: Եվ մենք վերջին տարիներից գիտենք, որ գիտությունը լի է կեղծ դրական ուսումնասիրություններով, որոնք հասել են 0,05-ից ցածր արժեքների (կարդացեք իմ բացատրությունը Կրկնօրինակման ճգնաժամը սոցիալական գիտության մեջ ավելին):
Այն Բնություն Մեկնաբանության հեղինակները պնդում են, որ խնդիրը մաթեմատիկան չէ: Փոխարենը, դա մարդու հոգեբանությունն է: Նրանք գրում են, որ շերեփային արդյունքները դառնում են վիճակագրորեն նշանակալի և վիճակագրորեն ոչ էական, հանգեցնում է գիտության ուսումնասիրության չափազանց սև-սպիտակ մոտեցման:
Ավելի քան 800 այլ գիտնականներ և ամբողջ աշխարհի վիճակագիրները ստորագրել են այս մանիֆեստը: Առայժմ դա ավելի շատ սադրիչ փաստարկ է թվում, քան իրական ծովային փոփոխության մեկնարկ: Բնություն, մեկը, չի ձգտում փոխել այն, թե ինչպես է դիտարկում վիճակագրական վերլուծությունը փաստաթղթերի գնահատման ժամանակ, նշում է ամսագիրը:
Սակայն մակընթացությունները կարող են աճել՝ հակառակ վիճակագրական նշանակության: Սա առաջին դեպքը չէ, երբ գիտնականներն ու վիճակագիրները վիճարկում են ստատուս քվոն: 2016 թվականին Ի գրել է այն մասին, թե ինչպես է նրանցից մի մեծ խումբ կոչ արել բարձրացնել շեմը մինչև .005, ինչը շատ ավելի դժվար է դարձնում արդյունքը վիճակագրորեն նշանակալի անվանելը: (Միաժամանակ, հետ Բնություն մեկնաբանություն, ամսագիր Ամերիկացի վիճակագիր մի ամբողջ խնդիր նվիրեց վիճակագրական նշանակության խնդրին:) Լայն ճանաչում կա, որ p-արժեքները կարող են խնդրահարույց լինել:
Ես կասկածում եմ, որ այս առաջարկը բուռն քննարկման առարկա կդառնա (ինչպես գիտության մեջ ամեն ինչ): Առնվազն արմատական փոփոխությունների այս վերջին կոչը ընդգծում է գիտությանը պատուհասող կարևոր փաստ. վիճակագրական նշանակությունը լայնորեն սխալ է ընկալվում: Թույլ տվեք ձեզ անցնել դրա միջով: Կարծում եմ, դա կօգնի ձեզ ավելի լավ հասկանալ այս բանավեճը և կօգնի ձեզ տեսնել, որ գիտական հայտնագործության արժանիքները դատելու շատ ավելի շատ եղանակներ կան, քան p-արժեքները:
Սպասեք, ինչ է p-արժեքը: Ի՞նչ է վիճակագրական նշանակությունը:

Նույնիսկ p-արժեքների ամենապարզ սահմանումները հակված են բարդանալու, այնպես որ համբերեք ինձ, երբ ես այն քանդում եմ:
Երբ հետազոտողները հաշվարկում են p-արժեքը, նրանք փորձության են ենթարկում այն, ինչը հայտնի է որպես զրոյական հիպոթեզ: Առաջին բանը, որ պետք է իմանալ, սա է ոչ այն հարցի թեստը, որին ամենաշատը ցանկանում է պատասխանել փորձարարը:
Ենթադրենք, որ փորձարարն իսկապես ցանկանում է իմանալ, թե արդյոք օրական մեկ սալիկ շոկոլադ ուտելը հանգեցնում է քաշի կորստի: Դա ստուգելու համար նրանք 50 մասնակցի հանձնարարում են օրական մեկ սալիկ շոկոլադ ուտել: Եվս 50-ին հրամայված է զերծ մնալ համեղ ուտեստներից: Երկու խմբերն էլ կշռվում են փորձից առաջ, իսկ հետո, և համեմատվում է նրանց միջին քաշի փոփոխությունը:
որքան հաճախ է հանուկան ընկնում Սուրբ Ծննդի նախօրեին
Զուր վարկածը սատանայի փաստաբանի փաստարկն է: Այն նշում է, որ տարբերություն չկա շոկոլադ ուտողների և շոկոլադից ձեռնպահ մնալու քաշի կորստի մեջ:
Չեղյալը մերժելը մեծ խոչընդոտ է, որը գիտնականները պետք է մաքրեն իրենց վարկածն ապացուցելու համար: Եթե զրոյականը մնում է, դա նշանակում է, որ նրանք չեն վերացրել իրենց արդյունքների հիմնական այլընտրանքային բացատրությունը: Իսկ ի՞նչ է գիտությունը, եթե ոչ բացատրությունների նեղացման գործընթաց:
Այսպիսով, ինչպես են նրանք բացառում զրոյականը: Որոշ վիճակագրություն են հաշվարկում։
Հետազոտողը հիմնականում հարցնում է. Որքանո՞վ ծիծաղելի կլիներ հավատալ, որ զրոյական վարկածը ճշմարիտ պատասխանն է՝ հաշվի առնելով այն արդյունքները, որոնք մենք տեսնում ենք:
Չեղյալ համարելը մի տեսակ նման է դատական գործերում անմեղության սկզբունքին, քանի դեռ նրա մեղավորությունն ապացուցված չէ, բացատրում է Ռեգինա Նուցոն՝ Գալոդետի համալսարանի մաթեմատիկայի պրոֆեսոր: Դատարանում դուք սկսում եք այն ենթադրությամբ, որ ամբաստանյալն անմեղ է: Հետո սկսում ես ապացույցները նայել՝ արյունոտ դանակը, որի վրա մատնահետքեր են դրված, նրա բռնության պատմությունը, ականատեսների վկայությունները: Քանի որ ապացույցները մեծանում են, այդ անմեղության կանխավարկածը սկսում է միամիտ թվալ: Ինչ-որ պահի երդվյալ ատենակալները, ողջամիտ կասկածից դուրս, զգում են, որ ամբաստանյալն անմեղ չէ:
Զուր վարկածների փորձարկումը հետևում է նույն տրամաբանությանը. Եթե շոկոլադ ուտողների և շոկոլադից ձեռնպահ մնալու քաշի հսկայական տարբերություններ կան, ապա զրոյական վարկածը, որ քաշի տարբերություններ չկան, սկսում է հիմար թվալ, և դուք կարող եք մերժել այն:
Դուք կարող եք մտածել. Արդյո՞ք սա գեղեցիկ շրջանաձև միջոց չէ ապացուցելու, որ փորձն աշխատել է:
Դուք ճիշտ եք!
Զուր վարկածի մերժումն է անուղղակի փորձարարական վարկածի ապացույց: Այն ոչինչ չի ասում այն մասին, թե արդյոք ձեր գիտական եզրակացությունը ճիշտ է:
Իհարկե, շոկոլադ ուտողները կարող են որոշ քաշ կորցնել: Բայց արդյո՞ք դա շոկոլադի պատճառով է: Միգուցե. Կամ գուցե նրանք ավելորդ մեղավոր էին զգում ամեն օր կոնֆետ ուտելով, և գիտեին, որ իրենց կշռելու են լաբորատոր բաճկոններ հագած անծանոթները (տարօրինակ է), ուստի նրանք խնայում էին այլ կերակուրներ:
Վեգասի հավանականություն 2020 թվականի նախագահական ընտրություններում
Նուլը մերժելը ձեզ ոչինչ չի ասում այն մեխանիզմի մասին, որով շոկոլադը հանգեցնում է քաշի կորստի: Այն ձեզ չի ասում, թե արդյոք փորձը լավ մշակված է, կամ լավ վերահսկվող, կամ արդյունքները ընտրված են:
Դա պարզապես օգնում է ձեզ հասկանալ, թե որքան հազվադեպ է արդյունքներն են.
Բայց — և սա խրթին, խրթին կետ է, — այնքան էլ հազվադեպ չեն ձեր արդյունքները փորձ են. Այնքան հազվադեպ են արդյունքներն այն աշխարհում, որտեղ զրոյական վարկածը ճշմարիտ է: Այսինքն, արդյունքները որքան հազվադեպ կլինեն, եթե ձեր փորձի մեջ ոչինչ չաշխատի, և քաշի տարբերությունը միայն պատահական պատահականության պատճառով լիներ:
Ահա թե որտեղ է մտնում p-արժեքը. p-արժեքը քանակականացնում է այս հազվադեպությունը: Այն պատմում է ձեզ, թե որքան հաճախ եք տեսնելու փորձի թվային արդյունքները կամ նույնիսկ ավելի ծայրահեղ արդյունքները, եթե զրոյական վարկածը ճիշտ է, և խմբերի միջև տարբերություն չկա:
Եթե p-արժեքը շատ փոքր է, դա նշանակում է, որ թվերը հազվադեպ են (բայց ոչ երբեք!) պատահականորեն առաջանալ: Այսպիսով, երբ p-ն փոքր է, հետազոտողները սկսում են մտածել, որ զրոյական վարկածը անհավանական է թվում: Եվ նրանք մի թռիչք են անում՝ եզրակացնելու, որ իրենց [փորձարարական] տվյալները քիչ հավանական է, որ պատահական պատահականության պատճառով լինեն, բացատրում է Նուցոն:
Ահա ևս մեկ բարդ կետ. Հետազոտողները երբեք չեն կարող ամբողջությամբ բացառել զրոյականը (ճիշտ այնպես, ինչպես երդվյալ ատենակալները հանցագործության անմիջական վկաներ չեն): Այսպիսով, գիտնականները փոխարենը ընտրում են մի շեմ, որտեղ նրանք բավականին վստահ են զգում, որ կարող են մերժել զրոյականը: Շատ առարկաների համար դա այժմ սահմանված է 0,05-ից պակաս:
Իդեալում, 0.05-ի p-ը նշանակում է, որ եթե դուք փորձարկումն անցկացնեիք 100 անգամ (կրկին, եթե ենթադրենք, որ զրոյական վարկածը ճիշտ է), դուք կտեսնեք այս նույն թվերը (կամ ավելի ծայրահեղ արդյունքները) հինգ անգամ:
Եվ մի վերջին, գերփշոտ հասկացություն, որը գրեթե բոլորը սխալվում են<.05 does ոչ նշանակում է, որ ձեր փորձնական արդյունքների 5 տոկոսից պակաս հավանականություն կա պատահական պատահականության պատճառով: Դա չի նշանակում, որ կա միայն 5 տոկոս հավանականություն, որ դուք հայտնվել եք կեղծ դրականի վրա: Ոչ. Ընդհանրապես.
Կրկին. 0,05-ից պակաս p արժեքը նշանակում է, որ այս արդյունքները (կամ ավելի ծայրահեղ արդյունքներ) տեսնելու 5 տոկոսից էլ քիչ հավանականություն կա աշխարհում, որտեղ զրոյական վարկածը ճշմարիտ է: Սա անհեթեթ է թվում, բայց կարևոր է: Դա թյուրիմացությունն է, որը մարդկանց ստիպում է անհարկի վստահ լինել p-արժեքների նկատմամբ: Փորձերի կեղծ դրական դրույքաչափը p=.05-ում կարող է շատ ավելի բարձր լինել, քան 5 տոկոսը .
Եկեք կրկնենք դա. P-արժեքները պարտադիր չէ, որ ձեզ ասեն՝ փորձն աշխատե՞լ է, թե՞ ոչ
Հոգեբանության ասպիրանտ Քրիստոֆեր Մագնուսսոնը նախագծել է ա բավականին հիանալի ինտերակտիվ հաշվիչ որը գնահատում է խմբերի միջև ցանկացած իրական տարբերության համար p-արժեքների տիրույթ ստանալու հավանականությունը: Ես այն օգտագործել եմ հետևյալ սցենարը ստեղծելու համար.
Ենթադրենք, կա ուսումնասիրություն, որտեղ իրական տարբերությունն է միջեւ երկու խումբը հավասար է ստանդարտ շեղման կեսին: (Այո, սա արտահայտելու անհեթեթ ձև է: Բայց մտածեք դրա մասին այսպես նշանակում է 69 տոկոս Փորձարարական խմբում ընդգրկվածներից ավելի բարձր արդյունքներ են ցույց տվել, քան վերահսկիչ խմբի միջինը: Հետազոտողները սա անվանում են միջին չափի էֆեկտ:) Եվ ենթադրենք, որ փորձարարական խմբում և վերահսկիչ խմբում կա 50-ական մարդ:
Այս սցենարով , դուք պետք է կարողանաք ստանալ p-արժեքը 0,03-ից 0,05-ի միջև միայն ժամանակի 7,62 տոկոսի սահմաններում:
Եթե այս փորձը նորից ու նորից ու նորից անցկացնեիք, իրականում ակնկալում էիք, որ կտեսնեք շատ ավելի շատ p-արժեքներ՝ շատ ավելի ցածր թվով: Դա այն է, ինչ ցույց է տալիս հետևյալ աղյուսակը: X-առանցքը հատուկ p արժեքներն են, իսկ y առանցքը այն հաճախականությունն է, որը դուք կարող եք գտնել այս փորձը կրկնելիս: Նայեք, թե քանի p արժեք կգտնեք ստորև .001:

Ահա թե ինչու շատ գիտնականներ զգուշանում են, երբ տեսնում են, որ չափից շատ արդյունքներ են հավաքվում .05-ի շուրջ: Չպետք է պատահի, որ հաճախակի և կարմիր դրոշներ բարձրացնի, որ արդյունքները ընտրված լինեն կամ, գիտության լեզվով ասած, կոտրված լինեն: Գիտության մեջ դա կարող է շատ լինել չափազանց հեշտ է խաղը և վիճակագրությունը ճշգրտելը նշանակության հասնելու համար։
Եվ այս գծապատկերից դուք կտեսնեք. Այո, դուք կարող եք ստանալ 0,05-ից մեծ p արժեք, երբ փորձարարական վարկածը ճշմարիտ է: Դա պարզապես չպետք է տեղի ունենա այնքան հաճախ: Այս դեպքում բոլոր p-արժեքների շուրջ 9,84 տոկոսը պետք է ընկնի 0,05-ից և ,1-ի միջև:
ինչու են մեքենաներն այդքան թանկ 2021 թ
Գիտության գնահատման ավելի լավ, ավելի նրբերանգ մոտեցումներ կան
Շատ գիտնականներ գիտակցում են, որ գիտական հայտնագործությունը գնահատելու ավելի ամուր եղանակներ կան: Եվ նրանք արդեն զբաղվում են դրանցով: Բայց նրանք, ինչ-որ կերպ, ներկայումս այնքան ուժ չունեն, որքան վիճակագրական նշանակությունը: Նրանք են:
- Կենտրոնանալով էֆեկտների չափերը (որքա՞ն մեծ է միջամտությունը և արդյո՞ք այն գործնականում իմաստալից է):
- Վստահության միջակայքերը (որն է կասկածի շրջանակը, որը ներկառուցված է ցանկացած պատասխանի մեջ):
- Անկախ նրանից, թե արդյունքը նոր ուսումնասիրություն է, թե կրկնօրինակում (ավելի շատ ուշադրություն դարձրեք այն տեսությանը, որը շատ լաբորատորիաներ են ուսումնասիրել)
- Արդյոք հետազոտության դիզայնը նախապես գրանցված է եղել (որպեսզի հեղինակները չկարողանան շահարկել իրենց արդյունքները հետթեստից), և որ հիմքում ընկած տվյալները ազատ հասանելի են (այնպես որ յուրաքանչյուրը կարող է ստուգել մաթեմատիկան)
- Կան նաև այլընտրանքային վիճակագրական մեթոդներ, ինչպիսիք են Բայեսյան վերլուծությունը, որոնք որոշ առումներով ավելի անմիջականորեն գնահատում են ուսումնասիրության արդյունքները: (P-արժեքները հարց են տալիս, թե որքան հազվադեպ են իմ արդյունքները: Բեյսի գործոնները տալիս են այն հարցը, թե որն է հավանականությունը, որ իմ վարկածը լավագույն բացատրությունն է մեր գտած արդյունքների համար: Երկու մոտեցումներն էլ ունեն փոխզիջումներ: )
Իրական խնդիրը վիճակագրական նշանակության մեջ չէ. դա գիտության մշակույթի հետ է
Վերջինի հեղինակները Բնություն մեկնաբանությունները չեն պահանջում p-արժեքների վերջը: Նրանք դեռ կցանկանային, որ գիտնականները զեկուցեն դրանց մասին, որտեղ անհրաժեշտ է, բայց պարտադիր չէ, որ դրանք նշանակեն, թե ոչ:
Հավանական է, որ այս ռազմավարության շուրջ վեճեր լինեն: Ոմանք կարող են մտածել, որ գիտությունը գնահատելու համար օգտակար է ունենալ պարզ կանոններ կամ շեմեր: Եվ մենք դեռ պետք է ունենանք արտահայտություններ մեր լեզվում՝ գիտական արդյունքները նկարագրելու համար: Վիճակագրական նշանակությունը ջնջելը կարող է պարզապես շփոթել:
Ամեն դեպքում, վիճակագրական նշանակության սահմանումը փոխելը կամ այն ամբողջությամբ չեղարկելը չի լուծում իրական խնդիրը: Իսկ իրական խնդիրը գիտության մշակույթն է։
2016թ. Vox-ն ուղարկվեց հարցում ավելի քան 200 գիտնականների համար, ովքեր հարցնում էին. Եթե կարողանայիք փոխել մի բան այն մասին, թե ինչպես է այսօր գործում գիտությունը, ի՞նչ կլիներ դա և ինչու: Պատասխանների հստակ թեմաներից մեկը. գիտության ինստիտուտները պետք է ավելի լավը դառնան անհաջողություններին հատուցելու հարցում:
Մի երիտասարդ գիտնական մեզ ասաց, որ ես տարանջատված եմ հարցեր տալու, որոնք գիտեմ, որ կհանգեցնեն վիճակագրական նշանակության և կարևոր հարցերի միջև:
Գիտության մեջ ամենամեծ խնդիրը վիճակագրական նշանակությունը չէ. դա մշակույթն է: Նա իրեն պատռված էր զգում, քանի որ երիտասարդ գիտնականներին աշխատանք գտնելու համար հրապարակումներ են պետք: Ստատուս քվոյի պայմաններում հրապարակումներ ստանալու համար անհրաժեշտ են վիճակագրորեն նշանակալի արդյունքներ։ Միայն վիճակագրական նշանակությունը չի հանգեցրել կրկնօրինակման ճգնաժամի: Գիտության ինստիտուտները խրախուսեցին այն վարքագծերը, որոնք թույլ տվեցին այն թրթռալ: