假如你是一家漢堡店老板,現(xiàn)在得到了一張素漢堡的配方麻掸,就是用大豆酥夭、香菇、水面筋等純素的食料做“肉”餅,外觀可以和你們家的肉漢堡一模一樣熬北,你想推廣它千所,那怎么證明這個(gè)口味會讓消費(fèi)者喜歡呢?
你可能會想那還不簡單蒜埋?客人吃了淫痰,給個(gè)好評,不就是喜歡了嘛整份。還真不是這樣待错,有些客人可能習(xí)慣性好評,買你一瓶礦泉水都能點(diǎn)個(gè)贊烈评,這樣的情況你怎么判斷火俄?
科學(xué)界的做法,當(dāng)然是做個(gè)隨機(jī)對照試驗(yàn)(randomized controlled trial, RCT)
在店里推出“招牌漢堡”讲冠,把點(diǎn)餐的100位顧客隨機(jī)分成2組瓜客,每組50人。第一組顧客給素漢堡竿开,第二組顧客給肉漢堡谱仪。包裝、內(nèi)容物看著都一模一樣否彩,顧客根本區(qū)別不出來疯攒,而且配餐阿姨也不知道經(jīng)手的是哪一款,這就是個(gè)較為嚴(yán)謹(jǐn)?shù)?b>“雙盲”試驗(yàn)列荔。
如果吃完之后敬尺,第一組全好評,第二組全差評贴浙,那我們可以直接下結(jié)論砂吞,素漢堡好。不過你想得太美了崎溃,做實(shí)驗(yàn)可沒那么簡單蜻直。
你的實(shí)驗(yàn)結(jié)果可能是這樣:
素漢堡組28個(gè)好評,5個(gè)差評
肉漢堡組22個(gè)好評笨奠,但是只有3個(gè)差評
你看袭蝗,真實(shí)世界做生意是不是總碰到這樣的唤殴?素漢堡的好評確實(shí)比肉漢堡多般婆,說明還是受顧客喜歡的,但差評怎么還多了兩個(gè)朵逝?也是挺郁悶的蔚袍。
科學(xué)家怎么分析數(shù)據(jù)
關(guān)鍵就在于,我們要判斷,這個(gè)結(jié)果到底是漢堡口味導(dǎo)致的啤咽,還是說只是碰巧發(fā)生晋辆。
簡單起見,咱們先只看差評宇整。
我們假設(shè)實(shí)驗(yàn)組的素漢堡組0差評瓶佳,而對照組的肉漢堡組5個(gè)差評,因?yàn)槊拷M50個(gè)人鳞青,所以肉漢堡差評率算出來就是10%霸饲。
這個(gè)數(shù)據(jù)就兩種可能性嘛,要么是素漢堡確實(shí)更好吃臂拓,要么就是湊巧碰上沒人給差評厚脉,對不對?那怎么判斷是不是湊巧呢胶惰?
以下內(nèi)容略微有點(diǎn)費(fèi)腦傻工,不過也沒多難,肯定不如刷小視頻那么痛快孵滞,但請堅(jiān)持幾分鐘中捆,相信看完之后你會收獲另一種快樂,來自思考的快樂
準(zhǔn)備好了嗎坊饶?
科學(xué)的做法轨香,就是先來個(gè)“無效假設(shè)”,咱們假設(shè)素漢堡跟肉漢堡沒差別幼东,而且整個(gè)漢堡屆的行業(yè)水平臂容,差評率就是肉漢堡的那個(gè)10%好不好?
如果這個(gè)無效假設(shè)是正確的根蟹,那么新品素漢堡脓杉,出現(xiàn)像現(xiàn)在這樣0差評局面的可能性,有多大简逮?
顧客給差評的概率是10%球散,那么不給差評的概率就自然是90%,50個(gè)顧客都不給差評的概率就是90%相乘50次對不對散庶?結(jié)果顯示0差評的概率是0.00515蕉堰。
科研界把“無效假設(shè)”成立的可能性,稱為“ P值 ”悲龟。
這個(gè)案例P=0.00515屋讶,也就是說這個(gè)結(jié)果湊巧發(fā)生的概率只有0.515%,這是一個(gè)很小的數(shù)值须教。
為什么說它很忻笊斩芭?具體大小的判斷標(biāo)準(zhǔn)是多少呢?
當(dāng)P<0.05的時(shí)候乐疆,科學(xué)界就認(rèn)定划乖,無效假設(shè)不成立,所以他倆是有顯著差別的挤土,零差評不是巧合琴庵,素漢堡,確實(shí)不比肉漢堡差仰美。
P<0.05
為什么非得是0.05细卧?這個(gè)0.05咋來的?
你問我筒占,我也不知道贪庙。
就像斗地主就是3個(gè)人打,四川麻將就是4個(gè)人湊一桌翰苫,0.05這個(gè)數(shù)就是科研界約定俗成的止邮。
P<0.05說明結(jié)果是“顯著的”,你的論文還是可以看一看的奏窑;
P>0.05导披,就說明結(jié)果可能就是湊巧,你這數(shù)據(jù)就跟參加考試閉著眼全選“C”一樣埃唯,沒有價(jià)值撩匕。
p<0.05就是科研界的黃金標(biāo)準(zhǔn)
不過這個(gè)“顯著的”,不是說素漢堡就“顯著的”好吃墨叛,充其量就是說明素漢堡跟肉漢堡在消費(fèi)者嘴里是有顯著區(qū)別的止毕,具體好多少,則無法判斷漠趁,還需要其他指標(biāo)扁凛。
這個(gè)p<0.05其實(shí)挺難的,多少科研人員為了它愁得直掉頭發(fā)闯传,但盡管是這樣谨朝,在P=0.05的情況下,每20篇科研文章甥绿,里面就會有一篇文章的數(shù)據(jù)字币,在其特定的無效假設(shè)中是純屬巧合,屬于全選“C”的水準(zhǔn)共缕。
這還是客觀情況下估算概率洗出,如果科研人員主觀上灌水呢?
比如那個(gè)差評的數(shù)據(jù)骄呼,你說是服務(wù)員態(tài)度不好共苛,不做數(shù),需要剔除掉蜓萄,然后另外再叫幾個(gè)顧客吃漢堡打分隅茎?這樣經(jīng)過美化的P<0.05可不少見。
你或許會想嫉沽,真可怕辟犀,這就是科學(xué)嗎?咱們還能相信科學(xué)嗎绸硕?
答案是堂竟,要相信。
科學(xué)或許不完美玻佩,但它一直在進(jìn)步出嘹,是我們目前探究世界,最不壞的方法咬崔。
完
- End -
往期精彩回顧