我現(xiàn)在開著一個視頻在寫這個衬以,那個視頻全長度213分鐘,內容則是一個男子念了一遍TITIN(肌聯(lián)蛋白)的系統(tǒng)命名法名稱校摩,我覺得聽著這個寫東西很有感覺看峻。很多彈幕吐槽,這種單詞意義何在衙吩,不過其實還是有意義的互妓,TITIN雖說方便,但是你只是看著這個單詞怎么可能知道整個蛋白的結構式坤塞,雖說節(jié)省下來的時間可觀冯勉,肯定沒有哪個傻子和別人說話不用TITIN而是去念三個多小時結構式,但畢竟失去就是失去摹芙,沒必要回避灼狰。
統(tǒng)計學這個學科,目的就是通過部分研究整體浮禾,可以說是“偷懶”用的學科交胚,科學研究坛悉,媒體報道,都需要用到統(tǒng)計承绸,我們沒法回避它裸影,因為我們不可能去調查每一個分子,每一個人军熏,每一顆行星轩猩,但是,我們必須正視荡澎,當使用統(tǒng)計的數(shù)據(jù)來推導或者佐證結果時均践,我們面對的是,不可避免的誤差和失真摩幔。
1彤委、誤差,我們都知道一個均勻硬幣投擲之后為正反面概率都是二分之一或衡,但不可避免的我們的統(tǒng)計結果基本不可能是1:1的正面反面焦影,因為概率只是事前的預測,事后概率毫無意義封断,一個病人據(jù)推測死亡率只有10%斯辰,但是他就是死了,親屬跑去和醫(yī)院鬧坡疼,鬧可以彬呻,你鬧的理由只能是他這10%的預測真是通過嚴密的分析得出的嗎,他的治療中有出問題嗎柄瑰,而不是去轉嫁你的倒霉闸氮。
2、失真教沾,信息本身是對事實的概括蒲跨,所以閱讀信息的每個人需要對信息進行逆向加工,這個加工者可以是雜志的編輯详囤,也可能是一個統(tǒng)計表格的直接讀者财骨,而逆向加工者的理解方式镐作,直接影響到他對事實的觀察視角藏姐。淘寶上最近似乎有個“真愛測試”即為你給他點錢,然后你的男友會有一個美女網友來誘惑他该贾,據(jù)說成功率有70%羔杨?(沒認真記,這不是重點)好的杨蛋,其實這并不算是統(tǒng)計本身的問題兜材,因為這種由店主做出的成功率除非是惡意欺騙不然應該是用所有用戶的數(shù)據(jù)計算的理澎,但是這能說明“男人都不是好東西”這種結果嗎,其實不能曙寡,因為調查樣本還是有問題糠爬,這里是“會去買人來測試男友專一性”的女性,而不是“普通的”女性举庶,這是一種問題执隧。曾經呢,我看到一個微博:“女性每喝一杯酒户侥,患乳腺癌的幾率就增加6%”,喵的你倒是告訴我這是怎么加的6%啊镀琉,難道是利滾利?反正含糊不清讓人猜蕊唐,反正語意不清的“科普”文章我全都是當作星座文章之類的東西去看待的屋摔。之類的還有“平均”,來替梨,我們猜猜這個平均是用哪些人用什么算法平均出來的钓试。這些是閱讀理解方面的問題,下一個副瀑,是因果亚侠。我曾經發(fā)過一條說說:“中國臺灣曾做過一個調查人們對避孕工具的使用相關因素的大規(guī)模研究,其中研究人員收集了大量的有關環(huán)境和行為變量方面的數(shù)據(jù)俗扇。結果有趣的是硝烂,在眾多數(shù)據(jù)中的確脫穎而出了一個變量,與使用避孕工具的相關性最強铜幽,這就是——家庭中的家用電器(烤箱滞谢、風扇等等)的數(shù)量〕祝看來我們可以得出結論:在高中發(fā)放免費的烤箱可以有效解決青少年的懷孕問題狮杨。”這下倒是不怎么需要解釋到忽,相關性不能代表兩個數(shù)據(jù)有直接的因果關系橄教,而兩個有因果關系的卻可能表現(xiàn)的十分隱晦,而事實上這也是媒體常常誤讀科技新聞的原因之一喘漏。
每個人都必須謹慎謹慎再謹慎护蝶。我剛開始寫這個文章時,Coursera給我的郵箱發(fā)來一份郵件翩迈,結語是“keep learning”持灰,只能如此了譬嚣。永遠別指望有什么東西能告訴你一切栈源。
當然,捷徑難尋并不只是統(tǒng)計中這些。