《赤裸裸的統(tǒng)計學(xué)》讀書筆記

由于最近工作上都做數(shù)據(jù)分析的內(nèi)容,所以根據(jù)眾產(chǎn)品大神推薦的數(shù)據(jù)分析應(yīng)讀書單找了不少書來充電凤巨。《赤裸裸的統(tǒng)計學(xué)》是第一本洛搀,它的作者是Charles Wheelan敢茁,一名財經(jīng)記者,他嘗試著用通俗易懂的筆法和具體的例子來向讀者介紹一些統(tǒng)計學(xué)的基礎(chǔ)理論姥卢。同時也是向另一本類似風(fēng)格的統(tǒng)計學(xué)書籍——《統(tǒng)計數(shù)字會撒謊》致敬卷要。

圖片來自網(wǎng)絡(luò)

讀完后,個人覺得部分內(nèi)容有一定統(tǒng)計學(xué)基礎(chǔ)的人才比較容易理解独榴,但整體而言僧叉,全書還是能符合作者的初衷的。現(xiàn)將部分自己可以理解且可能對數(shù)據(jù)分析工作有啟發(fā)的內(nèi)容摘錄如下棺榔。

1 描述統(tǒng)計學(xué)

作者在這章中提出了平均數(shù)瓶堕、中位數(shù)、百分位數(shù)和標(biāo)準(zhǔn)差等幾類常用于事實描述的數(shù)據(jù)症歇。
平均數(shù):用于描述整體情況的基礎(chǔ)數(shù)據(jù)郎笆。例如想知道全體用戶的活躍情況,可以看人均每天訪問次數(shù)忘晤。
中位數(shù):用于描述數(shù)據(jù)集中的趨勢宛蚓。例如用戶每天訪問次數(shù)中位數(shù)是2,證明至少有一半的人的每天訪問次數(shù)是≤2的设塔。
百分位數(shù):用于描述某個數(shù)據(jù)在整體數(shù)據(jù)中的位置凄吏,例如某個數(shù)據(jù)是25百分位數(shù),證明有25%的數(shù)據(jù)是小于該數(shù)據(jù)闰蛔,75%的數(shù)據(jù)是大于該數(shù)據(jù)痕钢。
標(biāo)準(zhǔn)差:用于描述一堆數(shù)據(jù)的離散情況,越大越離散序六。

2 相關(guān)性和相關(guān)系數(shù)

如果兩類數(shù)據(jù)有相關(guān)關(guān)系并不等于是因果關(guān)系任连,舉例:家里有超過3臺電視的孩子教育水平要更好,并不是指電視越多教育水平就越高例诀。有可能是家里電視多的随抠,證明家里富裕,用于孩子教育的錢會更多繁涂。

3 概率和期望值

這章幫我回顧了大學(xué)課程《概率論》中關(guān)于期望值的內(nèi)容暮刃,總結(jié)出兩個觀點:
①通過量化后的回報(期望值)對比成本來做決策,舉例:投入20萬爆土,有70%的概率獲得200萬椭懊,30%的概率只剩2萬。那期望值=200×70%+2×30%=140.6萬,也就是回報的期望值是遠大于20萬的氧猬。
②大數(shù)定律背犯,即隨著試驗次數(shù)的增多,結(jié)果的平均值會越來越接近期望值盅抚。第一點中舉例的例子雖然回報的期望值遠大于投入漠魏,但是可能你卻只夠錢投一次,那么風(fēng)險還是很大的妄均。但是如果你有錢投個十次八次柱锹,那么絕對是值得投的。

4 蒙提霍爾悖論(又叫三門問題)

很有趣的一個統(tǒng)計學(xué)問題:

百度百科:三門問題(Monty Hall problem)亦稱為蒙提霍爾問題丰包、蒙特霍問題或蒙提霍爾悖論禁熏,大致出自美國的電視游戲節(jié)目Let's Make a Deal。問題名字來自該節(jié)目的主持人蒙提·霍爾(Monty Hall)邑彪。參賽者會看見三扇關(guān)閉了的門瞧毙,其中一扇的后面有一輛汽車,選中后面有車的那扇門可贏得該汽車寄症,另外兩扇門后面則各藏有一只山羊宙彪。當(dāng)參賽者選定了一扇門,但未去開啟它的時候有巧,節(jié)目主持人開啟剩下兩扇門的其中一扇释漆,露出其中一只山羊。主持人其后會問參賽者要不要換另一扇仍然關(guān)上的門篮迎。問題是:換另一扇門會否增加參賽者贏得汽車的機率男图?如果嚴(yán)格按照上述的條件,即主持人清楚地知道柑潦,哪扇門后是羊,那么答案是會峻凫。不換門的話渗鬼,贏得汽車的幾率是1/3。換門的話荧琼,贏得汽車的幾率是2/3譬胎。

以后有機會碰到類似的問題時,是不是知道該怎么做了命锄?

5 數(shù)據(jù)和偏見

統(tǒng)計學(xué)在研究問題時堰乔,需要搜集數(shù)據(jù),搜集數(shù)據(jù)的類型有兩類:縱向數(shù)據(jù)和橫向數(shù)據(jù)脐恩。
縱向數(shù)據(jù):指時間維度的縱向镐侯,對觀察對象持續(xù)觀察數(shù)年甚至數(shù)十年來搜集數(shù)據(jù)。
橫向數(shù)據(jù):指空間維度的橫向驶冒,對于不同地方的觀察對象采集數(shù)據(jù)苟翻。

在進行數(shù)據(jù)分析時韵卤,容易犯下以下偏見。
選擇性偏見:即以偏概全崇猫,搜集到的數(shù)據(jù)并不能代表全體沈条。
發(fā)表性偏見:肯定性的數(shù)據(jù)結(jié)論要比否定性的數(shù)據(jù)結(jié)論更容易發(fā)表。
記憶性偏見:通過回憶得到的數(shù)據(jù)诅炉,誰也無法確保準(zhǔn)確性蜡歹。
幸存者偏見:數(shù)據(jù)樣本在觀察期沒有從頭到尾保持一致,例如一個班的平均成績越來越高是通過差生輟學(xué)來實現(xiàn)的涕烧,班級的實際成績水平并沒有得到真正的提高月而。
健康用戶偏見:以單方面的因素來得出結(jié)論,例如定期吃維生素的人更加健康澈魄,但有可能是定期吃維生素的人還會定期運動等等景鼠。

6 中心極限定理

中心極限定理的核心要義就是,一個大型樣本的正確抽樣與其所代表的群體存在相似關(guān)系痹扇。而正確抽樣一定要做到真正隨機铛漓。

7 統(tǒng)計推斷和假設(shè)驗證

進行數(shù)據(jù)分析的時候,我們通常會有正向思維和反向思維兩種方法鲫构。
正向思維就是指統(tǒng)計推斷:統(tǒng)計推斷是一個讓數(shù)據(jù)說話浓恶、讓有價值的結(jié)論浮出水面的過程。
反向思維就是假設(shè)驗證:從邏輯學(xué)來看结笨,如果我們能夠證明某個零假設(shè)不成立包晰,那么其對立假設(shè)(又稱備擇假設(shè))肯定為真。

8 回歸分析和線性關(guān)系

回歸分析能夠在控制其他因素的前提下炕吸,對某個具體變量與某個特定結(jié)果之間的關(guān)系進行量化伐憾。也就是說,我們能夠在保持其他變量效果不變的情況下赫模,將某個變量的效果分離出來树肃。應(yīng)用到實際的數(shù)據(jù)分析工作中就是A/B測試,在執(zhí)行A/B測試的過程中一定要控制好只有一個自變量瀑罗。
通過最小二乘法得出的OLS 直線可以讓所有數(shù)據(jù)的殘差平方和為最小胸嘴,從而求出自變量和因變量的線性關(guān)系圖

附錄

《赤裸裸的統(tǒng)計學(xué)》部分內(nèi)容
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市斩祭,隨后出現(xiàn)的幾起案子劣像,更是在濱河造成了極大的恐慌,老刑警劉巖摧玫,帶你破解...
    沈念sama閱讀 207,113評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件耳奕,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機吮铭,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評論 2 381
  • 文/潘曉璐 我一進店門时迫,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人谓晌,你說我怎么就攤上這事掠拳。” “怎么了纸肉?”我有些...
    開封第一講書人閱讀 153,340評論 0 344
  • 文/不壞的土叔 我叫張陵溺欧,是天一觀的道長。 經(jīng)常有香客問我柏肪,道長姐刁,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,449評論 1 279
  • 正文 為了忘掉前任烦味,我火速辦了婚禮聂使,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘谬俄。我一直安慰自己柏靶,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 64,445評論 5 374
  • 文/花漫 我一把揭開白布溃论。 她就那樣靜靜地躺著屎蜓,像睡著了一般。 火紅的嫁衣襯著肌膚如雪钥勋。 梳的紋絲不亂的頭發(fā)上炬转,一...
    開封第一講書人閱讀 49,166評論 1 284
  • 那天,我揣著相機與錄音算灸,去河邊找鬼扼劈。 笑死,一個胖子當(dāng)著我的面吹牛菲驴,可吹牛的內(nèi)容都是我干的荐吵。 我是一名探鬼主播,決...
    沈念sama閱讀 38,442評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼谢翎,長吁一口氣:“原來是場噩夢啊……” “哼捍靠!你這毒婦竟也來了沐旨?” 一聲冷哼從身側(cè)響起森逮,我...
    開封第一講書人閱讀 37,105評論 0 261
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎磁携,沒想到半個月后褒侧,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,601評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,066評論 2 325
  • 正文 我和宋清朗相戀三年闷供,在試婚紗的時候發(fā)現(xiàn)自己被綠了烟央。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,161評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡歪脏,死狀恐怖疑俭,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情婿失,我是刑警寧澤钞艇,帶...
    沈念sama閱讀 33,792評論 4 323
  • 正文 年R本政府宣布,位于F島的核電站豪硅,受9級特大地震影響哩照,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜懒浮,卻給世界環(huán)境...
    茶點故事閱讀 39,351評論 3 307
  • 文/蒙蒙 一飘弧、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧砚著,春花似錦次伶、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,352評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至秧骑,卻和暖如春版确,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背乎折。 一陣腳步聲響...
    開封第一講書人閱讀 31,584評論 1 261
  • 我被黑心中介騙來泰國打工绒疗, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人骂澄。 一個月前我還...
    沈念sama閱讀 45,618評論 2 355
  • 正文 我出身青樓吓蘑,卻偏偏與公主長得像,于是被迫代替她去往敵國和親坟冲。 傳聞我的和親對象是個殘疾皇子磨镶,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,916評論 2 344

推薦閱讀更多精彩內(nèi)容