由于最近工作上都做數(shù)據(jù)分析的內(nèi)容,所以根據(jù)眾產(chǎn)品大神推薦的數(shù)據(jù)分析應(yīng)讀書單找了不少書來充電凤巨。《赤裸裸的統(tǒng)計學(xué)》是第一本洛搀,它的作者是Charles Wheelan敢茁,一名財經(jīng)記者,他嘗試著用通俗易懂的筆法和具體的例子來向讀者介紹一些統(tǒng)計學(xué)的基礎(chǔ)理論姥卢。同時也是向另一本類似風(fēng)格的統(tǒng)計學(xué)書籍——《統(tǒng)計數(shù)字會撒謊》致敬卷要。
讀完后,個人覺得部分內(nèi)容有一定統(tǒng)計學(xué)基礎(chǔ)的人才比較容易理解独榴,但整體而言僧叉,全書還是能符合作者的初衷的。現(xiàn)將部分自己可以理解且可能對數(shù)據(jù)分析工作有啟發(fā)的內(nèi)容摘錄如下棺榔。
1 描述統(tǒng)計學(xué)
作者在這章中提出了平均數(shù)瓶堕、中位數(shù)、百分位數(shù)和標(biāo)準(zhǔn)差等幾類常用于事實描述的數(shù)據(jù)症歇。
平均數(shù):用于描述整體情況的基礎(chǔ)數(shù)據(jù)郎笆。例如想知道全體用戶的活躍情況,可以看人均每天訪問次數(shù)忘晤。
中位數(shù):用于描述數(shù)據(jù)集中的趨勢宛蚓。例如用戶每天訪問次數(shù)中位數(shù)是2,證明至少有一半的人的每天訪問次數(shù)是≤2的设塔。
百分位數(shù):用于描述某個數(shù)據(jù)在整體數(shù)據(jù)中的位置凄吏,例如某個數(shù)據(jù)是25百分位數(shù),證明有25%的數(shù)據(jù)是小于該數(shù)據(jù)闰蛔,75%的數(shù)據(jù)是大于該數(shù)據(jù)痕钢。
標(biāo)準(zhǔn)差:用于描述一堆數(shù)據(jù)的離散情況,越大越離散序六。
2 相關(guān)性和相關(guān)系數(shù)
如果兩類數(shù)據(jù)有相關(guān)關(guān)系并不等于是因果關(guān)系任连,舉例:家里有超過3臺電視的孩子教育水平要更好,并不是指電視越多教育水平就越高例诀。有可能是家里電視多的随抠,證明家里富裕,用于孩子教育的錢會更多繁涂。
3 概率和期望值
這章幫我回顧了大學(xué)課程《概率論》中關(guān)于期望值的內(nèi)容暮刃,總結(jié)出兩個觀點:
①通過量化后的回報(期望值)對比成本來做決策,舉例:投入20萬爆土,有70%的概率獲得200萬椭懊,30%的概率只剩2萬。那期望值=200×70%+2×30%=140.6萬,也就是回報的期望值是遠大于20萬的氧猬。
②大數(shù)定律背犯,即隨著試驗次數(shù)的增多,結(jié)果的平均值會越來越接近期望值盅抚。第一點中舉例的例子雖然回報的期望值遠大于投入漠魏,但是可能你卻只夠錢投一次,那么風(fēng)險還是很大的妄均。但是如果你有錢投個十次八次柱锹,那么絕對是值得投的。
4 蒙提霍爾悖論(又叫三門問題)
很有趣的一個統(tǒng)計學(xué)問題:
百度百科:三門問題(Monty Hall problem)亦稱為蒙提霍爾問題丰包、蒙特霍問題或蒙提霍爾悖論禁熏,大致出自美國的電視游戲節(jié)目Let's Make a Deal。問題名字來自該節(jié)目的主持人蒙提·霍爾(Monty Hall)邑彪。參賽者會看見三扇關(guān)閉了的門瞧毙,其中一扇的后面有一輛汽車,選中后面有車的那扇門可贏得該汽車寄症,另外兩扇門后面則各藏有一只山羊宙彪。當(dāng)參賽者選定了一扇門,但未去開啟它的時候有巧,節(jié)目主持人開啟剩下兩扇門的其中一扇释漆,露出其中一只山羊。主持人其后會問參賽者要不要換另一扇仍然關(guān)上的門篮迎。問題是:換另一扇門會否增加參賽者贏得汽車的機率男图?如果嚴(yán)格按照上述的條件,即主持人清楚地知道柑潦,哪扇門后是羊,那么答案是會峻凫。不換門的話渗鬼,贏得汽車的幾率是1/3。換門的話荧琼,贏得汽車的幾率是2/3譬胎。
以后有機會碰到類似的問題時,是不是知道該怎么做了命锄?
5 數(shù)據(jù)和偏見
統(tǒng)計學(xué)在研究問題時堰乔,需要搜集數(shù)據(jù),搜集數(shù)據(jù)的類型有兩類:縱向數(shù)據(jù)和橫向數(shù)據(jù)脐恩。
縱向數(shù)據(jù):指時間維度的縱向镐侯,對觀察對象持續(xù)觀察數(shù)年甚至數(shù)十年來搜集數(shù)據(jù)。
橫向數(shù)據(jù):指空間維度的橫向驶冒,對于不同地方的觀察對象采集數(shù)據(jù)苟翻。
在進行數(shù)據(jù)分析時韵卤,容易犯下以下偏見。
選擇性偏見:即以偏概全崇猫,搜集到的數(shù)據(jù)并不能代表全體沈条。
發(fā)表性偏見:肯定性的數(shù)據(jù)結(jié)論要比否定性的數(shù)據(jù)結(jié)論更容易發(fā)表。
記憶性偏見:通過回憶得到的數(shù)據(jù)诅炉,誰也無法確保準(zhǔn)確性蜡歹。
幸存者偏見:數(shù)據(jù)樣本在觀察期沒有從頭到尾保持一致,例如一個班的平均成績越來越高是通過差生輟學(xué)來實現(xiàn)的涕烧,班級的實際成績水平并沒有得到真正的提高月而。
健康用戶偏見:以單方面的因素來得出結(jié)論,例如定期吃維生素的人更加健康澈魄,但有可能是定期吃維生素的人還會定期運動等等景鼠。
6 中心極限定理
中心極限定理的核心要義就是,一個大型樣本的正確抽樣與其所代表的群體存在相似關(guān)系痹扇。而正確抽樣一定要做到真正隨機铛漓。
7 統(tǒng)計推斷和假設(shè)驗證
進行數(shù)據(jù)分析的時候,我們通常會有正向思維和反向思維兩種方法鲫构。
正向思維就是指統(tǒng)計推斷:統(tǒng)計推斷是一個讓數(shù)據(jù)說話浓恶、讓有價值的結(jié)論浮出水面的過程。
反向思維就是假設(shè)驗證:從邏輯學(xué)來看结笨,如果我們能夠證明某個零假設(shè)不成立包晰,那么其對立假設(shè)(又稱備擇假設(shè))肯定為真。
8 回歸分析和線性關(guān)系
回歸分析能夠在控制其他因素的前提下炕吸,對某個具體變量與某個特定結(jié)果之間的關(guān)系進行量化伐憾。也就是說,我們能夠在保持其他變量效果不變的情況下赫模,將某個變量的效果分離出來树肃。應(yīng)用到實際的數(shù)據(jù)分析工作中就是A/B測試,在執(zhí)行A/B測試的過程中一定要控制好只有一個自變量瀑罗。
通過最小二乘法得出的OLS 直線可以讓所有數(shù)據(jù)的殘差平方和為最小胸嘴,從而求出自變量和因變量的線性關(guān)系圖