國慶假期閱讀了幾本數(shù)據(jù)分析相關(guān)的書,以讀書筆記的方式推薦給大家掰烟。
本篇為 《深入淺出數(shù)據(jù)分析》/ 的讀書筆記爽蝴。
全書一共13章,涉及數(shù)據(jù)整理纫骑、數(shù)據(jù)分析蝎亚、假設(shè)檢驗(yàn)、回歸分析先馆、實(shí)驗(yàn)檢驗(yàn)等數(shù)據(jù)分析的方法发框,以及Excel、R煤墙、DB等數(shù)據(jù)分析的工具缤底。下面先按照章節(jié)整理下讀書筆記。
CH1 什么是數(shù)據(jù)分析
本章和CH8啟發(fā)法中都寫了對數(shù)據(jù)分析的理解
CH1:所謂數(shù)據(jù)分析是心智模型(直覺番捂、數(shù)據(jù)的心智)在數(shù)據(jù)上的體現(xiàn)个唧,人們的心智模型影響對數(shù)據(jù)的解釋,大腦無法處理所有數(shù)據(jù)设预,當(dāng)面對紛繁的數(shù)據(jù)的時(shí)候大腦會依賴心智模式做出選擇徙歼。
CH8:數(shù)據(jù)分析就是妥善分解問題,為數(shù)據(jù)套上適當(dāng)?shù)男闹悄P秃徒y(tǒng)計(jì)模型,做出正確的判斷魄梯,但不保證次次正確
如何避免心智模式對數(shù)據(jù)分析的影響桨螺,下面是一些建議(用數(shù)據(jù)的心智去分析):
1.流程: 確定問題--分解問題--評估/分析問題(資源和數(shù)據(jù)約束情況可以多用啟發(fā)法、假設(shè)法)--做出決策 酿秸,循環(huán)迭代灭翔,直至獲得最優(yōu)解(這里要綜合考慮資源、代價(jià))
2.方法: 明確目標(biāo)辣苏、基于對業(yè)務(wù)的理解和已知的信息作出假設(shè)(提速的關(guān)鍵)肝箱、使用反查表尋找自己思維盲區(qū)(這個(gè)需要積累或者同事的建議)、通過假設(shè)檢驗(yàn)過程拉取更多數(shù)據(jù)
3.建議: 客戶未必明確他們的需求(有時(shí)候客戶的論點(diǎn)值得商榷)稀蟋、分解數(shù)據(jù)的過程可能就是解決問題的過程
上面的數(shù)據(jù)分析流程和方法和《麥肯錫意識》中推崇的解決問題的思路是一致的煌张,建議結(jié)合閱讀。
CH2 實(shí)證檢驗(yàn)
實(shí)證檢驗(yàn)是一種觀察研究法退客,面對復(fù)雜問題骏融,通過對部分因素的控制,研究對象差異性
控制混雜因素: 拆分?jǐn)?shù)據(jù)為同質(zhì)性的小數(shù)據(jù)塊
讓數(shù)據(jù)說話萌狂,策略選擇:應(yīng)用不同策略到控制組档玻、對照組,要保證組之間的相似性(消除混雜因素影響的好辦法)茫藏,從而證明策略效果的差異性
CH3 最優(yōu)化
我們處理的最優(yōu)化問題都可以轉(zhuǎn)換為一個(gè)函數(shù)柏蘑,有目標(biāo)變量蛔屹、控制變量议街,以及我們不可控的約束條件恩掷。
本章介紹了一個(gè)實(shí)現(xiàn)最優(yōu)化的工具碧囊,Microsoft Excel Solver
CH4 圖形化 可視化
通常數(shù)據(jù)分析過程中數(shù)據(jù)探索树灶、結(jié)果呈現(xiàn)都需要用到可視化的圖形,比如散點(diǎn)圖(多元圖形)糯而、折線圖天通、柱圖、氣泡圖(多元圖形)等等熄驼。
但是不要忘記分析的目標(biāo)像寒,龐大的數(shù)據(jù)都是為目標(biāo)服務(wù),而不是為了好看的可視化效果瓜贾。
實(shí)現(xiàn)可視化的工具既有Excel诺祸、Tableau也有R、Python等程序化工具祭芦。
CH5 假設(shè)檢驗(yàn)
假設(shè)檢驗(yàn)作為一種數(shù)據(jù)分析中常用的非直覺方法(非線性思考)筷笨,也叫證偽法。再次呼應(yīng)開頭時(shí)候講的什么是數(shù)據(jù)分析,這里提到了解決問題的直覺法(往往只看到一個(gè)選項(xiàng)胃夏,不靠譜)轴或,以及信仰數(shù)據(jù)的假設(shè)法,目的是實(shí)現(xiàn)最優(yōu)化的解決方案仰禀。
在我們面對復(fù)雜問題或者數(shù)據(jù)比較少的問題時(shí)照雁,假設(shè)法是一個(gè)開啟分析的利器。通過假設(shè)我們構(gòu)建問題的模型答恶,列出所有的相關(guān)變量饺蚊,并分析變量之間的相關(guān)關(guān)系(這里可以參考《系統(tǒng)思維》里面提到的系統(tǒng)循環(huán)圖:調(diào)節(jié)回路、增強(qiáng)回路)亥宿。 通過變量之間的網(wǎng)狀關(guān)系進(jìn)行問題的模擬卸勺。
針對假設(shè)我們要使用證偽法,而避免使用滿意法烫扼,目的就是不放過每個(gè)可能的假設(shè)曙求,否定性最小的假設(shè)往往就是我們的最優(yōu)選擇。
證偽的過程可以使用邏輯樹或者問題樹的形式進(jìn)行組織映企,充分利用手頭資料進(jìn)行“是或否”的回答悟狱。
CH6 貝葉斯統(tǒng)計(jì)和概率
本章主要介紹了概率、先驗(yàn)概率堰氓、后驗(yàn)概率等概念挤渐。
CH7 主觀概率 信念數(shù)字化
數(shù)據(jù)分析的過程中并非不可以使用直覺,但是需要以更嚴(yán)謹(jǐn)?shù)姆绞饺谌霐?shù)據(jù)分析過程双絮。
數(shù)字化的主觀概率可以讓我們對專家們之間的分歧有更確切的認(rèn)知浴麻。
專家信念轉(zhuǎn)化為主觀概率,匯總?cè)后w(這里群體是解決個(gè)體主觀偏差的關(guān)鍵點(diǎn))的主觀概率并進(jìn)行一些相關(guān)的偏差度量分析可以實(shí)現(xiàn)不錯(cuò)的效果囤攀。
一旦有更確定的數(shù)據(jù)可以進(jìn)行主觀信念的修正软免,可以用上一章介紹的貝葉斯統(tǒng)計(jì)條件概率進(jìn)行修正。
CH8 啟發(fā)法焚挠,從直覺到最優(yōu)化
任何數(shù)據(jù)分析都是有代價(jià)的膏萧,具體到模型(約束條件、決策變量)就是數(shù)據(jù)的獲取往往是有代價(jià)的蝌衔。
啟發(fā)法很好的解決了數(shù)據(jù)獲取代價(jià)和收益平衡的問題榛泛,通過選取一兩個(gè)變量,通過這些變量對整個(gè)系統(tǒng)/模型分析得出結(jié)論噩斟。
啟發(fā)法是從直覺走向最優(yōu)化的橋梁曹锨,通常直覺分析中我們只看到一個(gè)選項(xiàng),通過啟發(fā)法我們可以看到多個(gè)選項(xiàng)剃允,并可能獲取最優(yōu)答案(所有可選答案)艘希。
啟發(fā)法在心理學(xué)(心理學(xué)定義-用一種便于理解的屬性代替一種難以理解的屬性)和計(jì)算機(jī)科學(xué)(一種解決問題的方法硼身,可以得出正確答案,但不保證最優(yōu)答案)中有廣泛應(yīng)用覆享,在解決復(fù)雜或者模糊問題時(shí)可以大大提高我們處理的效率佳遂。
個(gè)人覺得啟發(fā)法和假設(shè)檢驗(yàn),都是很好的提高數(shù)據(jù)分析效率的方法撒顿。 具體的區(qū)別大家有什么想法丑罪?
CH9 直方圖
本章主要介紹了如何用Excel、R畫直方圖凤壁,直方圖是一個(gè)很好的觀察數(shù)據(jù)分布吩屹、差異、集中趨勢等的工具拧抖。
CH10 回歸和預(yù)測
數(shù)據(jù)分析的目的分類煤搜、預(yù)測是最常見兩類,回歸就是一個(gè)解決預(yù)測的常用方法唧席。
通常結(jié)合散點(diǎn)圖觀察數(shù)據(jù)的相關(guān)性擦盾,通過回歸算法形成回歸模型(通過數(shù)據(jù)訓(xùn)練算法得出參數(shù))。
CH11 誤差的理解
預(yù)測和現(xiàn)實(shí)結(jié)果之間難免有誤差淌哟,通常在進(jìn)行預(yù)測分析的時(shí)候我們需要指出誤差范圍迹卢。
在應(yīng)用回歸模型進(jìn)行預(yù)測的時(shí)候我們需要注意:
回歸模型有適用的數(shù)據(jù)范圍,如果超出范圍進(jìn)行預(yù)測(外插法)往往失準(zhǔn)
回歸模型中存在殘差徒仓,通常我們有均方根誤差進(jìn)行計(jì)量(殘差的標(biāo)準(zhǔn)差)
回歸模型的合理分拆腐碱,有助于減少誤差實(shí)現(xiàn)更準(zhǔn)確的預(yù)測
CH12 關(guān)系型數(shù)據(jù)庫
關(guān)系數(shù)據(jù)庫是我們數(shù)據(jù)分析中常見的數(shù)據(jù)源,相關(guān)的表結(jié)構(gòu)掉弛、SQL是數(shù)據(jù)分析師應(yīng)該掌握的症见。
CH13 整理數(shù)據(jù)
數(shù)據(jù)分析過程中耗時(shí)最長的往往是數(shù)據(jù)整理、清洗殃饿。
在數(shù)據(jù)整理的過程中谋作,我們一定要明確目標(biāo)(輸出格式),基于目標(biāo)進(jìn)行原始數(shù)據(jù)和目標(biāo)數(shù)據(jù)的映射匹配壁晒。
重新整理13個(gè)章節(jié):
分析思路(CH5假設(shè)檢驗(yàn)瓷们、CH8啟發(fā)法业栅、CH2實(shí)驗(yàn)檢驗(yàn)秒咐、CH1什么時(shí)候數(shù)據(jù)分析)
分析工具(CH6貝葉斯統(tǒng)計(jì)、CH3最優(yōu)化計(jì)算碘裕、CH10回歸計(jì)算)
結(jié)果展現(xiàn)(CH4可視化携取、CH9直方圖)
數(shù)據(jù)處理(CH13整理數(shù)據(jù)、CH12關(guān)系型數(shù)據(jù)庫)
我們發(fā)現(xiàn)數(shù)據(jù)分析中思路是根本帮孔,黑體章節(jié)推薦重點(diǎn)閱讀雷滋。
本書閱讀過程中穿插閱讀了
《麥肯錫意識》
《周志華-機(jī)器學(xué)習(xí)》
還推薦閱讀 深入淺出系列圖書
《深入淺出統(tǒng)計(jì)學(xué)》