一、全書提綱
記錄全書主要內(nèi)容,整理全書大綱以及有用的內(nèi)容土匀。
全書提綱結(jié)構(gòu)圖
總結(jié)的有用的內(nèi)容
1、數(shù)據(jù)分析就是處理所有的數(shù)據(jù)材料舱殿,從原始數(shù)據(jù)中找到客觀規(guī)律進(jìn)而總結(jié)出推動(dòng)現(xiàn)實(shí)工作的指導(dǎo)方法奥裸,以數(shù)據(jù)解構(gòu)分解復(fù)雜的問題和數(shù)據(jù)集進(jìn)而總結(jié)出工作中的各種問題,以數(shù)據(jù)反饋工作沪袭。數(shù)據(jù)分析最重要的點(diǎn)就是在海量的數(shù)據(jù)中洞察規(guī)律湾宙。
2、數(shù)據(jù)分析的基本流程:確定問題-分解問題-評(píng)估問題-決策冈绊。根據(jù)目標(biāo)確定問題侠鳄,目標(biāo)必須量化,假設(shè)必須謹(jǐn)慎焚碌。將問題分解為更小的組成部分畦攘, 劃分為可管理、可解決的組成模塊十电,細(xì)化問題知押。有效的比較是數(shù)據(jù)分析的核心,評(píng)估組塊的關(guān)鍵就是比較鹃骂。分析得出的結(jié)論台盯、形成的報(bào)表一定要落實(shí)到制定決策,否則數(shù)據(jù)分析毫無用處畏线。
3静盅、做實(shí)驗(yàn)驗(yàn)證假設(shè),通過ABTest寝殴、控制變量法蒿叠、實(shí)驗(yàn)組和控制組進(jìn)行比較,通過實(shí)證數(shù)據(jù)增強(qiáng)說服力蚣常,或通過觀察數(shù)據(jù)變量做假設(shè)檢驗(yàn)市咽。假設(shè)檢驗(yàn)的核心是證偽,觀察數(shù)據(jù)變量要觀察這些變量是正相關(guān)還是負(fù)相關(guān)抵蚊。
4施绎、數(shù)據(jù)圖形化的根本在于正確比較以及目標(biāo)決策,因此當(dāng)數(shù)據(jù)龐雜時(shí)只關(guān)注目標(biāo)相關(guān)的數(shù)據(jù)贞绳。數(shù)據(jù)分析越做越多谷醉,從不同的維度和不同的數(shù)據(jù)能得出無窮無盡的結(jié)論,但要始終牢記目標(biāo)冈闭。
5俱尼、掌握統(tǒng)計(jì)學(xué)方法和數(shù)據(jù)分析工具,對(duì)數(shù)據(jù)分析極其重要萎攒,這些需要在實(shí)際過程中不斷練習(xí)和熟悉号显。
每章內(nèi)容記錄摘抄
第一章 數(shù)據(jù)分析引言:分解數(shù)據(jù)
主要內(nèi)容:數(shù)據(jù)分析的流程臭猜,統(tǒng)計(jì)模型與心智模型
1、數(shù)據(jù)分析的流程:
確定:了解問題押蚤∶锔瑁客戶將幫助你確定問題。
分解:分解問題和數(shù)據(jù)揽碘,讓他成為更小的組成部分次屠。找出高效的比較因子。
評(píng)估:根據(jù)了解到的情況雳刺,作出各種結(jié)論劫灶。數(shù)據(jù)分析的核心是有效的比較。
決策:重新組合結(jié)論掖桦,作出決策建議本昏。作出自己明確的假設(shè)和結(jié)論。
2枪汪、統(tǒng)計(jì)模型取決于心智模型涌穆。心智模型一定要指出不確定因素。
3雀久、數(shù)據(jù)分析的根本在于密切關(guān)注需要了解的數(shù)據(jù)宿稀。
4、數(shù)據(jù)報(bào)告中應(yīng)該讓客戶詳細(xì)瀏覽你的思考過程赖捌。
第二章 實(shí)驗(yàn):檢驗(yàn)?zāi)愕睦碚?/h4>
主要內(nèi)容:比較法祝沸、混雜因素、控制組
1越庇、統(tǒng)計(jì)與分析的最基本原理之一就是比較法罩锐。數(shù)據(jù)只有通過相互比較才會(huì)有意義。比較越多卤唉,分析結(jié)果越正確涩惑。特別是對(duì)于觀察研究。
2搬味、觀察研究法:被研究人自行決定自己屬于哪個(gè)群體的一種研究方法境氢。使用觀察研究法時(shí)蟀拷,應(yīng)當(dāng)假定其他因素會(huì)混雜你的結(jié)論碰纬。
3、當(dāng)懷疑因果關(guān)系的走向時(shí)问芬,請(qǐng)進(jìn)行反方向思考悦析,看看結(jié)果怎么樣。如價(jià)值感的下降導(dǎo)致銷量下降此衅,換過來就是强戴,銷量下降導(dǎo)致價(jià)值感下降亭螟。
4、當(dāng)涉及因果關(guān)系時(shí)骑歹,觀察研究法并不是那么強(qiáng)大有力预烙。
5、把所想到的事物之間的聯(lián)系畫出來道媚。
6扁掸、混雜因素:研究對(duì)象的個(gè)人差異,他們不是試圖比較的因素最域,最終會(huì)導(dǎo)致分析結(jié)果的敏感度變差谴分。觀察分析法充滿混雜因素,通過拆分?jǐn)?shù)據(jù)塊來管理混雜因素镀脂。
7牺蹄、數(shù)據(jù)分析的重點(diǎn)在于分析的結(jié)論有意義。
8薄翅、拆分?jǐn)?shù)據(jù)塊沙兰,管理混雜隱私。拆分的數(shù)據(jù)塊要具有同質(zhì)性匿刮。
9僧凰、觀察數(shù)據(jù)本身無法預(yù)示未來。
10熟丸、好的實(shí)驗(yàn)總是有一個(gè)控制組(對(duì)照組)训措。
11、控制組:也稱作對(duì)照組光羞。一組體現(xiàn)現(xiàn)狀的處理對(duì)象绩鸣,未經(jīng)過任何新的處理。
12纱兑、歷史控制法呀闻,同期控制法(后者比較好)。
13潜慎、妥善報(bào)告可能令人沮喪的消息捡多。
14、從對(duì)象池中隨機(jī)選擇對(duì)象是避免混雜因素的好辦法铐炫。
第三章 最優(yōu)化:尋找最大值
主要內(nèi)容:最優(yōu)化問題垒手、Solver求解器
1、無法控制的因素倒信,可以控制的因素科贬。決策變量就是你能控制的因素,同時(shí)它受約束條件的限制鳖悠。
2榜掌、任何最優(yōu)化問題都有一些約束條件和一個(gè)目標(biāo)函數(shù)优妙。
3、創(chuàng)建模型時(shí)憎账,務(wù)必要規(guī)定假設(shè)中的各種變量的相互關(guān)系套硼。
4、用電子表格實(shí)現(xiàn)最優(yōu)化胞皱,比如Excel里的Solver求解器熟菲。
第四章 數(shù)據(jù)圖形化
主要內(nèi)容:數(shù)據(jù)圖形化、散點(diǎn)圖朴恳、R語言抄罕、數(shù)據(jù)圖形化
1、利用散點(diǎn)圖進(jìn)行探索性數(shù)據(jù)分析于颖。
2呆贿、體現(xiàn)數(shù)據(jù):用數(shù)據(jù)思考。
3森渐、面對(duì)大量數(shù)據(jù):記住目標(biāo)做入,目光停留在和目標(biāo)有關(guān)的數(shù)據(jù)上,無視其他同衣。
4竟块、數(shù)據(jù)圖形化的根本在于正確比較。
5耐齐、好的數(shù)據(jù)圖形:展示了數(shù)據(jù)浪秘,做了有效的比較,展示了多個(gè)變量埠况。
6耸携、散點(diǎn)圖:發(fā)現(xiàn)因果關(guān)系。X自變量辕翰,Y因變量夺衍。
7、圖形多元化:R軟件喜命。
8沟沙、Edward Tufte:數(shù)據(jù)圖形化。
9壁榕、描述數(shù)據(jù)圖形時(shí)矛紫,需要論述可相互換用的兩種因果模型。
第五章 假設(shè)檢驗(yàn)
主要內(nèi)容:假設(shè)檢驗(yàn)护桦、證據(jù)的診斷性
1含衔、觀察數(shù)據(jù)變量的方法之一:看他們之間是正相關(guān)煎娇,還是負(fù)相關(guān)二庵。
2贪染、現(xiàn)實(shí)世界中的各種原因呈網(wǎng)絡(luò)關(guān)系,而非線性關(guān)系催享。
3杭隙、假設(shè)檢驗(yàn)的核心是證偽,證偽不是選出最合理的假設(shè)因妙,而是剔除無法證實(shí)的假設(shè)痰憎。
4、滿意法:選出看上去最可信的第一個(gè)假設(shè)攀涵。
5铣耘、進(jìn)行假設(shè)檢驗(yàn)時(shí),要使用證偽法以故,回避滿意法蜗细。證偽法可以對(duì)各種假設(shè)保持敏銳,防止掉入認(rèn)知陷阱怒详。
6炉媒、診斷性:證據(jù)所具有的一種功能,能夠幫助評(píng)估所考慮的假設(shè)的相對(duì)似然性昆烁。如果證據(jù)具有診斷性吊骤,就能幫助對(duì)假設(shè)的排序。
第六章 貝葉斯統(tǒng)計(jì)
主要內(nèi)容:條件概率静尼、基礎(chǔ)概率白粉、貝葉斯規(guī)則
1、條件概率:以一件事的發(fā)生為前提的另一件事的發(fā)生概率鼠渺。
2蜗元、基礎(chǔ)概率:又叫事前概率。在根據(jù)試驗(yàn)結(jié)果分析之前系冗,已經(jīng)知道的概率奕扣。如果有基礎(chǔ)概率,一定要考慮掌敬。
3惯豆、將概率轉(zhuǎn)變?yōu)檎麛?shù),然后進(jìn)行思考奔害,是避免犯錯(cuò)誤的一個(gè)有效辦法楷兽。
4、貝葉斯規(guī)則可以反復(fù)使用华临,注意每次使用時(shí)芯杀,要根據(jù)上一次的結(jié)果調(diào)整新的基礎(chǔ)概率。
5、避免基礎(chǔ)概率謬誤的唯一方法就是對(duì)基礎(chǔ)概率提高警惕揭厚,而且務(wù)必要將它整合到分析中去却特。
第七章 主觀概率
主要內(nèi)容:主觀概率、標(biāo)準(zhǔn)偏差筛圆、貝葉斯規(guī)則
1裂明、主觀概率:用一個(gè)數(shù)字形式的概率來表示自己對(duì)某事的確認(rèn)程度,所用的就是主觀概率太援。特別適合在預(yù)測(cè)孤立事件卻缺乏從前在相同條件下發(fā)生過的事件的可靠數(shù)據(jù)的情況下闽晦。
2、主觀概率是一種向別人精確地傳達(dá)你的想法和信念的富有啟示性的表達(dá)方法提岔。
3仙蛉、標(biāo)準(zhǔn)偏差:量度分析點(diǎn)與平均值的偏差。STDEV函數(shù)碱蒙。
4捅儒、貝葉斯規(guī)則是修正主觀概率的好辦法。使用貝葉斯規(guī)則求主觀概率的根本在于找出在假設(shè)成立的條件下振亮,證據(jù)出現(xiàn)的概率巧还。
第八章 啟發(fā)法
主要內(nèi)容:?jiǎn)l(fā)法、快省樹
1坊秸、啟發(fā)法:(心理學(xué))用一種更便于理解的屬性代替一種難解的麸祷、令人困惑的屬性。(計(jì)算機(jī)科學(xué))一種解決問題的方法褒搔,可能會(huì)得出正確答案阶牍,但不保證得出最優(yōu)化答案。從直覺走向最優(yōu)化的橋梁星瘾。選取一兩個(gè)變量走孽,然后根據(jù)這些變量對(duì)整個(gè)系統(tǒng)做出結(jié)論,這就是在使用啟發(fā)法琳状。
2磕瓷、快省樹:描述啟發(fā)法的圖形。
3念逞、固定模式都具有啟發(fā)性困食。
第九章 直方圖
主要內(nèi)容:直方圖、鈴形曲線
1翎承、直方圖:顯示數(shù)據(jù)點(diǎn)在數(shù)值范圍內(nèi)的分布情況硕盹。
2、直方圖不同區(qū)間之間的缺口即數(shù)據(jù)點(diǎn)之間的缺口叨咖。
3瘩例、鈴形曲線:正態(tài)分布/高斯分布
4啊胶、只要峰的數(shù)目超過一個(gè),就不能成為鈴形垛贤。
第十章 回歸:預(yù)測(cè)
主要內(nèi)容:平均值圖焰坪、散點(diǎn)圖、相關(guān)性南吮、相關(guān)系數(shù)
1、算法:為了完成某個(gè)計(jì)算而執(zhí)行的任何過程誊酌。
2部凑、只要兩種變量成對(duì)出現(xiàn)并描述了數(shù)據(jù)中包含的人或事,就可以同時(shí)放在散點(diǎn)圖中碧浊。
3涂邀、散點(diǎn)圖的根本在于尋找變量之間的因果關(guān)系。
4箱锐、散點(diǎn)圖和直方圖的差別在于顯示兩種變量比勉。
5、平均值圖是一種散點(diǎn)圖驹止,顯示出與X軸上的每個(gè)區(qū)間相對(duì)應(yīng)的Y軸數(shù)值浩聋。
6、回歸線是最準(zhǔn)確地貫穿平均值圖中的各個(gè)點(diǎn)的直線臊恋。
7衣洁、相關(guān)性:兩種變量之間的線性關(guān)系。
8抖仅、回歸線對(duì)于具有線性相關(guān)特點(diǎn)的數(shù)據(jù)很有用坊夫。
9、相關(guān)系數(shù)r:衡量相關(guān)性的強(qiáng)弱撤卢,范圍為-1至1环凿,0表示無相關(guān)性,1和-1表示兩個(gè)變量完全相關(guān)放吩。
10智听、相關(guān)性是否足夠取決于實(shí)際的經(jīng)驗(yàn)判斷。任何軟件都無法判別回歸線是否有用渡紫。
第十一章 誤差
主要內(nèi)容:外插法瞭稼、內(nèi)插法、機(jī)會(huì)誤差腻惠、均方根誤差环肘、回歸分析的功能
1、外插法:用回歸方程預(yù)測(cè)數(shù)據(jù)范圍以外的數(shù)值集灌。
2悔雹、內(nèi)插法:對(duì)數(shù)據(jù)范圍內(nèi)的點(diǎn)進(jìn)行預(yù)測(cè)复哆。
3、如果使用外插法腌零,要指定附加假設(shè)條件梯找。
4、低劣的預(yù)測(cè)比不作預(yù)測(cè)更糟糕益涧。
5锈锤、如果使用抽樣數(shù)據(jù),就要確保能代表整個(gè)數(shù)據(jù)集闲询。
6久免、不合適的假設(shè)會(huì)使模型完全失效,甚至結(jié)果具有欺騙性扭弧。
7阎姥、機(jī)會(huì)誤差:又叫殘差。實(shí)際結(jié)果與預(yù)測(cè)結(jié)果之間的偏差鸽捻。殘差分析是優(yōu)秀的統(tǒng)計(jì)模型的核心呼巴。
8、均方根誤差描述的是回歸線周圍的分布情況御蒲,標(biāo)準(zhǔn)偏差描述的是平均值周圍的分布情況衣赶。他們都是預(yù)測(cè)實(shí)際結(jié)果與典型預(yù)測(cè)結(jié)果之間可能有多大的差距。
9厚满、線性回歸一般用均方根誤差公式描述誤差屑埋,但是也有其他量度方法。
10痰滋、分割的根本目的是管理誤差摘能。
11、優(yōu)秀的回歸分析兼具解釋功能和預(yù)測(cè)功能敲街。
第十二章 關(guān)系數(shù)據(jù)庫
主要內(nèi)容:數(shù)據(jù)庫团搞、RDBMS
1、數(shù)據(jù)庫就是一系列相互有特定關(guān)系的數(shù)據(jù)多艇。
2逻恐、數(shù)據(jù)庫要求表格之間的關(guān)系都是量化關(guān)系。
3峻黍、關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)每一行都有一個(gè)ID复隆,確保表格之間量化關(guān)系不被破壞,是最重要最有效的數(shù)據(jù)管理方法之一姆涩。
4挽拂、SQL是結(jié)構(gòu)化查詢語言,是一種關(guān)系數(shù)據(jù)庫檢索方法骨饿。
第十三章 整理數(shù)據(jù)
主要內(nèi)容:整理數(shù)據(jù)亏栈、Excel分列功能台腥、常用函數(shù)、正則表達(dá)式
1绒北、數(shù)據(jù)分析和整理上的時(shí)間要多于數(shù)據(jù)分析的時(shí)間黎侈。
2、整理數(shù)據(jù)必須從復(fù)制原始數(shù)據(jù)開始闷游,步驟如下:
1)保存原始數(shù)據(jù)副本峻汉。
2)設(shè)想數(shù)據(jù)集的最終外觀。
3)區(qū)分混亂數(shù)據(jù)中重復(fù)出現(xiàn)的模式脐往。
4)整理并重新構(gòu)造休吠。
3、Excel可以通過分隔符將數(shù)據(jù)分成多個(gè)列钙勃。(數(shù)據(jù)-分列)
4蛛碌、常用函數(shù):
Find:在單元格中的哪個(gè)位置查找搜索字符串
Left:取單元格左邊的字符
Right:取單元格右邊的字符
Trim:刪除單元格中的空格
Len:求單元格的長(zhǎng)度
Concatenate:取兩個(gè)值聂喇,然后合并在一起
Value:以文本格式存儲(chǔ)的數(shù)字的數(shù)值
Substitute:以指定的新文本替代單元格中不需要的文本
5辖源、不要把較小的公式合并成一個(gè)大公式,而是拆成幾個(gè)不同的單元格希太,再用一個(gè)最終的公式將所有單元格合并起來克饶。
6、正則表達(dá)式:可以指定復(fù)雜的模式誊辉,以便匹配和替換文本字符串矾湃。是整理混亂數(shù)據(jù)的殺手锏。Excel并不適用正則表達(dá)式堕澄。
正則表達(dá)式包括三個(gè)部分:左括號(hào)邀跃,右括號(hào)和括號(hào)里面的所有內(nèi)容。
7蛙紫、如果出現(xiàn)數(shù)據(jù)重復(fù)拍屑,要判斷是因?yàn)椴樵兎祷財(cái)?shù)據(jù)的方式,還是數(shù)據(jù)本身質(zhì)量低劣坑傅。
附錄
1僵驰、需要補(bǔ)充的知識(shí):
1)統(tǒng)計(jì)知識(shí)
2)Excel技巧
3)Edward Tufte的圖形原則:
體現(xiàn)出比較、對(duì)比唁毒、差異
體現(xiàn)出因果關(guān)系蒜茴、機(jī)制、理由浆西、系統(tǒng)結(jié)構(gòu)
體現(xiàn)出多元數(shù)據(jù)粉私,即體現(xiàn)出1個(gè)或2個(gè)變量
將文字、數(shù)字近零、圖片毡鉴、圖形全面結(jié)合起來
充分描述證據(jù)
數(shù)據(jù)分析報(bào)告的成敗在于報(bào)告內(nèi)容的質(zhì)量崔泵、相關(guān)性和整體性
4)數(shù)據(jù)透視表
5)R社區(qū)
6)非線性與多元回歸
7)原假設(shè)-備擇假設(shè)檢驗(yàn)
8)隨機(jī)性
9)Google Docs
10)專業(yè)技能
二猪瞬、評(píng)論心得
對(duì)書中內(nèi)容發(fā)表評(píng)論或自己總結(jié)的心得
全書整體評(píng)價(jià)
全書一共13章憎瘸,涉及數(shù)據(jù)整理、數(shù)據(jù)分析陈瘦、假設(shè)檢驗(yàn)幌甘、回歸分析、實(shí)驗(yàn)檢驗(yàn)等數(shù)據(jù)分析的方法痊项,以及Excel锅风、R、DB等數(shù)據(jù)分析的工具鞍泉。主要思路就是:利用Excel或OpenOffice組織數(shù)據(jù)皱埠,然后再用R進(jìn)一步整理,通過散點(diǎn)圖和直方圖找出有意義的模式咖驮,借助啟發(fā)式算法做出結(jié)論边器,通過實(shí)驗(yàn)和假定測(cè)試預(yù)見未來,再以清楚直觀的圖形展示分析結(jié)果托修。這本書優(yōu)缺點(diǎn)一樣明顯忘巧,優(yōu)點(diǎn)是簡(jiǎn)單,無論是語言睦刃、文字砚嘴,還是排版都讓人很輕松,內(nèi)容詼諧幽默涩拙,看起來不枯燥际长;缺點(diǎn)就是內(nèi)容較淺,入門書兴泥,但對(duì)于我這種數(shù)據(jù)分析小白來說工育,作為數(shù)據(jù)分析看的第一本書強(qiáng)度足夠了。書里有很多沒有用的東西郁轻,用不到實(shí)際工作中翅娶,但一些思路和方法是可以借鑒的,幫助很大好唯,第1竭沫、5、8章是最重要的骑篙,可以重點(diǎn)看一下蜕提。
各部分單獨(dú)評(píng)價(jià)
分析思路
什么是數(shù)據(jù)分析:
所謂數(shù)據(jù)分析是心智模型(直覺案训、數(shù)據(jù)的心智)在數(shù)據(jù)上的體現(xiàn)布轿,人們的心智模型影響對(duì)數(shù)據(jù)的解釋球凰,大腦無法處理所有數(shù)據(jù)虐沥,當(dāng)面對(duì)紛繁的數(shù)據(jù)的時(shí)候大腦會(huì)依賴心智模式做出選擇。數(shù)據(jù)分析就是妥善分解問題脏榆,為數(shù)據(jù)套上適當(dāng)?shù)男闹悄P秃徒y(tǒng)計(jì)模型猖毫,做出正確的判斷,但不保證次次正確如何避免心智模式對(duì)數(shù)據(jù)分析的影響须喂,下面是一些建議(用數(shù)據(jù)的心智去分析):
1)流程: 確定問題--分解問題--評(píng)估/分析問題(資源和數(shù)據(jù)約束情況可以多用啟發(fā)法吁断、假設(shè)法)--做出決策 ,循環(huán)迭代坞生,直至獲得最優(yōu)解(這里要綜合考慮資源仔役、代價(jià))
2)方法: 明確目標(biāo)、基于對(duì)業(yè)務(wù)的理解和已知的信息作出假設(shè)(提速的關(guān)鍵)是己、使用反查表尋找自己思維盲區(qū)(這個(gè)需要積累或者同事的建議)又兵、通過假設(shè)檢驗(yàn)過程拉取更多數(shù)據(jù)
3)建議: 客戶未必明確他們的需求(有時(shí)候客戶的論點(diǎn)值得商榷)、分解數(shù)據(jù)的過程可能就是解決問題的過程
實(shí)證檢驗(yàn):
實(shí)證檢驗(yàn)是一種觀察研究法卒废,面對(duì)復(fù)雜問題沛厨,通過對(duì)部分因素的控制,研究對(duì)象差異性升熊《硭福控制混雜因素: 拆分?jǐn)?shù)據(jù)為同質(zhì)性的小數(shù)據(jù)塊绸栅。讓數(shù)據(jù)說話级野,策略選擇:應(yīng)用不同策略到控制組、對(duì)照組粹胯,要保證組之間的相似性(消除混雜因素影響的好辦法)蓖柔,從而證明策略效果的差異性。
假設(shè)檢驗(yàn):
假設(shè)檢驗(yàn)作為一種數(shù)據(jù)分析中常用的非直覺方法(非線性思考)风纠,也叫證偽法况鸣。再次呼應(yīng)開頭時(shí)候講的什么是數(shù)據(jù)分析,這里提到了解決問題的直覺法(往往只看到一個(gè)選項(xiàng)竹观,不靠譜)镐捧,以及信仰數(shù)據(jù)的假設(shè)法,目的是實(shí)現(xiàn)最優(yōu)化的解決方案臭增。在我們面對(duì)復(fù)雜問題或者數(shù)據(jù)比較少的問題時(shí)懂酱,假設(shè)法是一個(gè)開啟分析的利器。通過假設(shè)我們構(gòu)建問題的模型誊抛,列出所有的相關(guān)變量列牺,并分析變量之間的相關(guān)關(guān)系(這里可以參考《系統(tǒng)思維》里面提到的系統(tǒng)循環(huán)圖:調(diào)節(jié)回路、增強(qiáng)回路)拗窃。 通過變量之間的網(wǎng)狀關(guān)系進(jìn)行問題的模擬瞎领。針對(duì)假設(shè)我們要使用證偽法泌辫,而避免使用滿意法,目的就是不放過每個(gè)可能的假設(shè)九默,否定性最小的假設(shè)往往就是我們的最優(yōu)選擇震放。證偽的過程可以使用邏輯樹或者問題樹的形式進(jìn)行組織,充分利用手頭資料進(jìn)行“是或否”的回答驼修。
啟發(fā)法澜搅,從直覺到最優(yōu)化:
任何數(shù)據(jù)分析都是有代價(jià)的,具體到模型(約束條件邪锌、決策變量)就是數(shù)據(jù)的獲取往往是有代價(jià)的勉躺。啟發(fā)法很好的解決了數(shù)據(jù)獲取代價(jià)和收益平衡的問題,通過選取一兩個(gè)變量觅丰,通過這些變量對(duì)整個(gè)系統(tǒng)/模型分析得出結(jié)論饵溅。啟發(fā)法是從直覺走向最優(yōu)化的橋梁,通常直覺分析中我們只看到一個(gè)選項(xiàng)妇萄,通過啟發(fā)法我們可以看到多個(gè)選項(xiàng)蜕企,并可能獲取最優(yōu)答案(所有可選答案)。啟發(fā)法在心理學(xué)(心理學(xué)定義-用一種便于理解的屬性代替一種難以理解的屬性)和計(jì)算機(jī)科學(xué)(一種解決問題的方法冠句,可以得出正確答案轻掩,但不保證最優(yōu)答案)中有廣泛應(yīng)用,在解決復(fù)雜或者模糊問題時(shí)可以大大提高我們處理的效率懦底。
分析工具
最優(yōu)化:
我們處理的最優(yōu)化問題都可以轉(zhuǎn)換為一個(gè)函數(shù)唇牧,有目標(biāo)變量、控制變量聚唐,以及我們不可控的約束條件丐重。第三章介紹了一個(gè)實(shí)現(xiàn)最優(yōu)化的工具,Microsoft Excel Solver杆查。
貝葉斯統(tǒng)計(jì)和概率:
主要介紹了概率扮惦、先驗(yàn)概率、后驗(yàn)概率等概念亲桦。
主觀概率崖蜜,信念數(shù)字化:
數(shù)據(jù)分析的過程中并非不可以使用直覺,但是需要以更嚴(yán)謹(jǐn)?shù)姆绞饺谌霐?shù)據(jù)分析過程客峭。數(shù)字化的主觀概率可以讓我們對(duì)專家們之間的分歧有更確切的認(rèn)知豫领。專家信念轉(zhuǎn)化為主觀概率,匯總?cè)后w(這里群體是解決個(gè)體主觀偏差的關(guān)鍵點(diǎn))的主觀概率并進(jìn)行一些相關(guān)的偏差度量分析可以實(shí)現(xiàn)不錯(cuò)的效果桃笙。一旦有更確定的數(shù)據(jù)可以進(jìn)行主觀信念的修正氏堤,可以用上一章介紹的貝葉斯統(tǒng)計(jì)條件概率進(jìn)行修正。
回歸和預(yù)測(cè):
數(shù)據(jù)分析的目的分類、預(yù)測(cè)是最常見兩類鼠锈,回歸就是一個(gè)解決預(yù)測(cè)的常用方法闪檬。通常結(jié)合散點(diǎn)圖觀察數(shù)據(jù)的相關(guān)性,通過回歸算法形成回歸模型(通過數(shù)據(jù)訓(xùn)練算法得出參數(shù))购笆。
數(shù)據(jù)處理
誤差的理解:
預(yù)測(cè)和現(xiàn)實(shí)結(jié)果之間難免有誤差粗悯,通常在進(jìn)行預(yù)測(cè)分析的時(shí)候我們需要指出誤差范圍。在應(yīng)用回歸模型進(jìn)行預(yù)測(cè)的時(shí)候我們需要注意:回歸模型有適用的數(shù)據(jù)范圍同欠,如果超出范圍進(jìn)行預(yù)測(cè)(外插法)往往失準(zhǔn)样傍;回歸模型中存在殘差,通常我們有均方根誤差進(jìn)行計(jì)量(殘差的標(biāo)準(zhǔn)差)铺遂;回歸模型的合理分拆衫哥,有助于減少誤差實(shí)現(xiàn)更準(zhǔn)確的預(yù)測(cè)。
關(guān)系型數(shù)據(jù)庫:
關(guān)系數(shù)據(jù)庫是我們數(shù)據(jù)分析中常見的數(shù)據(jù)源襟锐,相關(guān)的表結(jié)構(gòu)撤逢、SQL是應(yīng)該掌握的。
整理數(shù)據(jù):
數(shù)據(jù)分析過程中耗時(shí)最長(zhǎng)的往往是數(shù)據(jù)整理粮坞、清洗蚊荣。在數(shù)據(jù)整理的過程中,一定要明確目標(biāo)(輸出格式)莫杈,基于目標(biāo)進(jìn)行原始數(shù)據(jù)和目標(biāo)數(shù)據(jù)的映射匹配互例。
結(jié)果展現(xiàn)
圖形化、可視化:
通常數(shù)據(jù)分析過程中數(shù)據(jù)探索筝闹、結(jié)果呈現(xiàn)都需要用到可視化的圖形媳叨,比如散點(diǎn)圖(多元圖形)、折線圖丁存、柱圖肩杈、氣泡圖(多元圖形)等等柴我。但是不要忘記分析的目標(biāo)解寝,龐大的數(shù)據(jù)都是為目標(biāo)服務(wù),而不是為了好看的可視化效果艘儒。實(shí)現(xiàn)可視化的工具既有Excel聋伦、Tableau也有R、Python等程序化工具界睁。
直方圖:
主要介紹了如何用Excel觉增、R畫直方圖,直方圖是一個(gè)很好的觀察數(shù)據(jù)分布翻斟、差異逾礁、集中趨勢(shì)等的工具。