你為什么需要數(shù)據(jù)分析能力?
我們生活在數(shù)據(jù)驅(qū)動一切的時(shí)代讶舰,數(shù)據(jù)挖掘和數(shù)據(jù)分析就是這個(gè)時(shí)代的“淘金”鞍盗,從國家、企業(yè)跳昼、組織到個(gè)人般甲,都一定會關(guān)注各種數(shù)據(jù),從這些數(shù)據(jù)中得到價(jià)值庐舟。
數(shù)據(jù)分析的核心就是培養(yǎng)數(shù)據(jù)思維欣除,掌握挖掘工具,熟練實(shí)踐并積累經(jīng)驗(yàn)挪略。
MAS 方法
- Multi-Dimension:想要掌握一個(gè)事物历帚,就要從多個(gè)角度去認(rèn)識它。
- Ask:不懂就問杠娱,程序員大多都很羞澀挽牢,突破這一點(diǎn),不懂就問最重要摊求。
- Sharing:最好的學(xué)習(xí)就是分享禽拔。用自己的語言講出來,是對知識的進(jìn)一步梳理。
怎么和數(shù)據(jù)分析建立多維度連接呢睹栖?我特意把內(nèi)容分成了三個(gè)大類硫惕。第一類是基礎(chǔ)概念。這是我們學(xué)習(xí)的基礎(chǔ)野来,一定不能落下恼除。第二類是工具。這個(gè)部分可以很好地鍛煉你的實(shí)操能力曼氛。第三類是題庫豁辉。題庫的作用是幫你查漏補(bǔ)缺,在這個(gè)過程中舀患,你會情不自禁地進(jìn)行思考徽级。
01丨數(shù)據(jù)分析全景圖及修煉指南
數(shù)據(jù)分析分成三個(gè)重要的組成部分
- 數(shù)據(jù)采集。它是我們的原材料聊浅,也是最“接地氣”的部分餐抢,因?yàn)槿魏畏治龆家袛?shù)據(jù)源。
- 數(shù)據(jù)挖掘狗超。它可以說是最“高大上”的部分弹澎,也是整個(gè)商業(yè)價(jià)值所在。之所以要進(jìn)行數(shù)據(jù)分析努咐,就是要找到其中的規(guī)律苦蒿,來指導(dǎo)我們的業(yè)務(wù)。因此數(shù)據(jù)挖掘的核心是挖掘數(shù)據(jù)的商業(yè)價(jià)值渗稍,也就是我們所談的商業(yè)智能 BI佩迟。它可以說是知識型的工程,相當(dāng)于整個(gè)專欄中的“算法”部分竿屹。首先你要知道它的基本流程报强、十大算法、以及背后的數(shù)學(xué)基礎(chǔ)拱燃。
-
數(shù)據(jù)可視化秉溉。它可以說是數(shù)據(jù)領(lǐng)域中萬金油的技能,可以讓我們直觀地了解到數(shù)據(jù)分析的結(jié)果碗誉。
作者給的學(xué)習(xí)建議:認(rèn)知三步曲召嘶,從認(rèn)知到工具,再到實(shí)戰(zhàn)哮缺。
記錄下你每天的認(rèn)知弄跌。尤其是每次課程后,對知識點(diǎn)的自我理解尝苇。這些認(rèn)知對應(yīng)工具的哪些操作铛只。用工具來表達(dá)你對知識點(diǎn)的掌握埠胖,并用自己的語言記錄下這些操作筆記。做更多練習(xí)來鞏固你的認(rèn)知淳玩。我們學(xué)習(xí)的內(nèi)容對于大部分外人來說直撤,就像“開車”一樣,很酷蜕着。我們學(xué)習(xí)的內(nèi)容谊惭,對于要掌握的人來說,也像“開車”一樣侮东,其實(shí)并不難,而且很多人已經(jīng)上路了豹芯。你需要的就是更多的練習(xí)悄雅。
02丨學(xué)習(xí)數(shù)據(jù)挖掘的最佳路徑是什么?
數(shù)據(jù)挖掘的基本流程
- 商業(yè)理解:數(shù)據(jù)挖掘不是我們的目的铁蹈,我們的目的是更好地幫助業(yè)務(wù)宽闲,所以第一步我們要從商業(yè)的角度理解項(xiàng)目需求,在這個(gè)基礎(chǔ)上握牧,再對數(shù)據(jù)挖掘的目標(biāo)進(jìn)行定義容诬。
- 數(shù)據(jù)理解:嘗試收集部分?jǐn)?shù)據(jù),然后對數(shù)據(jù)進(jìn)行探索沿腰,包括數(shù)據(jù)描述览徒、數(shù)據(jù)質(zhì)量驗(yàn)證等。這有助于你對收集的數(shù)據(jù)有個(gè)初步的認(rèn)知颂龙。
- 數(shù)據(jù)準(zhǔn)備:開始收集數(shù)據(jù)习蓬,并對數(shù)據(jù)進(jìn)行清洗、數(shù)據(jù)集成等操作措嵌,完成數(shù)據(jù)挖掘前的準(zhǔn)備工作躲叼。
- 模型建立:選擇和應(yīng)用各種數(shù)據(jù)挖掘模型,并進(jìn)行優(yōu)化企巢,以便得到更好的分類結(jié)果枫慷。
- 模型評估:對模型進(jìn)行評價(jià),并檢查構(gòu)建模型的每個(gè)步驟浪规,確認(rèn)模型是否實(shí)現(xiàn)了預(yù)定的商業(yè)目標(biāo)或听。
- 上線發(fā)布:模型的作用是從數(shù)據(jù)中找到金礦,也就是我們所說的“知識”罗丰,獲得的知識需要轉(zhuǎn)化成用戶可以使用的方式神帅,呈現(xiàn)的形式可以是一份報(bào)告,也可以是實(shí)現(xiàn)一個(gè)比較復(fù)雜的萌抵、可重復(fù)的數(shù)據(jù)挖掘過程找御。數(shù)據(jù)挖掘結(jié)果如果是日常運(yùn)營的一部分元镀,那么后續(xù)的監(jiān)控和維護(hù)就會變得重要。
數(shù)據(jù)挖掘的十大算法為了進(jìn)行數(shù)據(jù)挖掘任務(wù)霎桅,數(shù)據(jù)科學(xué)家們提出了各種模型栖疑,在眾多的數(shù)據(jù)挖掘模型中,國際權(quán)威的學(xué)術(shù)組織 ICDM (the IEEE International Conference on Data Mining)評選出了十大經(jīng)典的算法滔驶。
按照不同的目的遇革,我可以將這些算法分成四類,以便你更好的理解揭糕。
- 分類算法:C4.5萝快,樸素貝葉斯(Naive Bayes),SVM著角,KNN揪漩,Adaboost,CARTl
- 聚類算法:K-Means吏口,EMl
- 關(guān)聯(lián)分析:Aprioril
- 連接分析:PageRank
數(shù)據(jù)挖掘的數(shù)學(xué)原理
如果你不了解概率論和數(shù)理統(tǒng)計(jì)奄容,還是很難掌握算法的本質(zhì);如果你不懂線性代數(shù)产徊,就很難理解矩陣和向量運(yùn)作在數(shù)據(jù)挖掘中的價(jià)值昂勒;如果你沒有最優(yōu)化方法的概念,就對迭代收斂理解不深舟铜。
- 概率論與數(shù)理統(tǒng)計(jì)戈盈。數(shù)據(jù)挖掘里使用到概率論的地方就比較多了。比如條件概率谆刨、獨(dú)立性的概念奕谭,以及隨機(jī)變量、多維隨機(jī)變量的概念痴荐。很多算法的本質(zhì)都與概率論相關(guān)血柳,所以說概率論與數(shù)理統(tǒng)計(jì)是數(shù)據(jù)挖掘的重要數(shù)學(xué)基礎(chǔ)。
- 線性代數(shù)生兆。向量和矩陣是線性代數(shù)中的重要知識點(diǎn)难捌,它被廣泛應(yīng)用到數(shù)據(jù)挖掘中,比如我們經(jīng)常會把對象抽象為矩陣的表示鸦难,一幅圖像就可以抽象出來是一個(gè)矩陣根吁,我們也經(jīng)常計(jì)算特征值和特征向量,用特征向量來近似代表物體的特征合蔽。這個(gè)是大數(shù)據(jù)降維的基本思路击敌。基于矩陣的各種運(yùn)算拴事,以及基于矩陣的理論成熟沃斤,可以幫我們解決很多實(shí)際問題圣蝎,比如 PCA 方法、SVD 方法衡瓶,以及 MF徘公、NMF 方法等在數(shù)據(jù)挖掘中都有廣泛的應(yīng)用。
- 圖論哮针。社交網(wǎng)絡(luò)的興起关面,讓圖論的應(yīng)用也越來越廣。人與人的關(guān)系十厢,可以用圖論上的兩個(gè)節(jié)點(diǎn)來進(jìn)行連接等太,節(jié)點(diǎn)的度可以理解為一個(gè)人的朋友數(shù)。我們都聽說過人脈的六度理論蛮放,在 Facebook 上被證明平均一個(gè)人與另一個(gè)人的連接澈驼,只需要 3.57 個(gè)人。當(dāng)然圖論對于網(wǎng)絡(luò)結(jié)構(gòu)的分析非常有效筛武,同時(shí)圖論也在關(guān)系挖掘和圖像分割中有重要的作用。
- 最優(yōu)化方法挎塌。最優(yōu)化方法相當(dāng)于機(jī)器學(xué)習(xí)中自我學(xué)習(xí)的過程徘六,當(dāng)機(jī)器知道了目標(biāo),訓(xùn)練后與結(jié)果存在偏差就需要迭代調(diào)整榴都,那么最優(yōu)化就是這個(gè)調(diào)整的過程待锈。一般來說,這個(gè)學(xué)習(xí)和迭代的過程是漫長嘴高、隨機(jī)的竿音。最優(yōu)化方法的提出就是用更短的時(shí)間得到收斂,取得更好的效果拴驮。