數(shù)據(jù)分析實(shí)戰(zhàn)45講 筆記一

你為什么需要數(shù)據(jù)分析能力?

我們生活在數(shù)據(jù)驅(qū)動一切的時(shí)代讶舰,數(shù)據(jù)挖掘和數(shù)據(jù)分析就是這個(gè)時(shí)代的“淘金”鞍盗,從國家、企業(yè)跳昼、組織到個(gè)人般甲,都一定會關(guān)注各種數(shù)據(jù),從這些數(shù)據(jù)中得到價(jià)值庐舟。

數(shù)據(jù)分析的核心就是培養(yǎng)數(shù)據(jù)思維欣除,掌握挖掘工具,熟練實(shí)踐并積累經(jīng)驗(yàn)挪略。

MAS 方法

  1. Multi-Dimension:想要掌握一個(gè)事物历帚,就要從多個(gè)角度去認(rèn)識它。
  2. Ask:不懂就問杠娱,程序員大多都很羞澀挽牢,突破這一點(diǎn),不懂就問最重要摊求。
  3. Sharing:最好的學(xué)習(xí)就是分享禽拔。用自己的語言講出來,是對知識的進(jìn)一步梳理。

怎么和數(shù)據(jù)分析建立多維度連接呢睹栖?我特意把內(nèi)容分成了三個(gè)大類硫惕。第一類是基礎(chǔ)概念。這是我們學(xué)習(xí)的基礎(chǔ)野来,一定不能落下恼除。第二類是工具。這個(gè)部分可以很好地鍛煉你的實(shí)操能力曼氛。第三類是題庫豁辉。題庫的作用是幫你查漏補(bǔ)缺,在這個(gè)過程中舀患,你會情不自禁地進(jìn)行思考徽级。

01丨數(shù)據(jù)分析全景圖及修煉指南

數(shù)據(jù)分析分成三個(gè)重要的組成部分

  1. 數(shù)據(jù)采集。它是我們的原材料聊浅,也是最“接地氣”的部分餐抢,因?yàn)槿魏畏治龆家袛?shù)據(jù)源。
  2. 數(shù)據(jù)挖掘狗超。它可以說是最“高大上”的部分弹澎,也是整個(gè)商業(yè)價(jià)值所在。之所以要進(jìn)行數(shù)據(jù)分析努咐,就是要找到其中的規(guī)律苦蒿,來指導(dǎo)我們的業(yè)務(wù)。因此數(shù)據(jù)挖掘的核心是挖掘數(shù)據(jù)的商業(yè)價(jià)值渗稍,也就是我們所談的商業(yè)智能 BI佩迟。它可以說是知識型的工程,相當(dāng)于整個(gè)專欄中的“算法”部分竿屹。首先你要知道它的基本流程报强、十大算法、以及背后的數(shù)學(xué)基礎(chǔ)拱燃。
  3. 數(shù)據(jù)可視化秉溉。它可以說是數(shù)據(jù)領(lǐng)域中萬金油的技能,可以讓我們直觀地了解到數(shù)據(jù)分析的結(jié)果碗誉。


    image.png

    image.png

    image.png

    image.png

作者給的學(xué)習(xí)建議:認(rèn)知三步曲召嘶,從認(rèn)知到工具,再到實(shí)戰(zhàn)哮缺。


image.png

記錄下你每天的認(rèn)知弄跌。尤其是每次課程后,對知識點(diǎn)的自我理解尝苇。這些認(rèn)知對應(yīng)工具的哪些操作铛只。用工具來表達(dá)你對知識點(diǎn)的掌握埠胖,并用自己的語言記錄下這些操作筆記。做更多練習(xí)來鞏固你的認(rèn)知淳玩。我們學(xué)習(xí)的內(nèi)容對于大部分外人來說直撤,就像“開車”一樣,很酷蜕着。我們學(xué)習(xí)的內(nèi)容谊惭,對于要掌握的人來說,也像“開車”一樣侮东,其實(shí)并不難,而且很多人已經(jīng)上路了豹芯。你需要的就是更多的練習(xí)悄雅。

02丨學(xué)習(xí)數(shù)據(jù)挖掘的最佳路徑是什么?

數(shù)據(jù)挖掘的基本流程

  1. 商業(yè)理解:數(shù)據(jù)挖掘不是我們的目的铁蹈,我們的目的是更好地幫助業(yè)務(wù)宽闲,所以第一步我們要從商業(yè)的角度理解項(xiàng)目需求,在這個(gè)基礎(chǔ)上握牧,再對數(shù)據(jù)挖掘的目標(biāo)進(jìn)行定義容诬。
  2. 數(shù)據(jù)理解:嘗試收集部分?jǐn)?shù)據(jù),然后對數(shù)據(jù)進(jìn)行探索沿腰,包括數(shù)據(jù)描述览徒、數(shù)據(jù)質(zhì)量驗(yàn)證等。這有助于你對收集的數(shù)據(jù)有個(gè)初步的認(rèn)知颂龙。
  3. 數(shù)據(jù)準(zhǔn)備:開始收集數(shù)據(jù)习蓬,并對數(shù)據(jù)進(jìn)行清洗、數(shù)據(jù)集成等操作措嵌,完成數(shù)據(jù)挖掘前的準(zhǔn)備工作躲叼。
  4. 模型建立:選擇和應(yīng)用各種數(shù)據(jù)挖掘模型,并進(jìn)行優(yōu)化企巢,以便得到更好的分類結(jié)果枫慷。
  5. 模型評估:對模型進(jìn)行評價(jià),并檢查構(gòu)建模型的每個(gè)步驟浪规,確認(rèn)模型是否實(shí)現(xiàn)了預(yù)定的商業(yè)目標(biāo)或听。
  6. 上線發(fā)布:模型的作用是從數(shù)據(jù)中找到金礦,也就是我們所說的“知識”罗丰,獲得的知識需要轉(zhuǎn)化成用戶可以使用的方式神帅,呈現(xiàn)的形式可以是一份報(bào)告,也可以是實(shí)現(xiàn)一個(gè)比較復(fù)雜的萌抵、可重復(fù)的數(shù)據(jù)挖掘過程找御。數(shù)據(jù)挖掘結(jié)果如果是日常運(yùn)營的一部分元镀,那么后續(xù)的監(jiān)控和維護(hù)就會變得重要。

數(shù)據(jù)挖掘的十大算法為了進(jìn)行數(shù)據(jù)挖掘任務(wù)霎桅,數(shù)據(jù)科學(xué)家們提出了各種模型栖疑,在眾多的數(shù)據(jù)挖掘模型中,國際權(quán)威的學(xué)術(shù)組織 ICDM (the IEEE International Conference on Data Mining)評選出了十大經(jīng)典的算法滔驶。
按照不同的目的遇革,我可以將這些算法分成四類,以便你更好的理解揭糕。

  • 分類算法:C4.5萝快,樸素貝葉斯(Naive Bayes),SVM著角,KNN揪漩,Adaboost,CARTl
  • 聚類算法:K-Means吏口,EMl
  • 關(guān)聯(lián)分析:Aprioril
  • 連接分析:PageRank

數(shù)據(jù)挖掘的數(shù)學(xué)原理
如果你不了解概率論和數(shù)理統(tǒng)計(jì)奄容,還是很難掌握算法的本質(zhì);如果你不懂線性代數(shù)产徊,就很難理解矩陣和向量運(yùn)作在數(shù)據(jù)挖掘中的價(jià)值昂勒;如果你沒有最優(yōu)化方法的概念,就對迭代收斂理解不深舟铜。

  1. 概率論與數(shù)理統(tǒng)計(jì)戈盈。數(shù)據(jù)挖掘里使用到概率論的地方就比較多了。比如條件概率谆刨、獨(dú)立性的概念奕谭,以及隨機(jī)變量、多維隨機(jī)變量的概念痴荐。很多算法的本質(zhì)都與概率論相關(guān)血柳,所以說概率論與數(shù)理統(tǒng)計(jì)是數(shù)據(jù)挖掘的重要數(shù)學(xué)基礎(chǔ)。
  2. 線性代數(shù)生兆。向量和矩陣是線性代數(shù)中的重要知識點(diǎn)难捌,它被廣泛應(yīng)用到數(shù)據(jù)挖掘中,比如我們經(jīng)常會把對象抽象為矩陣的表示鸦难,一幅圖像就可以抽象出來是一個(gè)矩陣根吁,我們也經(jīng)常計(jì)算特征值和特征向量,用特征向量來近似代表物體的特征合蔽。這個(gè)是大數(shù)據(jù)降維的基本思路击敌。基于矩陣的各種運(yùn)算拴事,以及基于矩陣的理論成熟沃斤,可以幫我們解決很多實(shí)際問題圣蝎,比如 PCA 方法、SVD 方法衡瓶,以及 MF徘公、NMF 方法等在數(shù)據(jù)挖掘中都有廣泛的應(yīng)用。
  3. 圖論哮针。社交網(wǎng)絡(luò)的興起关面,讓圖論的應(yīng)用也越來越廣。人與人的關(guān)系十厢,可以用圖論上的兩個(gè)節(jié)點(diǎn)來進(jìn)行連接等太,節(jié)點(diǎn)的度可以理解為一個(gè)人的朋友數(shù)。我們都聽說過人脈的六度理論蛮放,在 Facebook 上被證明平均一個(gè)人與另一個(gè)人的連接澈驼,只需要 3.57 個(gè)人。當(dāng)然圖論對于網(wǎng)絡(luò)結(jié)構(gòu)的分析非常有效筛武,同時(shí)圖論也在關(guān)系挖掘和圖像分割中有重要的作用。
  4. 最優(yōu)化方法挎塌。最優(yōu)化方法相當(dāng)于機(jī)器學(xué)習(xí)中自我學(xué)習(xí)的過程徘六,當(dāng)機(jī)器知道了目標(biāo),訓(xùn)練后與結(jié)果存在偏差就需要迭代調(diào)整榴都,那么最優(yōu)化就是這個(gè)調(diào)整的過程待锈。一般來說,這個(gè)學(xué)習(xí)和迭代的過程是漫長嘴高、隨機(jī)的竿音。最優(yōu)化方法的提出就是用更短的時(shí)間得到收斂,取得更好的效果拴驮。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末春瞬,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子套啤,更是在濱河造成了極大的恐慌宽气,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件潜沦,死亡現(xiàn)場離奇詭異萄涯,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)唆鸡,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進(jìn)店門涝影,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人争占,你說我怎么就攤上這事燃逻⌒蚰浚” “怎么了?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵唆樊,是天一觀的道長宛琅。 經(jīng)常有香客問我,道長逗旁,這世上最難降的妖魔是什么嘿辟? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮片效,結(jié)果婚禮上红伦,老公的妹妹穿的比我還像新娘。我一直安慰自己淀衣,他們只是感情好昙读,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著膨桥,像睡著了一般蛮浑。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上只嚣,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天沮稚,我揣著相機(jī)與錄音,去河邊找鬼册舞。 笑死蕴掏,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的调鲸。 我是一名探鬼主播盛杰,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼藐石!你這毒婦竟也來了即供?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤于微,失蹤者是張志新(化名)和其女友劉穎募狂,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體角雷,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡祸穷,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了勺三。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片雷滚。...
    茶點(diǎn)故事閱讀 38,117評論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖吗坚,靈堂內(nèi)的尸體忽然破棺而出祈远,到底是詐尸還是另有隱情呆万,我是刑警寧澤,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布车份,位于F島的核電站谋减,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏扫沼。R本人自食惡果不足惜出爹,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望缎除。 院中可真熱鬧严就,春花似錦、人聲如沸器罐。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽轰坊。三九已至铸董,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間肴沫,已是汗流浹背粟害。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留樊零,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓孽文,卻偏偏與公主長得像驻襟,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子芋哭,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內(nèi)容

  • 原文引自 豆瓣《數(shù)學(xué)之美》-筆記總結(jié) 第1章 文字和語言vs數(shù)字和信息 講述了文字沉衣、數(shù)字和語言的歷史,目的是幫助...
    _Haimei閱讀 1,501評論 0 3
  • 概率論與數(shù)理統(tǒng)計(jì) 無窮小階數(shù) 無窮小量表述:線性逼近 相當(dāng)于利用切線和斜率來理解誤差和逼近减牺。 泰勒級數(shù):線性逼近 ...
    Babus閱讀 808評論 0 1
  • 前面的文章主要從理論的角度介紹了自然語言人機(jī)對話系統(tǒng)所可能涉及到的多個(gè)領(lǐng)域的經(jīng)典模型和基礎(chǔ)知識豌习。這篇文章,甚至之后...
    我偏笑_NSNirvana閱讀 13,868評論 2 64
  • 寫在之前 因簡書導(dǎo)入公式很麻煩拔疚,如果想獲得更好的觀看體驗(yàn)請移步https://www.zybuluo.com/ha...
    hainingwyx閱讀 6,808評論 2 13
  • RSHandbook筆記P1C1:推薦系統(tǒng)中的數(shù)據(jù)挖掘方法 標(biāo)簽: 推薦系統(tǒng)HandBook筆記 由于簡書不支持l...
    littlekid閱讀 1,220評論 0 5