零基礎數(shù)據(jù)挖掘?qū)W習清單

Table of Contents

  1. 數(shù)據(jù)挖掘基本知識
  2. 數(shù)學基礎
  3. 工具
  4. 文本編輯器
  5. 總結(jié)

先甩片湯話:不知怎么的,就從純工科的學業(yè)到管理工作崗位甘耿,又進入了數(shù)據(jù)挖掘的學習砾赔。一切都是從頭學起旦事,不會寫代碼,(本科學的C++族吻,也只記得課程的名字)帽借,數(shù)學也多年未動,離散數(shù)學從未接觸超歌,這條路步履維艱砍艾。
啥也不說了,有時間抱怨巍举,不如迅速開干脆荷,用了一個月不到,首先明確自己哪里不足(其實就是哪里都不足)懊悯,把自己要補足的東西先碼在這蜓谋,東西有點多,變身炭分!拼了桃焕!
P.S:平時上班,工作也很忙捧毛。按照這個計劃观堂,已經(jīng)進行了2-3個月了让网,已經(jīng)有點感覺了。其實师痕,這兩三個月也沒有塌下心來學寂祥,估計自己半年就可以入門了。
廢話不多七兜,先把自己的學習清單給自己列出來。本人零基礎福扬,所以有些東西很基礎腕铸,高手莫要鄙視。
1 數(shù)據(jù)挖掘基本知識
這一部分主要是看書铛碑,先了解一個情況狠裹。至于用什么書∑常口碑比較好的有《數(shù)據(jù)挖掘:概念與技術(shù)(第3版)》涛菠。我買了,看了一大半撇吞,感覺不太適合初學者俗冻。有些概念直接給出,對于底子不好的人有些突兀牍颈,要是硬著頭皮使勁看迄薄,還是很有收獲的,適合入門以后反復看煮岁。推薦一本很老的書《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》讥蔽,作者:武森等。這本書相對來說不那么厚画机,很多基礎概念也有論述冶伞,對初學者來說很友好。
這一部分的學習是貫穿始終的步氏,有經(jīng)驗的前輩們介紹响禽,什么時候拿出來看看都是有收獲的。

2 數(shù)學基礎
這一部分也是不可或缺的戳护,學一下未必能有感受金抡。學好了,絕對收益無窮腌且。我的計劃是穿插在整個學習過程中梗肝。主要內(nèi)容是:線性代數(shù)、離散數(shù)學铺董。
(1)線性代數(shù)
已經(jīng)學過的巫击,沒學過的都要認真學一下禀晓。國內(nèi)的教材個人以為對概念沒有深入說透。比如特征值和特征向量坝锰,到底干嘛用的粹懒。矩陣的乘法本質(zhì)意義,也沒說清楚顷级。
推薦麻省理工的公開課:線性代數(shù)凫乖。網(wǎng)易公開課就有翻譯好的。附上鏈接:
http://open.163.com/special/opencourse/daishu.html
(2)離散數(shù)學
這個大部分人(不是專業(yè)的)都沒學過弓颈,聽著就頭痛帽芽。別急,不用全學翔冀,重點是圖論导街、代數(shù)系統(tǒng)、命題(謂詞和邏輯)纤子、集合與關(guān)系搬瑰。隨便找一本薄一點的教材。這些內(nèi)容其實之前高中本科都有接觸控硼,主要是一些邏輯符號泽论,思維方式需要看懂。否則在一些地方看到一些莫名其妙的符號卡乾,不了解佩厚,看到一些簡單的公式以為很復雜,得不償失说订。
(3)運籌學
這個絕對是基礎課抄瓦,之所以放在后面是因為本人認真學了。推薦的教材《運籌學》教材編寫組編寫陶冷。一本大厚綠皮書钙姊。對策論等跟博弈論有關(guān)的不用看。有條件的可以把算法在跑一遍埂伦。絕對收獲良多煞额。

3 工具
這部分本人在網(wǎng)上查了很久,課題組問了幾百遍沾谜。最終確認的這幾個膊毁。很多人說有編程經(jīng)驗的人,學一個就一兩周的事基跑,無奈婚温,我零基礎。所以媳否,這一部分絕對是個重點栅螟。先說本人確定的語言:MATLAB荆秦、Python、R力图。
(1)MATLAB
先說MATLAB步绸,別說這個老,別說這個是學校搞學術(shù)才用的吃媒。不想挑起爭論瓤介,主要理由——好上手。上手以后就可以跑一些算法赘那,提高一些信心和學習的樂趣惑朦。教材我隨便找一本厚厚的備查(從來沒翻過)。我主要看的是官方手冊的Primer漓概。然后就開始寫腳本和函數(shù),如果有看不懂的直接百度病梢、google或者help胃珍。寫的都很清楚。這一部分主要是迅速上手蜓陌,我已經(jīng)略有收獲了觅彰。
(2)Python和R
這兩個放在一起,是因為網(wǎng)上關(guān)于這兩個的爭論太多了钮热。本人也無數(shù)次迷失過填抬。不爭論優(yōu)劣,確實是各有優(yōu)勢隧期。我的順序是首先學python飒责,立志以這個作為自己的主要程序。其次再是R仆潮,從畫圖入手宏蛉。R畫出來的圖真是好看。至于學習的思路:先找一本入門的書性置,越簡單越好拾并,學完之后找一本手冊,然后練習鹏浅。
首先python嗅义,先看《Head First Python》。挺好的隐砸。簡單易懂之碗,網(wǎng)上竟然還能下載到英文的PDF。然后是《利用Python進行數(shù)據(jù)分析》和《機器學習實戰(zhàn)》季希。第一本書主要是利用Python做數(shù)據(jù)挖掘的继控,基本提到Python學習都會推薦這本械馆。第二本是理解機器學習的佳作,書中用到的語言就是Python武通。一邊學語言霹崎,一邊理解機器學習。很好的順序冶忱。
其次R尾菇,因為有了前面的一部分基礎,學起來會容易一些囚枪。主要推薦教材是《R語言初學者指南》和《R語言實戰(zhàn)》派诬。這部分的學習我準備跳著看,早期主要利用R來畫圖链沼。然后步步深入著學習默赂。這樣才能充分的練習,而不僅僅是紙上談兵括勺。
(3)Mysql
最后加一個缆八,了解一點Mysql,由于零基礎對數(shù)據(jù)的各種都不了解疾捍,強烈推薦一周讀完《深入淺出Mysql》奈辰。難度不大,主要是入門乱豆。如果以后用得著奖恰,再深入研究。
再次重申一遍:這一階段還是要找程序?qū)懲鹪!H绻泄ぷ骰蛘唔椖可校苯由希瑢W的最快揩尸。如果沒有翰守,找篇不錯的,感興趣的博士論文疲酌,跑一遍里邊的程序蜡峰。這部分內(nèi)容不是學出來的,絕對練出來的朗恳。
4.算法
算法太多了湿颅,常見的就那些。一方面要看明白粥诫,理解算法油航。另一方面用上面的語言跑出來。既能理解算法怀浆,也能很好的熟悉語言谊囚。

4 文本編輯器
直接上干貨怕享。Emacs org-mode。這部分是等進入高階階段要學的東西镰踏。不是因為難函筋,不是因為不好。主要是因為這個不是本人現(xiàn)在的當務之急奠伪〉剩看別人用的,心理癢癢绊率,確實很好谨敛。所以,姑且放在這里滤否。

5 總結(jié)
整個入門階段脸狸,千萬不要抱著學完一個在學一個的思想。同時學藐俺!比如炊甲,語言入門了,就找算法實踐紊搪。看到一個算法全景,一定要程序跑出來耀石。中間累了,把數(shù)學基礎補一補爸黄≈臀埃看算法的時候,數(shù)學哪里不懂炕贵,百度哪里梆奈。
總結(jié)一句話:反復實踐。半年入門称开。
(有需要亩钟,歡迎交流,需要什么資料鳖轰,本人有的話可以分享清酥。)

Created: 2016-01-27 Wed 19:34
Emacs 24.5.1 (Org mode 8.2.10)
Validate

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市蕴侣,隨后出現(xiàn)的幾起案子焰轻,更是在濱河造成了極大的恐慌,老刑警劉巖昆雀,帶你破解...
    沈念sama閱讀 222,000評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件辱志,死亡現(xiàn)場離奇詭異蝠筑,居然都是意外死亡,警方通過查閱死者的電腦和手機揩懒,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,745評論 3 399
  • 文/潘曉璐 我一進店門什乙,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人旭从,你說我怎么就攤上這事稳强。” “怎么了和悦?”我有些...
    開封第一講書人閱讀 168,561評論 0 360
  • 文/不壞的土叔 我叫張陵退疫,是天一觀的道長。 經(jīng)常有香客問我鸽素,道長褒繁,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,782評論 1 298
  • 正文 為了忘掉前任馍忽,我火速辦了婚禮棒坏,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘遭笋。我一直安慰自己坝冕,他們只是感情好,可當我...
    茶點故事閱讀 68,798評論 6 397
  • 文/花漫 我一把揭開白布瓦呼。 她就那樣靜靜地躺著喂窟,像睡著了一般。 火紅的嫁衣襯著肌膚如雪央串。 梳的紋絲不亂的頭發(fā)上磨澡,一...
    開封第一講書人閱讀 52,394評論 1 310
  • 那天,我揣著相機與錄音质和,去河邊找鬼稳摄。 笑死,一個胖子當著我的面吹牛饲宿,可吹牛的內(nèi)容都是我干的厦酬。 我是一名探鬼主播,決...
    沈念sama閱讀 40,952評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼瘫想,長吁一口氣:“原來是場噩夢啊……” “哼弃锐!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起殿托,我...
    開封第一講書人閱讀 39,852評論 0 276
  • 序言:老撾萬榮一對情侶失蹤霹菊,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體旋廷,經(jīng)...
    沈念sama閱讀 46,409評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡鸠按,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,483評論 3 341
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了饶碘。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片目尖。...
    茶點故事閱讀 40,615評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖扎运,靈堂內(nèi)的尸體忽然破棺而出瑟曲,到底是詐尸還是另有隱情,我是刑警寧澤豪治,帶...
    沈念sama閱讀 36,303評論 5 350
  • 正文 年R本政府宣布洞拨,位于F島的核電站,受9級特大地震影響负拟,放射性物質(zhì)發(fā)生泄漏烦衣。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,979評論 3 334
  • 文/蒙蒙 一掩浙、第九天 我趴在偏房一處隱蔽的房頂上張望花吟。 院中可真熱鬧,春花似錦厨姚、人聲如沸衅澈。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,470評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽今布。三九已至,卻和暖如春芭梯,著一層夾襖步出監(jiān)牢的瞬間险耀,已是汗流浹背弄喘。 一陣腳步聲響...
    開封第一講書人閱讀 33,571評論 1 272
  • 我被黑心中介騙來泰國打工玖喘, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人蘑志。 一個月前我還...
    沈念sama閱讀 49,041評論 3 377
  • 正文 我出身青樓累奈,卻偏偏與公主長得像,于是被迫代替她去往敵國和親急但。 傳聞我的和親對象是個殘疾皇子澎媒,可洞房花燭夜當晚...
    茶點故事閱讀 45,630評論 2 359

推薦閱讀更多精彩內(nèi)容