Table of Contents
- 數(shù)據(jù)挖掘基本知識
- 數(shù)學基礎
- 工具
- 文本編輯器
- 總結(jié)
先甩片湯話:不知怎么的,就從純工科的學業(yè)到管理工作崗位甘耿,又進入了數(shù)據(jù)挖掘的學習砾赔。一切都是從頭學起旦事,不會寫代碼,(本科學的C++族吻,也只記得課程的名字)帽借,數(shù)學也多年未動,離散數(shù)學從未接觸超歌,這條路步履維艱砍艾。
啥也不說了,有時間抱怨巍举,不如迅速開干脆荷,用了一個月不到,首先明確自己哪里不足(其實就是哪里都不足)懊悯,把自己要補足的東西先碼在這蜓谋,東西有點多,變身炭分!拼了桃焕!
P.S:平時上班,工作也很忙捧毛。按照這個計劃观堂,已經(jīng)進行了2-3個月了让网,已經(jīng)有點感覺了。其實师痕,這兩三個月也沒有塌下心來學寂祥,估計自己半年就可以入門了。
廢話不多七兜,先把自己的學習清單給自己列出來。本人零基礎福扬,所以有些東西很基礎腕铸,高手莫要鄙視。
1 數(shù)據(jù)挖掘基本知識
這一部分主要是看書铛碑,先了解一個情況狠裹。至于用什么書∑常口碑比較好的有《數(shù)據(jù)挖掘:概念與技術(shù)(第3版)》涛菠。我買了,看了一大半撇吞,感覺不太適合初學者俗冻。有些概念直接給出,對于底子不好的人有些突兀牍颈,要是硬著頭皮使勁看迄薄,還是很有收獲的,適合入門以后反復看煮岁。推薦一本很老的書《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》讥蔽,作者:武森等。這本書相對來說不那么厚画机,很多基礎概念也有論述冶伞,對初學者來說很友好。
這一部分的學習是貫穿始終的步氏,有經(jīng)驗的前輩們介紹响禽,什么時候拿出來看看都是有收獲的。
2 數(shù)學基礎
這一部分也是不可或缺的戳护,學一下未必能有感受金抡。學好了,絕對收益無窮腌且。我的計劃是穿插在整個學習過程中梗肝。主要內(nèi)容是:線性代數(shù)、離散數(shù)學铺董。
(1)線性代數(shù)
已經(jīng)學過的巫击,沒學過的都要認真學一下禀晓。國內(nèi)的教材個人以為對概念沒有深入說透。比如特征值和特征向量坝锰,到底干嘛用的粹懒。矩陣的乘法本質(zhì)意義,也沒說清楚顷级。
推薦麻省理工的公開課:線性代數(shù)凫乖。網(wǎng)易公開課就有翻譯好的。附上鏈接:
http://open.163.com/special/opencourse/daishu.html
(2)離散數(shù)學
這個大部分人(不是專業(yè)的)都沒學過弓颈,聽著就頭痛帽芽。別急,不用全學翔冀,重點是圖論导街、代數(shù)系統(tǒng)、命題(謂詞和邏輯)纤子、集合與關(guān)系搬瑰。隨便找一本薄一點的教材。這些內(nèi)容其實之前高中本科都有接觸控硼,主要是一些邏輯符號泽论,思維方式需要看懂。否則在一些地方看到一些莫名其妙的符號卡乾,不了解佩厚,看到一些簡單的公式以為很復雜,得不償失说订。
(3)運籌學
這個絕對是基礎課抄瓦,之所以放在后面是因為本人認真學了。推薦的教材《運籌學》教材編寫組編寫陶冷。一本大厚綠皮書钙姊。對策論等跟博弈論有關(guān)的不用看。有條件的可以把算法在跑一遍埂伦。絕對收獲良多煞额。
3 工具
這部分本人在網(wǎng)上查了很久,課題組問了幾百遍沾谜。最終確認的這幾個膊毁。很多人說有編程經(jīng)驗的人,學一個就一兩周的事基跑,無奈婚温,我零基礎。所以媳否,這一部分絕對是個重點栅螟。先說本人確定的語言:MATLAB荆秦、Python、R力图。
(1)MATLAB
先說MATLAB步绸,別說這個老,別說這個是學校搞學術(shù)才用的吃媒。不想挑起爭論瓤介,主要理由——好上手。上手以后就可以跑一些算法赘那,提高一些信心和學習的樂趣惑朦。教材我隨便找一本厚厚的備查(從來沒翻過)。我主要看的是官方手冊的Primer漓概。然后就開始寫腳本和函數(shù),如果有看不懂的直接百度病梢、google或者help胃珍。寫的都很清楚。這一部分主要是迅速上手蜓陌,我已經(jīng)略有收獲了觅彰。
(2)Python和R
這兩個放在一起,是因為網(wǎng)上關(guān)于這兩個的爭論太多了钮热。本人也無數(shù)次迷失過填抬。不爭論優(yōu)劣,確實是各有優(yōu)勢隧期。我的順序是首先學python飒责,立志以這個作為自己的主要程序。其次再是R仆潮,從畫圖入手宏蛉。R畫出來的圖真是好看。至于學習的思路:先找一本入門的書性置,越簡單越好拾并,學完之后找一本手冊,然后練習鹏浅。
首先python嗅义,先看《Head First Python》。挺好的隐砸。簡單易懂之碗,網(wǎng)上竟然還能下載到英文的PDF。然后是《利用Python進行數(shù)據(jù)分析》和《機器學習實戰(zhàn)》季希。第一本書主要是利用Python做數(shù)據(jù)挖掘的继控,基本提到Python學習都會推薦這本械馆。第二本是理解機器學習的佳作,書中用到的語言就是Python武通。一邊學語言霹崎,一邊理解機器學習。很好的順序冶忱。
其次R尾菇,因為有了前面的一部分基礎,學起來會容易一些囚枪。主要推薦教材是《R語言初學者指南》和《R語言實戰(zhàn)》派诬。這部分的學習我準備跳著看,早期主要利用R來畫圖链沼。然后步步深入著學習默赂。這樣才能充分的練習,而不僅僅是紙上談兵括勺。
(3)Mysql
最后加一個缆八,了解一點Mysql,由于零基礎對數(shù)據(jù)的各種都不了解疾捍,強烈推薦一周讀完《深入淺出Mysql》奈辰。難度不大,主要是入門乱豆。如果以后用得著奖恰,再深入研究。
再次重申一遍:這一階段還是要找程序?qū)懲鹪!H绻泄ぷ骰蛘唔椖可校苯由希瑢W的最快揩尸。如果沒有翰守,找篇不錯的,感興趣的博士論文疲酌,跑一遍里邊的程序蜡峰。這部分內(nèi)容不是學出來的,絕對練出來的朗恳。
4.算法
算法太多了湿颅,常見的就那些。一方面要看明白粥诫,理解算法油航。另一方面用上面的語言跑出來。既能理解算法怀浆,也能很好的熟悉語言谊囚。
4 文本編輯器
直接上干貨怕享。Emacs org-mode。這部分是等進入高階階段要學的東西镰踏。不是因為難函筋,不是因為不好。主要是因為這個不是本人現(xiàn)在的當務之急奠伪〉剩看別人用的,心理癢癢绊率,確實很好谨敛。所以,姑且放在這里滤否。
5 總結(jié)
整個入門階段脸狸,千萬不要抱著學完一個在學一個的思想。同時學藐俺!比如炊甲,語言入門了,就找算法實踐紊搪。看到一個算法全景,一定要程序跑出來耀石。中間累了,把數(shù)學基礎補一補爸黄≈臀埃看算法的時候,數(shù)學哪里不懂炕贵,百度哪里梆奈。
總結(jié)一句話:反復實踐。半年入門称开。
(有需要亩钟,歡迎交流,需要什么資料鳖轰,本人有的話可以分享清酥。)
Created: 2016-01-27 Wed 19:34
Emacs 24.5.1 (Org mode 8.2.10)
Validate