1.數(shù)據(jù)挖掘基本知識
這一部分主要是看書枝嘶,先了解一個情況帘饶。至于用什么書∪悍觯口碑比較好的有《數(shù)據(jù)挖掘:概念與技術(shù)(第3版)》及刻。我買了,看了一大半竞阐,感覺不太適合初學(xué)者缴饭。有些概念直接給出,對于底子不好的人有些突兀骆莹,要是硬著頭皮使勁看颗搂,還是很有收獲的,適合入門以后反復(fù)看幕垦。推薦一本很老的書《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》丢氢。這本書相對來說不那么厚,很多基礎(chǔ)概念也有論述先改,對初學(xué)者來說很友好疚察。
這一部分的學(xué)習(xí)是貫穿始終的,有經(jīng)驗的前輩們介紹仇奶,什么時候拿出來看看都是有收獲的貌嫡。
2.數(shù)學(xué)基礎(chǔ)
這一部分也是不可或缺的,學(xué)一下未必能有感受猜嘱。學(xué)好了衅枫,絕對收益無窮。我的計劃是穿插在整個學(xué)習(xí)過程中朗伶。主要內(nèi)容是:線性代數(shù)弦撩、離散數(shù)學(xué)。
(1)線性代數(shù)
已經(jīng)學(xué)過的论皆,沒學(xué)過的都要認(rèn)真學(xué)一下益楼。國內(nèi)的教材個人以為對概念沒有深入說透猾漫。比如特征值和特征向量,到底干嘛用的感凤。矩陣的乘法本質(zhì)意義悯周,也沒說清楚。
(2)離散數(shù)學(xué)
這個大部分人(不是專業(yè)的)都沒學(xué)過陪竿,聽著就頭痛禽翼。別急,不用全學(xué)族跛,重點是圖論闰挡、代數(shù)系統(tǒng)、命題(謂詞和邏輯)礁哄、集合與關(guān)系长酗。隨便找一本薄一點的教材。這些內(nèi)容其實之前高中本科都有接觸桐绒,主要是一些邏輯符號夺脾,思維方式需要看懂。否則在一些地方看到一些莫名其妙的符號茉继,不了解咧叭,看到一些簡單的公式以為很復(fù)雜,得不償失馒疹。
(3)運籌學(xué)
這個絕對是基礎(chǔ)課佳簸,之所以放在后面是因為本人認(rèn)真學(xué)了。推薦的教材《運籌學(xué)》教材編寫組編寫颖变。一本大厚綠皮書生均。對策論等跟博弈論有關(guān)的不用看。有條件的可以把算法在跑一遍腥刹。絕對收獲良多马胧。
3.工具
這部分本人在網(wǎng)上查了很久,課題組問了幾百遍衔峰。最終確認(rèn)的這幾個佩脊。很多人說有編程經(jīng)驗的人,學(xué)一個就一兩周的事垫卤,無奈威彰,我零基礎(chǔ)。所以穴肘,這一部分絕對是個重點歇盼。先說本人確定的語言:MATLAB、Python评抚、R豹缀。
(1)MATLAB
先說MATLAB伯复,別說這個老,別說這個是學(xué)校搞學(xué)術(shù)才用的邢笙。不想挑起爭論啸如,主要理由——好上手。上手以后就可以跑一些算法氮惯,提高一些信心和學(xué)習(xí)的樂趣叮雳。教材我隨便找一本厚厚的備查(從來沒翻過)。我主要看的是官方手冊的Primer妇汗。然后就開始寫腳本和函數(shù)债鸡,如果有看不懂的直接百度、google或者h(yuǎn)elp铛纬。寫的都很清楚。這一部分主要是迅速上手唬滑,我已經(jīng)略有收獲了告唆。
(2)Python和R
這兩個放在一起,是因為網(wǎng)上關(guān)于這兩個的爭論太多了晶密。本人也無數(shù)次迷失過擒悬。不爭論優(yōu)劣,確實是各有優(yōu)勢稻艰。我的順序是首先學(xué)python懂牧,立志以這個作為自己的主要程序。其次再是R尊勿,從畫圖入手僧凤。R畫出來的圖真是好看。至于學(xué)習(xí)的思路:先找一本入門的書元扔,越簡單越好躯保,學(xué)完之后找一本手冊,然后練習(xí)澎语。
首先python途事,先看《Head First Python》。挺好的擅羞。簡單易懂尸变,網(wǎng)上竟然還能下載到英文的PDF。然后是《利用Python進(jìn)行數(shù)據(jù)分析》和《機(jī)器學(xué)習(xí)實戰(zhàn)》减俏。第一本書主要是利用Python做數(shù)據(jù)挖掘的召烂,基本提到Python學(xué)習(xí)都會推薦這本。第二本是理解機(jī)器學(xué)習(xí)的佳作垄懂,書中用到的語言就是Python骑晶。一邊學(xué)語言痛垛,一邊理解機(jī)器學(xué)習(xí)。很好的順序桶蛔。
其次R匙头,因為有了前面的一部分基礎(chǔ),學(xué)起來會容易一些仔雷。主要推薦教材是《R語言初學(xué)者指南》和《R語言實戰(zhàn)》蹂析。這部分的學(xué)習(xí)我準(zhǔn)備跳著看,早期主要利用R來畫圖碟婆。然后步步深入著學(xué)習(xí)电抚。這樣才能充分的練習(xí),而不僅僅是紙上談兵竖共。
(3)Mysql
最后加一個蝙叛,了解一點Mysql,由于零基礎(chǔ)對數(shù)據(jù)的各種都不了解公给,強(qiáng)烈推薦一周讀完《深入淺出Mysql》借帘。難度不大,主要是入門淌铐。如果以后用得著肺然,再深入研究。
再次重申一遍:這一階段還是要找程序?qū)懲茸肌H绻泄ぷ骰蛘唔椖考势穑苯由希瑢W(xué)的最快吐葱。如果沒有街望,找篇不錯的,感興趣的博士論文唇撬,跑一遍里邊的程序它匕。這部分內(nèi)容不是學(xué)出來的,絕對練出來的窖认。
4.算法
算法太多了豫柬,常見的就那些。一方面要看明白扑浸,理解算法烧给。另一方面用上面的語言跑出來。既能理解算法喝噪,也能很好的熟悉語言础嫡。
總結(jié)
整個入門階段,千萬不要抱著學(xué)完一個在學(xué)一個的思想。同時學(xué)榴鼎!比如伯诬,語言入門了,就找算法實踐巫财〉了疲看到一個算法,一定要程序跑出來平项。中間累了赫舒,把數(shù)學(xué)基礎(chǔ)補一補