http://tieba.baidu.com/p/3226108693
1. 閑話篇
機(jī)器學(xué)習(xí)(ML)晋南,自然語言處理(NLP),神馬的羔砾,最近太火了负间。。姜凄。不知道再過幾年政溃,大家都玩兒ML,還會不會繼續(xù)火下去态秧。董虱。。需要有人繼續(xù)再添點(diǎn)柴火才行申鱼。本人僅僅是一個迷途小書童愤诱,知識有限,還望各位ML大神多多指點(diǎn):)淫半。
最近想系統(tǒng)地收拾一下ML的現(xiàn)有工具,發(fā)現(xiàn)比較好的應(yīng)該是這個http://scikit-learn.org/stable/index.html匣砖。
對于初學(xué)和進(jìn)階階段的ML研究者們是個不錯的選擇科吭。不過美中不足的是少了Large-scale ML的一些,畢竟這是單機(jī)的猴鲫。后面琢磨琢磨对人,寫個ADMM(今年ICML劇多相關(guān)的論文)的吧,這個之前在MSRA的Learning Group做過一個Turtorial.
尤其是他的參考手冊拂共,更是沒有太多廢話规伐,都能一針見血地講明重點(diǎn):http://scikit-learn.org/stable/user_guide.html
其實(shí)不要指望這個工具包能有啥新的東西,不過就是這些經(jīng)典的東西匣缘,要是你真掌握了,也基本God Like鲜棠!了肌厨。:),特別是你用ML創(chuàng)業(yè)的時候豁陆,可能真能用上一兩個思路柑爸,也就是被訓(xùn)練出來的思想估計(jì)是大學(xué)能留下來的,剩下的都在狗肚子里盒音。
我們來大致瀏覽一下這個系統(tǒng)的ML工具的功能表鳍,整體內(nèi)容較多馅而,我們逐步更新,想具體了解哪個部分的童鞋可以留言譬圣,我一下子還真很難都詳細(xì)介紹(我會基本上保證一周更新一個小章節(jié)瓮恭,逐步學(xué)習(xí)。首先弄懂模型原理厘熟,講出來屯蹦,然后使用對應(yīng)數(shù)據(jù)實(shí)戰(zhàn)一下,貼出代碼绳姨,作圖登澜,最后利用測試結(jié)果適當(dāng)比較一下模型之間的差異),所有的代碼飘庄,我都會后續(xù)貼到CSDN或者Github上面脑蠕。
---------------------------------------------------華麗麗的分割線---------------------------------------------------------
2. 配置篇
推薦學(xué)習(xí)配置:python 2.7, pycharm IDE (這個Python的IDE不錯,推薦大家用下跪削,如果用過Eclipse寫Java谴仙,這個上手會很快), numpy, scipy切揭。其他還有一些需要下載的包狞甚,大家可以邊配置邊有問題留言,建議在windows下面弄弄就行廓旬,我基本不用Linux哼审。
有些小伙伴建議我也詳細(xì)講講在windows下的配置。的確孕豹,這一系列的配置還真心沒有那么簡單涩盾,我特地找了一臺windows7 Ultimiate SP1 x64 的裸機(jī)來重現(xiàn)一下整體配置過程。
首先是Python 2.7 (切記Python 3.x 和2.x的版本完全不是一路貨励背,不存在3.x向下兼容的問題春霍,所以,如果哪位小伙伴為了追求軟件版本高而不小心安裝了python 3.x叶眉,我只能說址儒。。好吧衅疙。莲趣。你被坑了。最簡單的理解饱溢,你可以認(rèn)為這兩個Python版本壓根就不是一門相同的編程語言喧伞,就連print的語法都不同)
1. Python 2.7.x? 在 x64 windows平臺下的解釋器。具體下載地址:https://www.python.org/download/releases/2.7.8/注意64位的是這個 Windows X86-64 MSI Installer (2.7.8)
測試這個Python是否在你的環(huán)境里配置好,你可以在命令行里直接輸入python潘鲫,如果報(bào)錯翁逞,那么你需要手動配置一下環(huán)境,這個大家上網(wǎng)搜就可以解決(簡單說溉仑,在環(huán)境變量PATH里把你的Python的安裝文件夾路徑寫進(jìn)去)挖函。
2. 然后安裝Pycharm,這個是我在Hulu實(shí)習(xí)的時候用到過的IDE彼念,還是濤哥推薦的挪圾,還不錯。因?yàn)橛姓媸召M(fèi)的問題逐沙,推薦大家下載它的(community)版http://www.jetbrains.com/pycharm/download/哲思。安裝好后,它應(yīng)該會讓你選擇剛才安裝好的Python的解釋器吩案,這樣你就可以做一些簡單的python編程了棚赔,用過eclipse的人,這個上手非撑枪快靠益。
3. 接著就需要配置跟sklearn有關(guān)的一系列Python的擴(kuò)展包了。這個美國加州一個學(xué)校的一個非官方網(wǎng)站張貼了所有windows直接安裝的版本http://www.lfd.uci.edu/~gohlke/pythonlibs/残揉,特別實(shí)用胧后,大家到里面去下載跟python 2.7 amd64有關(guān)的安裝包。然后直接下載運(yùn)行即可抱环。需要下載的一系列擴(kuò)展包的列表(按照依賴順序):Numpy-MKL, SciPy, Scikit-learn壳快。有了這些就可以學(xué)習(xí)Scikit-learn這個工具包了。
4. 此外镇草,如果想像我一樣眶痰,同時可以畫圖,那么就需要matplotlib梯啤,這個也有一個網(wǎng)站手冊http://matplotlib.org/contents.html竖伯,同樣也需要一系列擴(kuò)展包的支持。使用matplotlib 需要如下必備的庫因宇,numpy, dateutil, pytz, pyparsing, six七婴。都能從剛才我推薦的下載網(wǎng)站上獲取到。
上面的一系列都搞定了察滑,大家可以使用我第一個線性回歸的代碼(加粗的代碼)測試一下本姥,直接輸出圖像,最后還能保存成為png格式的圖片杭棵。
------------------------------華麗麗的分割線------------------------------------------
3. 數(shù)據(jù)篇
用工具之前先介紹幾個我會用到的數(shù)據(jù)
這里大部分的數(shù)據(jù)都是從這個經(jīng)典的機(jī)器學(xué)習(xí)網(wǎng)站提供的:
https://archive.ics.uci.edu/ml/
sklearn.datasets里面集成了這個網(wǎng)站里的部分?jǐn)?shù)據(jù)(剛接觸Python的童鞋,需要一點(diǎn)點(diǎn)Python的知識,和Java類似魂爪,使用現(xiàn)成工具模塊的時候先舷,需要import一下,我們這個基于Python的機(jī)器學(xué)習(xí)工具包的全名是sklearn滓侍,這里介紹數(shù)據(jù)蒋川,所以下一個目錄是datasets)。具體的Python代碼:
import sklearn.datasets
數(shù)據(jù)一:波士頓房價(適合做回歸)撩笆,以后直接用boston標(biāo)記
這行代碼就讀進(jìn)來了
boston = sklearn.datasets.load_boston()
查詢具體數(shù)據(jù)說明捺球,用這個代碼:
print boston.DESCR
輸出如下:
Data Set Characteristics:
:Number of Instances: 506
:Number of Attributes: 13 numeric/categorical predictive
:Median Value (attribute 14) is usually the target
:Attribute Information (in order):
- CRIM per capita crime rate by town
- ZN proportion of residential land zoned for lots over 25,000 sq.ft.
- INDUS proportion of non-retail business acres per town
- CHAS Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
- NOX nitric oxides concentration (parts per 10 million)
- RM average number of rooms per dwelling
- AGE proportion of owner-occupied units built prior to 1940
- DIS weighted distances to five Boston employment centres
- RAD index of accessibility to radial highways
- TAX full-value property-tax rate per $10,000
- PTRATIO pupil-teacher ratio by town
- B 1000(Bk - 0.63)^2 where Bk is the proportion of blacks by town
- LSTAT % lower status of the population
- MEDV Median value of owner-occupied homes in $1000*s
一共506組數(shù)據(jù),13維特征夕冲,
比如第一個維度的特征是犯罪率氮兵,第六個是每個房子平均多少房間等等。
boston.data 獲取這506 * 13的特征數(shù)據(jù)
boston.target 獲取對應(yīng)的506 * 1的對應(yīng)價格
數(shù)據(jù)二:牽糯跤悖花(適合做簡單分類)泣栈,標(biāo)記為Iris
import sklearn.datasets
iris = sklearn.datasets.load_iris()
iris.data 獲取特征
iris.target 獲取對應(yīng)的類別
Data Set Characteristics:
:Number of Instances: 150 (50 in each of three classes)
:Number of Attributes: 4 numeric, predictive attributes and the class
:Attribute Information:
- sepal length in cm
- sepal width in cm
- petal length in cm
- petal width in cm
- class:
- Iris-Setosa
- Iris-Versicolour
- Iris-Virginica
這個數(shù)據(jù)基本是個ML的入門選手都知道,一共三類牽琶忠觯花南片,獲取特征和對應(yīng)的類別標(biāo)簽也是同上
一共150樣本,3類庭敦,特征維度為4
數(shù)據(jù)三: 糖尿蔡劢(回歸問題),diabetes
這個數(shù)據(jù)包很奇怪秧廉,沒有描述伞广。我也到原本的UCI的網(wǎng)站上查了一下,也是沒有太好的描述定血。
import sklearn.datasets
diabetes = sklearn.datasets.load_diabetes()
print diabetes.keys()
這樣的輸出只有data, targets赔癌。
我也觀察了一下數(shù)據(jù),感覺是經(jīng)過額外的歸一化處理的澜沟,原始的數(shù)據(jù)樣貌已經(jīng)看不出來了灾票。。
下面這個圖是我從網(wǎng)站上Copy下來的有限的描述茫虽,樣本量為442刊苍,特征維度為10,每個特征元素的值都是連續(xù)的實(shí)數(shù)濒析,在正負(fù)0.2之間正什。。目標(biāo)這個整數(shù)值有可能是血糖号杏。
Samples total 442
Dimensionality 10
Features real, -.2 < x < .2
Targets integer 25 - 346
數(shù)據(jù)四:手寫數(shù)字識別(多類分類婴氮,10個類別斯棒,從0-9)digits
import sklearn.datasets
digits = sklearn.datasets.load_digits()
總體樣本量:1797,每個類別大約180個樣本主经,每個手寫數(shù)字是一個8*8的圖片荣暮,每個像素是0-16的整數(shù)值。
綜上罩驻,大家可以加載相應(yīng)的數(shù)據(jù)來玩穗酥,這幾個數(shù)據(jù)算是比較有代表性的。后面會介紹如何利用SKLEARN工具下載更大規(guī)模的數(shù)據(jù)惠遏,比如MINIST的大規(guī)模的手寫數(shù)字識別庫等等砾跃。
總之,如果你想獲取特征节吮,就在*.data里抽高,對應(yīng)的類別或者回歸值在*.target里面
光說不練不行,我對每個介紹的方法都會選用上面的Dataset實(shí)際測試一下课锌,并且會酌情給出結(jié)果和圖像厨内。