Scikit-learn鳥(niǎo)瞰

“致虛極丽涩,守靜篤艇棕,萬(wàn)物并作咽瓷,吾以觀其復(fù)崔挖。
夫物蕓蕓贸街,各復(fù)歸其根。
歸根曰靜虚汛,是謂復(fù)命匾浪。
復(fù)命曰常皇帮,知常曰明卷哩,不知常,妄作属拾,兇将谊。
知常容,容乃公渐白,公乃全尊浓,全乃天,天乃道纯衍,道乃久栋齿,沒(méi)身不殆。”[1]

Scikit-learn

官網(wǎng) (scikit-learn.org)

之前在python易筋經(jīng)系列中我有寫(xiě)過(guò)scipy的筆記[2]瓦堵,scipy是一個(gè)開(kāi)源的基于python的科學(xué)計(jì)算工具包基协。基于scipy菇用,目前開(kāi)發(fā)者們針對(duì)不同的應(yīng)用領(lǐng)域已經(jīng)發(fā)展出了為數(shù)眾多的分支版本澜驮,它們被統(tǒng)一稱(chēng)為Scikits,即scipy工具包的意思惋鸥。而在這些分支版本中杂穷,最有名,也是專(zhuān)門(mén)面向機(jī)器學(xué)習(xí)的一個(gè)就是Scikit-learn卦绣。

為什么還要scikit-learn耐量?

tensorflow、pytouch所代表的深度學(xué)習(xí)框架的興起滤港,使初學(xué)者趨之若鶩拴鸵,如果使用python作為機(jī)器學(xué)習(xí)語(yǔ)言首選語(yǔ)言的話,其實(shí)都應(yīng)該靜下心來(lái)好好研究一下scikit-learn蜗搔。Scikit-learn針對(duì)每個(gè)算法和模塊都提供了豐富的參考樣例和詳細(xì)的說(shuō)明文檔劲藐。

做了一張腦圖來(lái)鳥(niǎo)瞰scikit-learn一下:


scikits-learn.png

六大功能

Scikit-learn的基本功能主要被分為六大部分:分類(lèi),回歸樟凄,聚類(lèi)聘芜,數(shù)據(jù)降維,模型選擇和數(shù)據(jù)預(yù)處理缝龄。

分類(lèi)

識(shí)別給定對(duì)象的所屬類(lèi)別汰现,屬于監(jiān)督學(xué)習(xí)的范疇,最常見(jiàn)的應(yīng)用場(chǎng)景包括垃圾郵件檢測(cè)和圖像識(shí)別等叔壤。目前Scikit-learn已經(jīng)實(shí)現(xiàn)的算法包括:支持向量機(jī)(SVM)瞎饲,最近鄰,邏輯回歸炼绘,隨機(jī)森林嗅战,決策樹(shù)以及多層感知器(MLP)神經(jīng)網(wǎng)絡(luò)等等。

回歸

預(yù)測(cè)與給定對(duì)象相關(guān)聯(lián)的連續(xù)值屬性俺亮,最常見(jiàn)的應(yīng)用場(chǎng)景包括預(yù)測(cè)藥物反應(yīng)和預(yù)測(cè)股票價(jià)格等驮捍。目前Scikit-learn已經(jīng)實(shí)現(xiàn)的算法包括:支持向量回歸(SVR),脊回歸脚曾,Lasso回歸东且,彈性網(wǎng)絡(luò)(Elastic Net),最小角回歸(LARS )本讥,貝葉斯回歸珊泳,以及各種不同的魯棒回歸算法等鲁冯。可以看到色查,這里實(shí)現(xiàn)的回歸算法幾乎涵蓋了所有開(kāi)發(fā)者的需求范圍晓褪,而且更重要的是,Scikit-learn還針對(duì)每種算法都提供了簡(jiǎn)單明了的用例參考综慎。

聚類(lèi)

自動(dòng)識(shí)別具有相似屬性的給定對(duì)象涣仿,并將其分組為集合,屬于無(wú)監(jiān)督學(xué)習(xí)的范疇示惊,最常見(jiàn)的應(yīng)用場(chǎng)景包括顧客細(xì)分和試驗(yàn)結(jié)果分組好港。目前Scikit-learn已經(jīng)實(shí)現(xiàn)的算法包括:K-均值聚類(lèi),譜聚類(lèi)米罚,均值偏移钧汹,分層聚類(lèi),DBSCAN聚類(lèi)等录择。

數(shù)據(jù)降維

使用主成分分析(PCA)拔莱、非負(fù)矩陣分解(NMF)或特征選擇等降維技術(shù)來(lái)減少要考慮的隨機(jī)變量的個(gè)數(shù),其主要應(yīng)用場(chǎng)景包括可視化處理和效率提升隘竭。

模型選擇

對(duì)于給定參數(shù)和模型的比較塘秦、驗(yàn)證和選擇,其主要目的是通過(guò)參數(shù)調(diào)整來(lái)提升精度动看。目前Scikit-learn實(shí)現(xiàn)的模塊包括:格點(diǎn)搜索尊剔,交叉驗(yàn)證和各種針對(duì)預(yù)測(cè)誤差評(píng)估的度量函數(shù)。

數(shù)據(jù)預(yù)處理

數(shù)據(jù)的特征提取和歸一化菱皆,是機(jī)器學(xué)習(xí)過(guò)程中的第一個(gè)也是最重要的一個(gè)環(huán)節(jié)须误。這里歸一化是指將輸入數(shù)據(jù)轉(zhuǎn)換為具有零均值和單位權(quán)方差的新變量,但因?yàn)榇蠖鄶?shù)時(shí)候都做不到精確等于零仇轻,因此會(huì)設(shè)置一個(gè)可接受的范圍京痢,一般都要求落在0-1之間。而特征提取是指將文本或圖像數(shù)據(jù)轉(zhuǎn)換為可用于機(jī)器學(xué)習(xí)的數(shù)字變量篷店。
需要特別注意的是祭椰,這里的特征提取與上文在數(shù)據(jù)降維中提到的特征選擇非常不同。特征選擇是指通過(guò)去除不變船庇、協(xié)變或其他統(tǒng)計(jì)上不重要的特征量來(lái)改進(jìn)機(jī)器學(xué)習(xí)的一種方法吭产。

環(huán)境安裝

再次推薦Anaconda

  • 方便安裝各種包,numpy鸭轮、scipy、scikit-learn等橄霉,有點(diǎn)類(lèi)似maven窃爷。
  • Jupyter Notebook 集成在anaconda中邑蒋,可以方便調(diào)試程序和熟悉交互式筆記。

  1. 老子《道德經(jīng)》第十六章按厘,老子故里医吊,中國(guó)鹿邑。 ?

  2. 《python易筋經(jīng)-scipy》 ?

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末逮京,一起剝皮案震驚了整個(gè)濱河市卿堂,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌懒棉,老刑警劉巖草描,帶你破解...
    沈念sama閱讀 212,542評(píng)論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異策严,居然都是意外死亡穗慕,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,596評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門(mén)妻导,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)逛绵,“玉大人,你說(shuō)我怎么就攤上這事倔韭∈趵耍” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 158,021評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵寿酌,是天一觀的道長(zhǎng)添吗。 經(jīng)常有香客問(wèn)我,道長(zhǎng)份名,這世上最難降的妖魔是什么碟联? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,682評(píng)論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮僵腺,結(jié)果婚禮上鲤孵,老公的妹妹穿的比我還像新娘。我一直安慰自己辰如,他們只是感情好普监,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,792評(píng)論 6 386
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著琉兜,像睡著了一般凯正。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上豌蟋,一...
    開(kāi)封第一講書(shū)人閱讀 49,985評(píng)論 1 291
  • 那天廊散,我揣著相機(jī)與錄音,去河邊找鬼梧疲。 笑死允睹,一個(gè)胖子當(dāng)著我的面吹牛运准,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播缭受,決...
    沈念sama閱讀 39,107評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼胁澳,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了米者?” 一聲冷哼從身側(cè)響起韭畸,我...
    開(kāi)封第一講書(shū)人閱讀 37,845評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎蔓搞,沒(méi)想到半個(gè)月后胰丁,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,299評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡败明,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,612評(píng)論 2 327
  • 正文 我和宋清朗相戀三年隘马,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片妻顶。...
    茶點(diǎn)故事閱讀 38,747評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡酸员,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出讳嘱,到底是詐尸還是另有隱情幔嗦,我是刑警寧澤,帶...
    沈念sama閱讀 34,441評(píng)論 4 333
  • 正文 年R本政府宣布沥潭,位于F島的核電站邀泉,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏钝鸽。R本人自食惡果不足惜汇恤,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,072評(píng)論 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望拔恰。 院中可真熱鬧因谎,春花似錦、人聲如沸颜懊。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,828評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)河爹。三九已至匠璧,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間咸这,已是汗流浹背夷恍。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,069評(píng)論 1 267
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留炊苫,地道東北人裁厅。 一個(gè)月前我還...
    沈念sama閱讀 46,545評(píng)論 2 362
  • 正文 我出身青樓冰沙,卻偏偏與公主長(zhǎng)得像侨艾,于是被迫代替她去往敵國(guó)和親执虹。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,658評(píng)論 2 350

推薦閱讀更多精彩內(nèi)容