一文讀懂什么是機(jī)器學(xué)習(xí)--3. 機(jī)器學(xué)習(xí)的方法?

一文讀懂什么是機(jī)器學(xué)習(xí)--1. 機(jī)器學(xué)習(xí)是什么?

一文讀懂什么是機(jī)器學(xué)習(xí)--2. 機(jī)器學(xué)習(xí)的范圍?

一文讀懂什么是機(jī)器學(xué)習(xí)--3. 機(jī)器學(xué)習(xí)的方法?

一文讀懂什么是機(jī)器學(xué)習(xí)--4. 機(jī)器學(xué)習(xí)的應(yīng)用及其子類?


本系列轉(zhuǎn)自微信公眾賬號(hào)機(jī)器學(xué)習(xí)算法與Python學(xué)習(xí)

機(jī)器學(xué)習(xí)的方法

(1)回歸算法

在大部分機(jī)器學(xué)習(xí)課程中,回歸算法都是介紹的第一個(gè)算法。原因有兩個(gè):一.回歸算法比較簡(jiǎn)單寓辱,介紹它可以讓人平滑地從統(tǒng)計(jì)學(xué)遷移到機(jī)器學(xué)習(xí)中蝗岖。二.回歸算法是后面若干強(qiáng)大算法的基石,如果不理解回歸算法架曹,無法學(xué)習(xí)那些強(qiáng)大的算法隘冲。回歸算法有兩個(gè)重要的子類:即線性回歸和邏輯回歸。

線性回歸?绑雄,也就是“如何擬合出一條直線最佳匹配我所有的數(shù)據(jù)展辞?”

一般使用“最小二乘法”來求解⊥蛭“最小二乘法”的思想是這樣的罗珍,假設(shè)我們擬合出的直線代表數(shù)據(jù)的真實(shí)值,而觀測(cè)到的數(shù)據(jù)代表擁有誤差的值脚粟。為了盡可能減小誤差的影響覆旱,需要求解一條直線使所有誤差的平方和最小。最小二乘法將最優(yōu)問題轉(zhuǎn)化為求函數(shù)極值問題珊楼。函數(shù)極值在數(shù)學(xué)上我們一般會(huì)采用求導(dǎo)數(shù)為0的方法通殃。但這種做法并不適合計(jì)算機(jī),可能求解不出來厕宗,也可能計(jì)算量太大画舌。

計(jì)算機(jī)科學(xué)界專門有一個(gè)學(xué)科叫“數(shù)值計(jì)算”,專門用來提升計(jì)算機(jī)進(jìn)行各類計(jì)算時(shí)的準(zhǔn)確性和效率問題已慢。例如曲聂,著名的“梯度下降”以及“牛頓法”就是數(shù)值計(jì)算中的經(jīng)典算法,也非常適合來處理求解函數(shù)極值的問題佑惠。梯度下降法是解決回歸模型中最簡(jiǎn)單且有效的方法之一朋腋。從嚴(yán)格意義上來說,由于后文中的神經(jīng)網(wǎng)絡(luò)和推薦算法中都有線性回歸的因子膜楷,因此梯度下降法在后面的算法實(shí)現(xiàn)中也有應(yīng)用旭咽。

邏輯回歸?是一種與線性回歸非常類似的算法,但是赌厅,從本質(zhì)上講穷绵,線型回歸處理的問題類型與邏輯回歸不一致。線性回歸處理的是數(shù)值問題特愿,也就是最后預(yù)測(cè)出的結(jié)果是數(shù)字仲墨,例如房?jī)r(jià)勾缭。而邏輯回歸屬于分類算法,也就是說目养,邏輯回歸預(yù)測(cè)結(jié)果是離散的分類俩由,例如判斷這封郵件是否是垃圾郵件,以及用戶是否會(huì)點(diǎn)擊此廣告等等癌蚁。

(2)神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)(也稱之為人工神經(jīng)網(wǎng)絡(luò)幻梯,ANN)算法是80年代機(jī)器學(xué)習(xí)界非常流行的算法,不過在90年代中途衰落⌒傺現(xiàn)在礼旅,攜著“深度學(xué)習(xí)”之勢(shì),神經(jīng)網(wǎng)絡(luò)重裝歸來洽洁,重新成為最強(qiáng)大的機(jī)器學(xué)習(xí)算法之一痘系。

神經(jīng)網(wǎng)絡(luò)的誕生起源于對(duì)大腦工作機(jī)理的研究。早期生物界學(xué)者們使用神經(jīng)網(wǎng)絡(luò)來模擬大腦饿自。機(jī)器學(xué)習(xí)的學(xué)者們使用神經(jīng)網(wǎng)絡(luò)進(jìn)行機(jī)器學(xué)習(xí)的實(shí)驗(yàn)汰翠,發(fā)現(xiàn)在視覺與語音的識(shí)別上效果都相當(dāng)好。在BP算法(加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程的數(shù)值算法)誕生以后昭雌,神經(jīng)網(wǎng)絡(luò)的發(fā)展進(jìn)入了一個(gè)熱潮复唤。BP算法的發(fā)明人之一是前面介紹的機(jī)器學(xué)習(xí)大牛Geoffrey Hinton(圖1中的中間者)(近期將提出一種新的BP算法,或者說一種新的神經(jīng)網(wǎng)絡(luò)的傳到算法)。

具體說來烛卧,神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)機(jī)理是什么佛纫?簡(jiǎn)單來說,就是分解與整合总放。在著名的Hubel-Wiesel試驗(yàn)中呈宇,學(xué)者們研究貓的視覺分析機(jī)理是這樣的。


圖6 Hubel-Wiesel試驗(yàn)與大腦視覺機(jī)理

比方說局雄,一個(gè)正方形甥啄,分解為四個(gè)折線進(jìn)入視覺處理的下一層中。四個(gè)神經(jīng)元分別處理一個(gè)折線炬搭。每個(gè)折線再繼續(xù)被分解為兩條直線蜈漓,每條直線再被分解為黑白兩個(gè)面。于是宫盔,一個(gè)復(fù)雜的圖像變成了大量的細(xì)節(jié)進(jìn)入神經(jīng)元融虽,神經(jīng)元處理以后再進(jìn)行整合,最后得出了看到的是正方形的結(jié)論灼芭。這就是大腦視覺識(shí)別的機(jī)理有额,也是神經(jīng)網(wǎng)絡(luò)工作的機(jī)理。

讓我們看一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)的邏輯架構(gòu)。在這個(gè)網(wǎng)絡(luò)中谆吴,分成輸入層,隱藏層苛预,和輸出層句狼。輸入層負(fù)責(zé)接收信號(hào),隱藏層負(fù)責(zé)對(duì)數(shù)據(jù)的分解與處理热某,最后的結(jié)果被整合到輸出層腻菇。每層中的一個(gè)圓代表一個(gè)處理單元,可以認(rèn)為是模擬了一個(gè)神經(jīng)元昔馋,若干個(gè)處理單元組成了一個(gè)層筹吐,若干個(gè)層再組成了一個(gè)網(wǎng)絡(luò),也就是"神經(jīng)網(wǎng)絡(luò)"秘遏。


圖7 神經(jīng)網(wǎng)絡(luò)的邏輯架構(gòu)

在神經(jīng)網(wǎng)絡(luò)中丘薛,每個(gè)處理單元事實(shí)上就是一個(gè)邏輯回歸?模型,邏輯回歸模型接收上層的輸入邦危,把模型的預(yù)測(cè)結(jié)果作為輸出傳輸?shù)较乱粋€(gè)層次洋侨。通過這樣的過程,神經(jīng)網(wǎng)絡(luò)可以完成非常復(fù)雜的非線性分類倦蚪。

下圖會(huì)演示神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別領(lǐng)域的一個(gè)著名應(yīng)用希坚,這個(gè)程序叫做LeNet,是一個(gè)基于多個(gè)隱層構(gòu)建的神經(jīng)網(wǎng)絡(luò)陵且。通過LeNet可以識(shí)別多種手寫數(shù)字裁僧,并且達(dá)到很高的識(shí)別精度與擁有較好的魯棒性。


圖8 LeeNet的效果展示

右下方的方形中顯示的是輸入計(jì)算機(jī)的圖像慕购,方形上方的紅色字樣“answer”后面顯示的是計(jì)算機(jī)的輸出聊疲。左邊的三條豎直的圖像列顯示的是神經(jīng)網(wǎng)絡(luò)中三個(gè)隱藏層的輸出,可以看出脓钾,隨著層次的不斷深入售睹,越深的層次處理的細(xì)節(jié)越低,例如層3基本處理的都已經(jīng)是線的細(xì)節(jié)了可训。LeNet的發(fā)明人就是前文介紹過的機(jī)器學(xué)習(xí)的大牛Yann LeCun(圖1右者)昌妹。

進(jìn)入90年代,神經(jīng)網(wǎng)絡(luò)的發(fā)展進(jìn)入了一個(gè)瓶頸期握截。其主要原因是盡管有BP算法的加速飞崖,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程仍然很困難。因此90年代后期支持向量機(jī)(SVM)算法取代了神經(jīng)網(wǎng)絡(luò)的地位谨胞。

(3)SVM(支持向量機(jī))

支持向量機(jī)算法是誕生于統(tǒng)計(jì)學(xué)習(xí)界固歪,同時(shí)在機(jī)器學(xué)習(xí)界大放光彩的經(jīng)典算法。

支持向量機(jī)算法從某種意義上來說是邏輯回歸算法的強(qiáng)化通過給予邏輯回歸算法更嚴(yán)格的優(yōu)化條件,支持向量機(jī)算法可以獲得比邏輯回歸更好的分類界線牢裳。但是如果沒有某類函數(shù)技術(shù)逢防,則支持向量機(jī)算法最多算是一種更好的線性分類技術(shù)。

但是蒲讯,通過跟高斯“核”的結(jié)合忘朝,支持向量機(jī)可以表達(dá)出非常復(fù)雜的分類界線,從而達(dá)成很好的的分類效果判帮【粥遥“核”事實(shí)上就是一種特殊的函數(shù),最典型的特征就是可以將低維的空間映射到高維的空間晦墙。

例如下圖所示:


圖9 支持向量機(jī)圖例

我們?nèi)绾卧诙S平面劃分出一個(gè)圓形的分類界線悦昵?在二維平面可能會(huì)很困難,但是通過“核”可以將二維空間映射到三維空間晌畅,然后使用一個(gè)線性平面就可以達(dá)成類似效果但指。也就是說,二維平面劃分出的非線性分類界線可以等價(jià)于三維平面的線性分類界線抗楔。于是枚赡,我們可以通過在三維空間中進(jìn)行簡(jiǎn)單的線性劃分就可以達(dá)到在二維平面中的非線性劃分效果。


圖10 三維空間的切割

支持向量機(jī)是一種數(shù)學(xué)成分很濃的機(jī)器學(xué)習(xí)算法(相對(duì)的谓谦,神經(jīng)網(wǎng)絡(luò)則有生物科學(xué)成分)贫橙。在算法的核心步驟中,有一步證明反粥,即將數(shù)據(jù)從低維映射到高維不會(huì)帶來最后計(jì)算復(fù)雜性的提升卢肃。于是,通過支持向量機(jī)算法才顿,既可以保持計(jì)算效率莫湘,又可以獲得非常好的分類效果。因此支持向量機(jī)在90年代后期一直占據(jù)著機(jī)器學(xué)習(xí)中最核心的地位郑气,基本取代了神經(jīng)網(wǎng)絡(luò)算法幅垮。直到現(xiàn)在神經(jīng)網(wǎng)絡(luò)借著深度學(xué)習(xí)重新興起,兩者之間才又發(fā)生了微妙的平衡轉(zhuǎn)變尾组。

(4)聚類算法(無監(jiān)督)

前面的算法中的一個(gè)顯著特征就是我的訓(xùn)練數(shù)據(jù)中包含了標(biāo)簽忙芒,訓(xùn)練出的模型可以對(duì)其他未知數(shù)據(jù)預(yù)測(cè)標(biāo)簽。在下面的算法中讳侨,訓(xùn)練數(shù)據(jù)都是不含標(biāo)簽的呵萨,而算法的目的則是通過訓(xùn)練,推測(cè)出這些數(shù)據(jù)的標(biāo)簽跨跨。這類算法有一個(gè)統(tǒng)稱潮峦,即無監(jiān)督算法(前面有標(biāo)簽的數(shù)據(jù)的算法則是有監(jiān)督算法)。無監(jiān)督算法中最典型的代表就是聚類算法。

讓我們還是拿一個(gè)二維的數(shù)據(jù)來說忱嘹,某一個(gè)數(shù)據(jù)包含兩個(gè)特征嘱腥。我希望通過聚類算法,給他們中不同的種類打上標(biāo)簽拘悦,我該怎么做呢爹橱?簡(jiǎn)單來說,聚類算法就是計(jì)算種群中的距離窄做,根據(jù)距離的遠(yuǎn)近將數(shù)據(jù)劃分為多個(gè)族群。

聚類算法中最典型的代表就是K-Means算法慰技。

(5)降維算法

降維算法也是一種無監(jiān)督學(xué)習(xí)算法椭盏,其主要特征是將數(shù)據(jù)從高維降低到低維層次。在這里吻商,維度其實(shí)表示的是數(shù)據(jù)的特征量的大小掏颊。

例如,房?jī)r(jià)包含房子的長(zhǎng)艾帐、寬乌叶、面積與房間數(shù)量四個(gè)特征,也就是維度為4維的數(shù)據(jù)柒爸∽荚。可以看出來,長(zhǎng)與寬事實(shí)上與面積表示的信息重疊了捎稚,例如面積=長(zhǎng) × 寬乐横。通過降維算法我們就可以去除冗余信息,將特征減少為面積與房間數(shù)量?jī)蓚€(gè)特征今野,即從4維的數(shù)據(jù)壓縮到2維葡公。于是我們將數(shù)據(jù)從高維降低到低維,不僅利于表示条霜,同時(shí)在計(jì)算上也能帶來加速催什。

降維算法的主要作用是壓縮數(shù)據(jù)與提升機(jī)器學(xué)習(xí)其他算法的效率。通過降維算法宰睡,可以將具有幾千個(gè)特征的數(shù)據(jù)壓縮至若干個(gè)特征蒲凶。另外,降維算法的另一個(gè)好處是數(shù)據(jù)的可視化拆内,例如將5維的數(shù)據(jù)壓縮至2維豹爹,然后可以用二維平面來可視。降維算法的主要代表是PCA算法(即主成分分析算法)矛纹。

(6)推薦算法

推薦算法是目前業(yè)界非潮哿火的一種算法,在電商界,如亞馬遜孩等,天貓艾君,京東等得到了廣泛的運(yùn)用。推薦算法的主要特征就是可以自動(dòng)向用戶推薦他們最感興趣的東西肄方,從而增加購(gòu)買率冰垄,提升效益。

推薦算法有兩個(gè)主要的類別:

一類是基于物品內(nèi)容的推薦权她,是將與用戶購(gòu)買的內(nèi)容近似的物品推薦給用戶虹茶,這樣的前提是每個(gè)物品都得有若干個(gè)標(biāo)簽,因此才可以找出與用戶購(gòu)買物品類似的物品隅要,這樣推薦的好處是關(guān)聯(lián)程度較大蝴罪,但是由于每個(gè)物品都需要貼標(biāo)簽渺尘,因此工作量較大稿静。

另一類是基于用戶相似度的推薦吗跋,則是將與目標(biāo)用戶興趣相同的其他用戶購(gòu)買的東西推薦給目標(biāo)用戶弹谁,例如小A歷史上買了物品B和C干茉,經(jīng)過算法分析甸祭,發(fā)現(xiàn)另一個(gè)與小A近似的用戶小D購(gòu)買了物品E牛曹,于是將物品E推薦給小A抖剿。

兩類推薦都有各自的優(yōu)缺點(diǎn)谴轮,在一般的電商應(yīng)用中炒瘟,一般是兩類混合使用。推薦算法中最有名的算法就是協(xié)同過濾算法第步。

(7)其他

除了以上算法之外唧领,機(jī)器學(xué)習(xí)界還有其他的如高斯判別,樸素貝葉斯雌续,決策樹等等算法斩个。但是上面列的六個(gè)算法是使用最多,影響最廣驯杜,種類最全的典型受啥。機(jī)器學(xué)習(xí)界的一個(gè)特色就是算法眾多,發(fā)展百花齊放鸽心。

下面做一個(gè)總結(jié)滚局,按照訓(xùn)練的數(shù)據(jù)有無標(biāo)簽,可以將上面算法分為監(jiān)督學(xué)習(xí)算法和無監(jiān)督學(xué)習(xí)算法顽频,但推薦算法較為特殊藤肢,既不屬于監(jiān)督學(xué)習(xí),也不屬于非監(jiān)督學(xué)習(xí)糯景,是單獨(dú)的一類嘁圈。

監(jiān)督學(xué)習(xí)算法:線性回歸省骂,邏輯回歸,神經(jīng)網(wǎng)絡(luò)最住,SVM

無監(jiān)督學(xué)習(xí)算法:聚類算法钞澳,降維算法

特殊算法:推薦算法

除了這些算法以外,有一些算法的名字在機(jī)器學(xué)習(xí)領(lǐng)域中也經(jīng)常出現(xiàn)涨缚。但他們本身并不算是一個(gè)機(jī)器學(xué)習(xí)算法轧粟,而是為了解決某個(gè)子問題而誕生的。你可以理解他們?yōu)橐陨纤惴ǖ淖铀惴ㄅ海糜诖蠓忍岣哂?xùn)練過程兰吟。

其中的代表有:

梯度下降法,主要運(yùn)用在線型回歸茂翔,

邏輯回歸混蔼,神經(jīng)網(wǎng)絡(luò),主要運(yùn)用在推薦算法中檩电;

牛頓法,主要運(yùn)用在線型回歸中府树;

BP算法俐末,主要運(yùn)用在神經(jīng)網(wǎng)絡(luò)中;

SMO算法奄侠,主要運(yùn)用在SVM中卓箫。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市垄潮,隨后出現(xiàn)的幾起案子烹卒,更是在濱河造成了極大的恐慌,老刑警劉巖弯洗,帶你破解...
    沈念sama閱讀 216,651評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件旅急,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡牡整,警方通過查閱死者的電腦和手機(jī)藐吮,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,468評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來逃贝,“玉大人谣辞,你說我怎么就攤上這事°灏猓” “怎么了泥从?”我有些...
    開封第一講書人閱讀 162,931評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)沪摄。 經(jīng)常有香客問我躯嫉,道長(zhǎng)纱烘,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,218評(píng)論 1 292
  • 正文 為了忘掉前任和敬,我火速辦了婚禮凹炸,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘昼弟。我一直安慰自己啤它,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,234評(píng)論 6 388
  • 文/花漫 我一把揭開白布舱痘。 她就那樣靜靜地躺著变骡,像睡著了一般。 火紅的嫁衣襯著肌膚如雪芭逝。 梳的紋絲不亂的頭發(fā)上塌碌,一...
    開封第一講書人閱讀 51,198評(píng)論 1 299
  • 那天,我揣著相機(jī)與錄音旬盯,去河邊找鬼台妆。 笑死,一個(gè)胖子當(dāng)著我的面吹牛胖翰,可吹牛的內(nèi)容都是我干的接剩。 我是一名探鬼主播,決...
    沈念sama閱讀 40,084評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼萨咳,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼懊缺!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起培他,我...
    開封第一講書人閱讀 38,926評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤鹃两,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后舀凛,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體俊扳,經(jīng)...
    沈念sama閱讀 45,341評(píng)論 1 311
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,563評(píng)論 2 333
  • 正文 我和宋清朗相戀三年猛遍,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了拣度。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,731評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡螃壤,死狀恐怖抗果,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情奸晴,我是刑警寧澤冤馏,帶...
    沈念sama閱讀 35,430評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站寄啼,受9級(jí)特大地震影響逮光,放射性物質(zhì)發(fā)生泄漏代箭。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,036評(píng)論 3 326
  • 文/蒙蒙 一涕刚、第九天 我趴在偏房一處隱蔽的房頂上張望嗡综。 院中可真熱鬧,春花似錦杜漠、人聲如沸极景。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,676評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽盼樟。三九已至,卻和暖如春锈至,著一層夾襖步出監(jiān)牢的瞬間晨缴,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,829評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工峡捡, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留击碗,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,743評(píng)論 2 368
  • 正文 我出身青樓们拙,卻偏偏與公主長(zhǎng)得像稍途,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子睛竣,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,629評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容

  • 又是深秋晰房,與你與我 是個(gè)多情的日子 多情不寂寥 夜色闌珊求摇,心沉如水 少了秋蟲的唧唧 遠(yuǎn)處偶爾的狗吠聲把夜吵醒 此夜...
    與秋閱讀 362評(píng)論 2 3
  • 夢(mèng)回樓蘭 一波駝鈴脆脆從悠遠(yuǎn)的天際傳來射沟,漫漫的黃沙,起起伏伏的丘陵与境,傾訴著千百年來不變的故事验夯。斑斑駁駁不時(shí)露出地表...
    繁星如海閱讀 215評(píng)論 0 0
  • 我們都一樣,我也恨透了回憶這玩樣 應(yīng)該說每個(gè)在感情的世界里受傷害的人兒都一樣 我們總是在不經(jīng)意的想起過去 習(xí)慣性的...
    路g閱讀 252評(píng)論 0 0