Spark-MLlib-SVM源碼實(shí)現(xiàn)分析

注：MLlib中的SVM只實(shí)現(xiàn)了線性二分類雪猪。沒(méi)有非線性（核函數(shù)），也沒(méi)有多分類和回歸起愈。線性二分類的優(yōu)化過(guò)程類似于邏輯回歸。以下從三個(gè)方面進(jìn)行分析：（一）SVM的目標(biāo)函數(shù)译仗、損失函數(shù)和最優(yōu)化方法抬虽。（二）從MLlib實(shí)現(xiàn)的源碼分析模型創(chuàng)建以及優(yōu)化的過(guò)程。（三）參考ML中NaiveBayes的實(shí)現(xiàn)纵菌，探索SVM-Pipeline的實(shí)現(xiàn)思路阐污。

一、SVM 公式

1.1 目標(biāo)函數(shù)

目標(biāo)函數(shù)：** y = wx **
（注：w是超平面的法向量）

1.2 損失函數(shù)

損失函數(shù)：HingeGradient
公式：** avg( max(0, 1 - (2 y - 1) f_w(x))) )**
（注：0 1分類label咱圆，在svm中要轉(zhuǎn)為 -1笛辟，1 <- (2y -1)）

1.3 優(yōu)化函數(shù)（隨機(jī)梯度下降）

梯度：** -(2y - 1) * x **
正則項(xiàng)：** L2 = (1/2) * w^2 **
梯度更新方法：** weight = weight - lambda (gradient + regParam * weight) **

二功氨、MLlib源碼實(shí)現(xiàn)分析

下圖是SVMWithSGD的類圖，SVMWithSGD繼承了GeneralizdLinearAlgorithm手幢。run()方法會(huì)調(diào)用optimitor：GradientDescent(gradient, updater)優(yōu)化得到模型的權(quán)值參數(shù)weights捷凄，并調(diào)用createModel(weights)方法new一個(gè)SVMModel，返回SVMModel围来。

SVMWithSGD類圖

2.1 創(chuàng)建SVM模型入口

2.1.1 SVMWithSGD 伴生對(duì)象（單例對(duì)象）

org.apache.spark.mllib.classification.SVMWithSGD
??線性SVM伴生對(duì)象是SVMWithSGD跺涤，是建立SVM分類模型的入口。它定義了訓(xùn)練SVM分類模型的train方法监透。

2.1.2 GeneralizdLinearAlgorithm的run執(zhí)行模型訓(xùn)練

org.apache.spark.mllib.regression.GeneralizdLinearAlgorithm

2.2 SVMWithSGD 類設(shè)置損失函數(shù)-最優(yōu)化方法

org.apache.spark.mllib.classification.SVMWithSGD
??分別創(chuàng)建** 梯度下降方法HingeGradient ** 和 ** L2正則化權(quán)重更新方法SquaredL2Updater**桶错，兩者封裝在GradientDescent中，作為優(yōu)化器optimizer胀蛮。

2.2.1 HingeGradient

org.apache.spark.mllib.optimization.HingeGradient
??損失函數(shù)：max(0, 1 - (2 y - 1) f_w(x)))
??梯度：-（2y - 1） * x

2.2.2 SquaredL2Updater

org.apache.spark.mllib.optimization.SquaredL2Updater
??梯度更新方法：** weight = weight - lambda (gradient + regParam * weight) **

2.3 優(yōu)化過(guò)程的入口：GradientDescent

org.apache.spark.mllib.optimization.GradientDescent
迭代優(yōu)化的過(guò)程如下：
while( 未收斂并且小于迭代次數(shù) ) {
??計(jì)算本次迭代抽樣樣本的梯度和院刁，以及損失和（調(diào)用HingeGradient）
??記錄本次迭代的平均誤差（loss）
??更新權(quán)重（調(diào)用SquaredL2Updater）
??判斷是否收斂

}

三、Pipeline實(shí)現(xiàn)探索

Spark MLlib的Pipeline粪狼，是指將多個(gè)機(jī)器學(xué)習(xí)的算法串聯(lián)到一個(gè)工作鏈中退腥，依次執(zhí)行各種算法；其出現(xiàn)旨在向用戶提供基于 DataFrame 之上的更加高層次的 API 庫(kù)鸳玩，以便構(gòu)建復(fù)雜的機(jī)器學(xué)習(xí)工作流式應(yīng)用阅虫。
??一個(gè) Pipeline 在結(jié)構(gòu)上會(huì)包含一個(gè)或多個(gè) PipelineStage，每一個(gè) PipelineStage 都會(huì)完成一個(gè)任務(wù)不跟，如數(shù)據(jù)集處理轉(zhuǎn)化颓帝，模型訓(xùn)練，參數(shù)設(shè)置或數(shù)據(jù)預(yù)測(cè)等窝革。

3.1 參考NaiveBayes

3.1.1 R->pkg->R->mllib.R

mllib.R中將NaiveBayesWrapper封裝為sparkR中的naiveBayes方法

3.1.2 NaiveBayesWrapper生成一個(gè)Pipeline

org.apache.spark.ml.r.NaiveBayesWrapper

3.1.3 NaiveBayes

org.apache.spark.ml.classification.NaiveBayes
??**將dataset轉(zhuǎn)成RDD购城，并New一個(gè)MLlib中的NaiveBayes來(lái)訓(xùn)練模型 **

3.2 SVM-Pipeline思考

參照以上NaiveBayes的實(shí)現(xiàn)，需要在R中的mllib.R中實(shí)現(xiàn)一個(gè)setMethod的方法虐译，以及在ML里實(shí)現(xiàn)** SVMWithSGD 類和 SVMWithSGDWrapper **類瘪板。

最后編輯于：2017.12.04 02:52:13

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市漆诽，隨后出現(xiàn)的幾起案子侮攀，更是在濱河造成了極大的恐慌，老刑警劉巖厢拭，帶你破解...
沈念sama閱讀 217,084評(píng)論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件兰英，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡供鸠，警方通過(guò)查閱死者的電腦和手機(jī)畦贸，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,623評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人薄坏，你說(shuō)我怎么就攤上這事趋厉。” “怎么了胶坠？”我有些...
開封第一講書人閱讀 163,450評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵君账，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我涵但，道長(zhǎng)杈绸，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,322評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任矮瘟，我火速辦了婚禮瞳脓，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘澈侠。我一直安慰自己劫侧，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,370評(píng)論 6贊 390
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布哨啃。她就那樣靜靜地躺著烧栋，像睡著了一般。火紅的嫁衣襯著肌膚如雪拳球。梳的紋絲不亂的頭發(fā)上审姓，一...
開封第一講書人閱讀 51,274評(píng)論 1贊 300
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音祝峻，去河邊找鬼魔吐。笑死，一個(gè)胖子當(dāng)著我的面吹牛莱找，可吹牛的內(nèi)容都是我干的酬姆。我是一名探鬼主播，決...
沈念sama閱讀 40,126評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼奥溺，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼辞色！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起浮定，我...
開封第一講書人閱讀 38,980評(píng)論 0贊 275
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤相满，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后桦卒，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體立美，經(jīng)...
沈念sama閱讀 45,414評(píng)論 1贊 313
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,599評(píng)論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年闸盔，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片琳省。...
茶點(diǎn)故事閱讀 39,773評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡迎吵，死狀恐怖躲撰，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情击费，我是刑警寧澤拢蛋，帶...
沈念sama閱讀 35,470評(píng)論 5贊 344
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站蔫巩，受9級(jí)特大地震影響谆棱，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜圆仔，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,080評(píng)論 3贊 327
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一垃瞧、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧坪郭，春花似錦个从、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,713評(píng)論 0贊 22
一樁弒父案嗦锐，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至沪曙，卻和暖如春奕污，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背液走。一陣腳步聲響...
開封第一講書人閱讀 32,852評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工碳默，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人育灸。一個(gè)月前我還...
沈念sama閱讀 47,865評(píng)論 2贊 370
代替公主和親
正文我出身青樓腻窒，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親磅崭。傳聞我的和親對(duì)象是個(gè)殘疾皇子儿子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,689評(píng)論 2贊 354