機(jī)器學(xué)習(xí) 西瓜書 Day17 半監(jiān)督學(xué)習(xí)

p293 - p319
啊好困 = =
昨天倒是很早滾上床了
就是失眠了:)
大概也是三點(diǎn)多才睡著吧
所以今天也要努力早睡逸贾!
不廢話了,進(jìn)入第13章俭厚,但愿這章有意思點(diǎn)瑟曲。

第13章 半監(jiān)督學(xué)習(xí)

13.1 未標(biāo)記樣本

主動學(xué)習(xí)

拿少量數(shù)據(jù)訓(xùn)練一個模型,拿這個模型去挑瓜闲孤。然后詢問瓜農(nóng)這個瓜好不好谆级。
這樣挑少量的瓜,用很少量的專業(yè)知識就能獲得不錯的模型讼积。
顯然這樣引入了額外信息

半監(jiān)督學(xué)習(xí)

不依賴外界交互肥照,自動利用未標(biāo)記樣本。

事實(shí)上勤众,未標(biāo)記樣本雖然沒有標(biāo)記舆绎,但如果他們是和有標(biāo)記樣本是從同樣的數(shù)據(jù)源獨(dú)立同分布采樣而來,那對訓(xùn)練是大有裨益的们颜,因?yàn)榭梢垣@得和分布有關(guān)的信息吕朵。

常見的假設(shè):聚類假設(shè),流形假設(shè)(聚類假設(shè)的推廣)窥突。

純半監(jiān)督學(xué)習(xí)

利用有標(biāo)記數(shù)據(jù)A與未標(biāo)記數(shù)據(jù)B來預(yù)測其他的數(shù)據(jù)C

直推學(xué)習(xí)

利用有標(biāo)記數(shù)據(jù)A與未標(biāo)記數(shù)據(jù)B來預(yù)測未標(biāo)記數(shù)據(jù)B

13.2 生成式方法

直接基于生成式模型的方法努溃。
此類方法假設(shè)所有數(shù)據(jù)(無論有無標(biāo)記)都是由同一個潛在的模型生成的。
未標(biāo)記數(shù)據(jù)可以當(dāng)做“缺失參數(shù)”

可基于EM算法進(jìn)行求解阻问。詳細(xì)過程見p295 - 298

13.3 半監(jiān)督SVM

半監(jiān)督SVM梧税,簡稱S3VM

若不考慮未標(biāo)記樣本,S3VM試圖找到最大間隔劃分超平面。

考慮未標(biāo)記樣本贡蓖,S3VM試圖找到能將兩類有標(biāo)記樣本分開
且穿過數(shù)據(jù)低密度區(qū)域的劃分超平面曹鸠。
顯然這里基于了“低密度分隔”假設(shè)

S3VM中最著名的是TSVM
TSVM試圖考慮對未標(biāo)記樣本進(jìn)行各種可能的標(biāo)記指派,即嘗試將樣本都標(biāo)起來斥铺,然后在所有結(jié)果中尋求一個在所有樣本上間隔最大化的劃分超平面彻桃。
超平面確定了,對應(yīng)的指派的標(biāo)記就是結(jié)果晾蜘。
顯然這樣效率低邻眷,只適合數(shù)據(jù)量較少時。

TSVM采用局部搜索來迭代求解剔交。
見p300 圖13.4算法偽碼

所以說半監(jiān)督SVM研究的一個重點(diǎn)是如何設(shè)計(jì)出高效的優(yōu)化求解策略肆饶,如基于圖核函數(shù)梯度下降的LDS、基于標(biāo)記均值估計(jì)的meanS3VM岖常。

13.4 圖半監(jiān)督學(xué)習(xí)

一個數(shù)據(jù)集驯镊,可以映射成一個圖。若兩個樣本之間相似度很高竭鞍,那么節(jié)點(diǎn)間存在一條邊板惑,邊的‘強(qiáng)度’正比于樣本之間的相似度。
我們可將有標(biāo)記樣本所對應(yīng)的節(jié)點(diǎn)視為染過色偎快,未標(biāo)記視為沒染過色冯乘。
變成了一個顏色傳播或擴(kuò)散的過程。

定義高斯函數(shù)來決定邊晒夹。
定義能量函數(shù)裆馒,能量函數(shù)最小化時得到最優(yōu)結(jié)果。

算法詳細(xì)過程見p301-304
算法偽碼見p303 圖13.5

考慮到有標(biāo)記很少丐怯,未標(biāo)記很多喷好,容易過擬合。
可加入L2范數(shù)項(xiàng)响逢。

13.5 基于分歧的方法

使用多學(xué)習(xí)器绒窑。
學(xué)習(xí)器之間的“分歧”是重點(diǎn)。

“協(xié)同訓(xùn)練”是重要代表舔亭。最初是針對“多視圖”數(shù)據(jù)設(shè)計(jì)的些膨。

一個數(shù)據(jù)對象往往同時擁有多個“屬性集”,每個屬性集就是一個“視圖”钦铺。
如圖像畫面屬性集订雾、聲音信息屬性集。

假設(shè)不同視圖具有相容性矛洞,即他們所預(yù)測的結(jié)果集是相同的洼哎。
這時如果同時考慮兩個屬性集烫映,有時效果就很好。
比如畫面+聲音

假設(shè)數(shù)據(jù)獨(dú)立且充分噩峦。
首先在每個視圖上訓(xùn)練一個學(xué)習(xí)器锭沟。
然后讓每個分類器挑出自己最有把握的未標(biāo)記樣本賦予“偽標(biāo)記”
把偽標(biāo)記樣本拿去給其他學(xué)習(xí)器訓(xùn)練更新。
這樣互相學(xué)習(xí)互相進(jìn)步直至收斂识补。

過程看似簡單族淮,但若兩個視圖充分且獨(dú)立,則精度可以任意高凭涂。

協(xié)同訓(xùn)練本身是為多視圖數(shù)據(jù)設(shè)計(jì)的祝辣,但后來也出現(xiàn)了能在單視圖數(shù)據(jù)上使用的變體算法。

協(xié)同訓(xùn)練算法偽碼 p306 圖13.6

13.6 半監(jiān)督聚類

聚類本身是無監(jiān)督學(xué)習(xí)的代表切油,但現(xiàn)實(shí)中我們有時是有監(jiān)督信息的蝙斜。

監(jiān)督信息大致兩種類型:
1)“必連”與“勿連”約束。即有些必屬于一個族澎胡、或必不屬于一個族
2)少量有標(biāo)記樣本(指簇標(biāo)記)孕荠。

針對第一種監(jiān)督信息,約束k均值算法滤馍。即訓(xùn)練過程中保證約束岛琼。
偽碼p307 圖13.7

針對第二種監(jiān)督信息底循,約束種子k均值算法巢株。

半監(jiān)督是非常常用的思想。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末熙涤,一起剝皮案震驚了整個濱河市阁苞,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌祠挫,老刑警劉巖那槽,帶你破解...
    沈念sama閱讀 221,406評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異等舔,居然都是意外死亡骚灸,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,395評論 3 398
  • 文/潘曉璐 我一進(jìn)店門慌植,熙熙樓的掌柜王于貴愁眉苦臉地迎上來甚牲,“玉大人,你說我怎么就攤上這事蝶柿≌筛疲” “怎么了?”我有些...
    開封第一講書人閱讀 167,815評論 0 360
  • 文/不壞的土叔 我叫張陵交汤,是天一觀的道長雏赦。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么星岗? 我笑而不...
    開封第一講書人閱讀 59,537評論 1 296
  • 正文 為了忘掉前任填大,我火速辦了婚禮,結(jié)果婚禮上俏橘,老公的妹妹穿的比我還像新娘栋盹。我一直安慰自己,他們只是感情好敷矫,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,536評論 6 397
  • 文/花漫 我一把揭開白布例获。 她就那樣靜靜地躺著,像睡著了一般曹仗。 火紅的嫁衣襯著肌膚如雪榨汤。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,184評論 1 308
  • 那天怎茫,我揣著相機(jī)與錄音收壕,去河邊找鬼。 笑死轨蛤,一個胖子當(dāng)著我的面吹牛蜜宪,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播祥山,決...
    沈念sama閱讀 40,776評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼圃验,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了缝呕?” 一聲冷哼從身側(cè)響起澳窑,我...
    開封第一講書人閱讀 39,668評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎供常,沒想到半個月后摊聋,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,212評論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡栈暇,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,299評論 3 340
  • 正文 我和宋清朗相戀三年麻裁,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片源祈。...
    茶點(diǎn)故事閱讀 40,438評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡煎源,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出新博,到底是詐尸還是另有隱情薪夕,我是刑警寧澤,帶...
    沈念sama閱讀 36,128評論 5 349
  • 正文 年R本政府宣布赫悄,位于F島的核電站原献,受9級特大地震影響馏慨,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜姑隅,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,807評論 3 333
  • 文/蒙蒙 一写隶、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧讲仰,春花似錦慕趴、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,279評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至趁矾,卻和暖如春耙册,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背毫捣。 一陣腳步聲響...
    開封第一講書人閱讀 33,395評論 1 272
  • 我被黑心中介騙來泰國打工详拙, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人蔓同。 一個月前我還...
    沈念sama閱讀 48,827評論 3 376
  • 正文 我出身青樓饶辙,卻偏偏與公主長得像,于是被迫代替她去往敵國和親斑粱。 傳聞我的和親對象是個殘疾皇子弃揽,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,446評論 2 359

推薦閱讀更多精彩內(nèi)容