p293 - p319
啊好困 = =
昨天倒是很早滾上床了
就是失眠了:)
大概也是三點(diǎn)多才睡著吧
所以今天也要努力早睡逸贾!
不廢話了,進(jìn)入第13章俭厚,但愿這章有意思點(diǎn)瑟曲。
第13章 半監(jiān)督學(xué)習(xí)
13.1 未標(biāo)記樣本
主動學(xué)習(xí)
拿少量數(shù)據(jù)訓(xùn)練一個模型,拿這個模型去挑瓜闲孤。然后詢問瓜農(nóng)這個瓜好不好谆级。
這樣挑少量的瓜,用很少量的專業(yè)知識就能獲得不錯的模型讼积。
顯然這樣引入了額外信息
半監(jiān)督學(xué)習(xí)
不依賴外界交互肥照,自動利用未標(biāo)記樣本。
事實(shí)上勤众,未標(biāo)記樣本雖然沒有標(biāo)記舆绎,但如果他們是和有標(biāo)記樣本是從同樣的數(shù)據(jù)源獨(dú)立同分布采樣而來,那對訓(xùn)練是大有裨益的们颜,因?yàn)榭梢垣@得和分布有關(guān)的信息吕朵。
常見的假設(shè):聚類假設(shè),流形假設(shè)(聚類假設(shè)的推廣)窥突。
純半監(jiān)督學(xué)習(xí)
利用有標(biāo)記數(shù)據(jù)A與未標(biāo)記數(shù)據(jù)B來預(yù)測其他的數(shù)據(jù)C
直推學(xué)習(xí)
利用有標(biāo)記數(shù)據(jù)A與未標(biāo)記數(shù)據(jù)B來預(yù)測未標(biāo)記數(shù)據(jù)B
13.2 生成式方法
直接基于生成式模型的方法努溃。
此類方法假設(shè)所有數(shù)據(jù)(無論有無標(biāo)記)都是由同一個潛在的模型生成的。
未標(biāo)記數(shù)據(jù)可以當(dāng)做“缺失參數(shù)”
可基于EM算法進(jìn)行求解阻问。詳細(xì)過程見p295 - 298
13.3 半監(jiān)督SVM
半監(jiān)督SVM梧税,簡稱S3VM
若不考慮未標(biāo)記樣本,S3VM試圖找到最大間隔劃分超平面。
考慮未標(biāo)記樣本贡蓖,S3VM試圖找到能將兩類有標(biāo)記樣本分開
且穿過數(shù)據(jù)低密度區(qū)域的劃分超平面曹鸠。
顯然這里基于了“低密度分隔”假設(shè)
S3VM中最著名的是TSVM
TSVM試圖考慮對未標(biāo)記樣本進(jìn)行各種可能的標(biāo)記指派,即嘗試將樣本都標(biāo)起來斥铺,然后在所有結(jié)果中尋求一個在所有樣本上間隔最大化的劃分超平面彻桃。
超平面確定了,對應(yīng)的指派的標(biāo)記就是結(jié)果晾蜘。
顯然這樣效率低邻眷,只適合數(shù)據(jù)量較少時。
TSVM采用局部搜索來迭代求解剔交。
見p300 圖13.4算法偽碼
所以說半監(jiān)督SVM研究的一個重點(diǎn)是如何設(shè)計(jì)出高效的優(yōu)化求解策略肆饶,如基于圖核函數(shù)梯度下降的LDS、基于標(biāo)記均值估計(jì)的meanS3VM岖常。
13.4 圖半監(jiān)督學(xué)習(xí)
一個數(shù)據(jù)集驯镊,可以映射成一個圖。若兩個樣本之間相似度很高竭鞍,那么節(jié)點(diǎn)間存在一條邊板惑,邊的‘強(qiáng)度’正比于樣本之間的相似度。
我們可將有標(biāo)記樣本所對應(yīng)的節(jié)點(diǎn)視為染過色偎快,未標(biāo)記視為沒染過色冯乘。
變成了一個顏色傳播或擴(kuò)散的過程。
定義高斯函數(shù)來決定邊晒夹。
定義能量函數(shù)裆馒,能量函數(shù)最小化時得到最優(yōu)結(jié)果。
算法詳細(xì)過程見p301-304
算法偽碼見p303 圖13.5
考慮到有標(biāo)記很少丐怯,未標(biāo)記很多喷好,容易過擬合。
可加入L2范數(shù)項(xiàng)响逢。
13.5 基于分歧的方法
使用多學(xué)習(xí)器绒窑。
學(xué)習(xí)器之間的“分歧”是重點(diǎn)。
“協(xié)同訓(xùn)練”是重要代表舔亭。最初是針對“多視圖”數(shù)據(jù)設(shè)計(jì)的些膨。
一個數(shù)據(jù)對象往往同時擁有多個“屬性集”,每個屬性集就是一個“視圖”钦铺。
如圖像畫面屬性集订雾、聲音信息屬性集。
假設(shè)不同視圖具有相容性矛洞,即他們所預(yù)測的結(jié)果集是相同的洼哎。
這時如果同時考慮兩個屬性集烫映,有時效果就很好。
比如畫面+聲音
假設(shè)數(shù)據(jù)獨(dú)立且充分噩峦。
首先在每個視圖上訓(xùn)練一個學(xué)習(xí)器锭沟。
然后讓每個分類器挑出自己最有把握的未標(biāo)記樣本賦予“偽標(biāo)記”
把偽標(biāo)記樣本拿去給其他學(xué)習(xí)器訓(xùn)練更新。
這樣互相學(xué)習(xí)互相進(jìn)步直至收斂识补。
過程看似簡單族淮,但若兩個視圖充分且獨(dú)立,則精度可以任意高凭涂。
協(xié)同訓(xùn)練本身是為多視圖數(shù)據(jù)設(shè)計(jì)的祝辣,但后來也出現(xiàn)了能在單視圖數(shù)據(jù)上使用的變體算法。
協(xié)同訓(xùn)練算法偽碼 p306 圖13.6
13.6 半監(jiān)督聚類
聚類本身是無監(jiān)督學(xué)習(xí)的代表切油,但現(xiàn)實(shí)中我們有時是有監(jiān)督信息的蝙斜。
監(jiān)督信息大致兩種類型:
1)“必連”與“勿連”約束。即有些必屬于一個族澎胡、或必不屬于一個族
2)少量有標(biāo)記樣本(指簇標(biāo)記)孕荠。
針對第一種監(jiān)督信息,約束k均值算法滤馍。即訓(xùn)練過程中保證約束岛琼。
偽碼p307 圖13.7
針對第二種監(jiān)督信息底循,約束種子k均值算法巢株。
半監(jiān)督是非常常用的思想。