from sklearn.semi_supervised import LabelPropagation, LabelSpreading
英文
https://scikit-learn.org/stable/modules/label_propagation.html
中文
http://sklearn.apachecn.org/#/docs/15?id=_114-%e5%8d%8a%e7%9b%91%e7%9d%a3%e5%ad%a6%e4%b9%a0
相關(guān)知識(理論知識來自西瓜書)
讓學習器不依賴外界交互耗式、自動地利用未標記樣本來提升學習性能姑廉,就是半監(jiān)督學習(semi-supervised learning)吓著。
半監(jiān)督學習可進一步劃分為純半監(jiān)督學習和直推學習。純半監(jiān)督學習是基于“開放世界”假設(shè)耙箍,希望學得模型能適用于訓練過程中未觀察到的數(shù)據(jù)序无;而直推學習乘盼,是基于“封閉世界”假設(shè)螟凭,僅試圖對學習過程中觀察到的未標記數(shù)據(jù)進行預測。
1菱涤、生成式方法
生成式方法是直接基于生成式模型的方法苞也。此類方法假設(shè)所有數(shù)據(jù)(無論是否有標記)都是由同一個潛在的模型“生成”的。這個假設(shè)使得我們能通過潛在模型的參數(shù)將未標記數(shù)據(jù)與學習目標聯(lián)系起來粘秆,而未標記數(shù)據(jù)的標記則可以看作模型的缺失參數(shù)如迟,通常可基于EM算法進行極大似然估計求解攻走。此類方法的區(qū)別主要在于生成式模型的假設(shè)殷勘,不同的模型假設(shè)將產(chǎn)生不同的方法。
此類方法簡單昔搂,易于實現(xiàn)玲销,在有標記數(shù)據(jù)極少的情況下,往往比其他方法性能更好摘符。然而此類方法有一個問題痒玩,就是模型假設(shè)必須準確淳附,即假設(shè)的生成式模型必須與真實數(shù)據(jù)分布吻合议慰;否則利用未標記數(shù)據(jù)反倒會降低泛化性能蠢古。
2、半監(jiān)督SVM
半監(jiān)督支持向量機(semi-supervised support vector machine别凹,簡稱S3VM)是支持向量機在半監(jiān)督學習上的推廣草讶。
半監(jiān)督支持向量機中最著名的是TSVM(Transductive Support Vector Machine).TSVM試圖考慮對未標記樣本進行各種可能的標記指派(label assignment)即嘗試將每個未標記樣本分別作為正例和反例,然后在所有這些結(jié)果中炉菲,尋求一個在所有樣本(包括有標記樣本和進行了標記指派的未標記樣本)上間隔最大化的劃分超平面堕战。一旦劃分超平面得以確定,未標記樣本的最終標記指派就是其預測結(jié)果拍霜。
顯然嘱丢,搜尋標記指派可能出錯的每一對未標記樣本進行調(diào)整,是一個涉及巨大計算開銷大規(guī)模優(yōu)化問題祠饺。因此越驻,半監(jiān)督SVM研究的一個重點是如何設(shè)計出高效的優(yōu)化求解策略。