半監(jiān)督學(xué)習(xí)
當(dāng)我們的訓(xùn)練集標(biāo)簽缺失米奸,也就是有訓(xùn)練集X1=[(x.y)....]师倔,X2=[(x)...]。前者數(shù)據(jù)有標(biāo)簽莱衩,后者數(shù)據(jù)無標(biāo)簽爵嗅。我們訓(xùn)練一個模型時,如果只使用前者對后者來說是一種浪費笨蚁。如果我們要補全后者睹晒,又有極大的成本。
我們能否找到一個學(xué)習(xí)方法括细,能利用兩者學(xué)習(xí)到一個模型呢?這就是半監(jiān)督模型
為什么加入無標(biāo)簽數(shù)據(jù)還能增強模型呢?
首先我們做一個假設(shè)伪很,所有的樣本都由高斯混合模型生成。其概率密度如下
前者x是某個樣本奋单,后者是高斯模型的參數(shù)
我們需要計算的概率是
由推導(dǎo)可知锉试,后驗概率可以分解為兩個概率乘積。前一個概率與標(biāo)簽有關(guān)览濒,而后面的概率與標(biāo)簽無關(guān)呆盖。那么我們無標(biāo)簽數(shù)據(jù)實際上就是在學(xué)習(xí)后一個概率。研究指出匾七,無標(biāo)簽數(shù)據(jù)可使模型得到增強絮短。
但要利用無標(biāo)簽數(shù)據(jù)需要滿足條件。最常見的是聚類條件和流型條件昨忆。前者假設(shè)數(shù)據(jù)可分為多個簇丁频,也就是相同類數(shù)據(jù)具有相似性。后者要求相鄰樣本輸出相鄰,因為輸出沒有一定要是某個類席里,輸出范圍更大了叔磷,所以后者可以看做是前者的一個推廣。
半監(jiān)督模型可以分為兩種奖磁,一種是pure純監(jiān)督改基,一種是直推學(xué)習(xí)。
前者不把無標(biāo)簽?zāi)P涂醋龃郎y數(shù)據(jù)咖为。后者將無標(biāo)簽?zāi)P涂醋龃郎y數(shù)據(jù)秕狰。
co-train
也叫做協(xié)同訓(xùn)練。是一種直推模型
它是作為多視圖模型出現(xiàn)躁染。何為視圖鸣哀,一個屬性集可以看做一個視圖。
算法前提:各個視圖之間滿足條件獨立(實際上真正獨立的情況很少吞彤,但是在弱條件下也能提高性能)我衬,且兩個視圖間充分冗余(也就是說一個視圖足夠產(chǎn)生最優(yōu)學(xué)習(xí)器的信息,或者說這個視圖可以由其他視圖推出)
假設(shè)我們有兩個視圖的數(shù)據(jù)饰恕,我們對每一個有標(biāo)簽的視圖數(shù)據(jù)進行訓(xùn)練挠羔,得到兩個model。然后我們用兩個model對無標(biāo)簽的數(shù)據(jù)進行訓(xùn)練埋嵌。模型1從輸出標(biāo)簽中選出置信度最高的數(shù)據(jù)作為模型2訓(xùn)練數(shù)據(jù)破加,模型2也從輸出標(biāo)簽中選出置信度最高分?jǐn)?shù)據(jù)作為模型1的訓(xùn)練數(shù)據(jù)。兩個模型進行第二輪訓(xùn)練莉恼,訓(xùn)練完后重復(fù)操作拌喉,直到模型不在變化。
對于有大量的特征值情況下俐银,可以把屬性集隨機劃分為兩個視圖也有很好效果。
co-forest
用森林來代替學(xué)習(xí)器端仰,出手于周志華老師
代碼實現(xiàn)目前只有java還未進行過嘗試捶惜。
主要思想,對于森林中的每一棵樹荔烧,首先也是用帶標(biāo)簽的數(shù)據(jù)先訓(xùn)練吱七。而后,取除了本樹以外其他樹為該樹的伴隨集成鹤竭,該集成對無標(biāo)簽數(shù)據(jù)進行預(yù)測踊餐,預(yù)測投票超過閾值theta就加入訓(xùn)練集。
也有置信度判斷和采樣方法臀稚,不詳細(xì)說明吝岭。
tri-train
不要求兩個獨立的視圖,使用更泛化。
也屬于是直推模型窜管。
我們一共有3個分類器散劫,首先將數(shù)據(jù)有放回的抽樣,抽得3組數(shù)據(jù)幕帆,并用于訓(xùn)練這三個分類器获搏。
訓(xùn)練好后,我們將無標(biāo)簽樣本作為預(yù)測集失乾,分別讓三個分類器進行預(yù)測常熙。預(yù)測出的標(biāo)簽可以分為兩類,一類是三個分類器都預(yù)測得一樣碱茁,一類是2個分類器一個結(jié)果另一個結(jié)果不一樣(由于是二分類問題)裸卫。我們以少數(shù)服從多數(shù)的原則,將后一類數(shù)據(jù)的標(biāo)簽定為多數(shù)投票的結(jié)果早芭,并將其放入預(yù)測錯的訓(xùn)練器進行訓(xùn)練...反復(fù)這個過程直到模型不再變化彼城。
用該模型進行預(yù)測時,我們?nèi)匀徊捎眠@種投票的集成學(xué)習(xí)方法退个。
且最終生成的3個學(xué)習(xí)器必須強于弱學(xué)習(xí)器募壕,且有較大的分歧
如果出現(xiàn)噪聲,會令少數(shù)一類是正確语盈,這樣訓(xùn)練的數(shù)據(jù)將是錯誤的舱馅。研究表明,少量的噪聲的負(fù)面效果會被大量未標(biāo)記結(jié)果抵消刀荒。
TSVM
該模型屬于直推模型代嗤,其首字母t就是直推的意思
該模型沒有廣泛使用的原因就是,太慢了太慢了太慢了缠借。
先講講其原理干毅,其目標(biāo)也是一個分類器。
第一步泼返,用標(biāo)簽數(shù)據(jù)訓(xùn)練出一個標(biāo)準(zhǔn)的svm模型硝逢,讓模型對無標(biāo)簽數(shù)據(jù)進行預(yù)測,從預(yù)測結(jié)果中選出兩個最可能錯誤的數(shù)據(jù)(要求兩數(shù)據(jù)類別相反)绅喉,交換它們的標(biāo)簽值并喂進模型渠鸽。反復(fù)如此,直到懲罰稀疏Cl=Cu