半監(jiān)督學(xué)習(xí)

半監(jiān)督學(xué)習(xí)

當(dāng)我們的訓(xùn)練集標(biāo)簽缺失米奸,也就是有訓(xùn)練集X1=[(x.y)....]师倔,X2=[(x)...]。前者數(shù)據(jù)有標(biāo)簽莱衩,后者數(shù)據(jù)無標(biāo)簽爵嗅。我們訓(xùn)練一個模型時,如果只使用前者對后者來說是一種浪費笨蚁。如果我們要補全后者睹晒,又有極大的成本。

我們能否找到一個學(xué)習(xí)方法括细,能利用兩者學(xué)習(xí)到一個模型呢?這就是半監(jiān)督模型

為什么加入無標(biāo)簽數(shù)據(jù)還能增強模型呢?

首先我們做一個假設(shè)伪很,所有的樣本都由高斯混合模型生成。其概率密度如下

圖片發(fā)自簡書App

前者x是某個樣本奋单,后者是高斯模型的參數(shù)

我們需要計算的概率是

圖片發(fā)自簡書App

由推導(dǎo)可知锉试,后驗概率可以分解為兩個概率乘積。前一個概率與標(biāo)簽有關(guān)览濒,而后面的概率與標(biāo)簽無關(guān)呆盖。那么我們無標(biāo)簽數(shù)據(jù)實際上就是在學(xué)習(xí)后一個概率。研究指出匾七,無標(biāo)簽數(shù)據(jù)可使模型得到增強絮短。

但要利用無標(biāo)簽數(shù)據(jù)需要滿足條件。最常見的是聚類條件和流型條件昨忆。前者假設(shè)數(shù)據(jù)可分為多個簇丁频,也就是相同類數(shù)據(jù)具有相似性。后者要求相鄰樣本輸出相鄰,因為輸出沒有一定要是某個類席里,輸出范圍更大了叔磷,所以后者可以看做是前者的一個推廣。

半監(jiān)督模型可以分為兩種奖磁,一種是pure純監(jiān)督改基,一種是直推學(xué)習(xí)。

前者不把無標(biāo)簽?zāi)P涂醋龃郎y數(shù)據(jù)咖为。后者將無標(biāo)簽?zāi)P涂醋龃郎y數(shù)據(jù)秕狰。

co-train

也叫做協(xié)同訓(xùn)練。是一種直推模型

它是作為多視圖模型出現(xiàn)躁染。何為視圖鸣哀,一個屬性集可以看做一個視圖。

算法前提:各個視圖之間滿足條件獨立(實際上真正獨立的情況很少吞彤,但是在弱條件下也能提高性能)我衬,且兩個視圖間充分冗余(也就是說一個視圖足夠產(chǎn)生最優(yōu)學(xué)習(xí)器的信息,或者說這個視圖可以由其他視圖推出)

假設(shè)我們有兩個視圖的數(shù)據(jù)饰恕,我們對每一個有標(biāo)簽的視圖數(shù)據(jù)進行訓(xùn)練挠羔,得到兩個model。然后我們用兩個model對無標(biāo)簽的數(shù)據(jù)進行訓(xùn)練埋嵌。模型1從輸出標(biāo)簽中選出置信度最高的數(shù)據(jù)作為模型2訓(xùn)練數(shù)據(jù)破加,模型2也從輸出標(biāo)簽中選出置信度最高分?jǐn)?shù)據(jù)作為模型1的訓(xùn)練數(shù)據(jù)。兩個模型進行第二輪訓(xùn)練莉恼,訓(xùn)練完后重復(fù)操作拌喉,直到模型不在變化。

對于有大量的特征值情況下俐银,可以把屬性集隨機劃分為兩個視圖也有很好效果。

co-forest

用森林來代替學(xué)習(xí)器端仰,出手于周志華老師

代碼實現(xiàn)目前只有java還未進行過嘗試捶惜。

主要思想,對于森林中的每一棵樹荔烧,首先也是用帶標(biāo)簽的數(shù)據(jù)先訓(xùn)練吱七。而后,取除了本樹以外其他樹為該樹的伴隨集成鹤竭,該集成對無標(biāo)簽數(shù)據(jù)進行預(yù)測踊餐,預(yù)測投票超過閾值theta就加入訓(xùn)練集。

也有置信度判斷和采樣方法臀稚,不詳細(xì)說明吝岭。

tri-train

不要求兩個獨立的視圖,使用更泛化。

也屬于是直推模型窜管。

我們一共有3個分類器散劫,首先將數(shù)據(jù)有放回的抽樣,抽得3組數(shù)據(jù)幕帆,并用于訓(xùn)練這三個分類器获搏。

訓(xùn)練好后,我們將無標(biāo)簽樣本作為預(yù)測集失乾,分別讓三個分類器進行預(yù)測常熙。預(yù)測出的標(biāo)簽可以分為兩類,一類是三個分類器都預(yù)測得一樣碱茁,一類是2個分類器一個結(jié)果另一個結(jié)果不一樣(由于是二分類問題)裸卫。我們以少數(shù)服從多數(shù)的原則,將后一類數(shù)據(jù)的標(biāo)簽定為多數(shù)投票的結(jié)果早芭,并將其放入預(yù)測錯的訓(xùn)練器進行訓(xùn)練...反復(fù)這個過程直到模型不再變化彼城。

用該模型進行預(yù)測時,我們?nèi)匀徊捎眠@種投票的集成學(xué)習(xí)方法退个。

且最終生成的3個學(xué)習(xí)器必須強于弱學(xué)習(xí)器募壕,且有較大的分歧

如果出現(xiàn)噪聲,會令少數(shù)一類是正確语盈,這樣訓(xùn)練的數(shù)據(jù)將是錯誤的舱馅。研究表明,少量的噪聲的負(fù)面效果會被大量未標(biāo)記結(jié)果抵消刀荒。

TSVM

該模型屬于直推模型代嗤,其首字母t就是直推的意思

該模型沒有廣泛使用的原因就是,太慢了太慢了太慢了缠借。

先講講其原理干毅,其目標(biāo)也是一個分類器。

圖片發(fā)自簡書App

第一步泼返,用標(biāo)簽數(shù)據(jù)訓(xùn)練出一個標(biāo)準(zhǔn)的svm模型硝逢,讓模型對無標(biāo)簽數(shù)據(jù)進行預(yù)測,從預(yù)測結(jié)果中選出兩個最可能錯誤的數(shù)據(jù)(要求兩數(shù)據(jù)類別相反)绅喉,交換它們的標(biāo)簽值并喂進模型渠鸽。反復(fù)如此,直到懲罰稀疏Cl=Cu

圖片發(fā)自簡書App
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末柴罐,一起剝皮案震驚了整個濱河市徽缚,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌革屠,老刑警劉巖凿试,帶你破解...
    沈念sama閱讀 216,496評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件排宰,死亡現(xiàn)場離奇詭異,居然都是意外死亡红省,警方通過查閱死者的電腦和手機额各,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,407評論 3 392
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來吧恃,“玉大人虾啦,你說我怎么就攤上這事『墼ⅲ” “怎么了傲醉?”我有些...
    開封第一講書人閱讀 162,632評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長呻率。 經(jīng)常有香客問我硬毕,道長,這世上最難降的妖魔是什么礼仗? 我笑而不...
    開封第一講書人閱讀 58,180評論 1 292
  • 正文 為了忘掉前任吐咳,我火速辦了婚禮,結(jié)果婚禮上元践,老公的妹妹穿的比我還像新娘韭脊。我一直安慰自己,他們只是感情好单旁,可當(dāng)我...
    茶點故事閱讀 67,198評論 6 388
  • 文/花漫 我一把揭開白布沪羔。 她就那樣靜靜地躺著,像睡著了一般象浑。 火紅的嫁衣襯著肌膚如雪蔫饰。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,165評論 1 299
  • 那天愉豺,我揣著相機與錄音篓吁,去河邊找鬼。 笑死蚪拦,一個胖子當(dāng)著我的面吹牛越除,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播外盯,決...
    沈念sama閱讀 40,052評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼翼雀!你這毒婦竟也來了饱苟?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,910評論 0 274
  • 序言:老撾萬榮一對情侶失蹤狼渊,失蹤者是張志新(化名)和其女友劉穎箱熬,沒想到半個月后类垦,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,324評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡城须,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,542評論 2 332
  • 正文 我和宋清朗相戀三年蚤认,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片糕伐。...
    茶點故事閱讀 39,711評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡砰琢,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出良瞧,到底是詐尸還是另有隱情陪汽,我是刑警寧澤,帶...
    沈念sama閱讀 35,424評論 5 343
  • 正文 年R本政府宣布褥蚯,位于F島的核電站挚冤,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏赞庶。R本人自食惡果不足惜训挡,卻給世界環(huán)境...
    茶點故事閱讀 41,017評論 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望歧强。 院中可真熱鬧澜薄,春花似錦、人聲如沸誊锭。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,668評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽丧靡。三九已至蟆沫,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間温治,已是汗流浹背饭庞。 一陣腳步聲響...
    開封第一講書人閱讀 32,823評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留熬荆,地道東北人舟山。 一個月前我還...
    沈念sama閱讀 47,722評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像卤恳,于是被迫代替她去往敵國和親累盗。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,611評論 2 353