Pseudo-Label偽標簽

1. Semi-Supervised Learning

Semi-Supervised Learning(半監(jiān)督學習)是監(jiān)督學習和無監(jiān)督學習的一種結(jié)合方法。半監(jiān)督學習使用大量的未標記數(shù)據(jù)袍暴,以及同時使用標記數(shù)據(jù)编检,來進行模式識別工作访得。

2. Pseudo-Label

產(chǎn)生偽標簽的步驟非常簡單,可以用如下步驟概括:
Step1: 給定帶標簽數(shù)據(jù)和不帶標簽的數(shù)據(jù)
Step2: 使用帶標簽數(shù)據(jù)訓練模型
Step3: 使用訓練好的模型預(yù)測沒有標簽的數(shù)據(jù)柠逞,得到Pseudo-label(偽標簽)
Step4:從不帶標簽的數(shù)據(jù)中拿出一部分數(shù)據(jù)加入到帶標簽數(shù)據(jù)集中。重復Step2

3. Entropy-based Regularization

對于分類模型,我們當然期望輸出的某一個類別擁有很大的置信度撰糠,其它的類別置信度很小,這樣表明該模型對預(yù)測結(jié)果很有信心辩昆。


在數(shù)學中阅酪,我們可以用熵來度量該模型對輸出結(jié)果有沒有信心。有關(guān)熵的介紹可以參考之前的一篇博客:什么是熵汁针,如何計算术辐?
y^{u}的熵:E(y^{u})=-\sum_{m=1}^{5}y_{m}^{u}\ln y_{m}^{u}
y^{u}的預(yù)測結(jié)果是[1,0,0,0,0]施无,則E(y^{u})=0;
y^{u}的預(yù)測結(jié)果是[0.2,0.2,0.2,0.2,0.2]辉词,則$E(y^{u})=\ln 5。
可以看到猾骡,當模型對某一預(yù)測結(jié)果置信度越高瑞躺,熵越小敷搪。對于預(yù)測模型,我們自然希望它的熵越小越好隘蝎。

所以购啄,我們可以在損失函數(shù)上加上熵正則項:


4. Why could Pseudo-Label work?

那么偽標簽為何能夠用于半監(jiān)督模型呢,論文 Pseudo-Label : The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks給出了兩點解釋:

  1. 半監(jiān)督學習的目的是為了使用無標簽數(shù)據(jù)增強模型的泛化性嘱么。而cluster assumption表明狮含,決策邊界位于低密度區(qū)域(low-density regions)能夠提高模型的泛化性。而高密度區(qū)域的結(jié)果應(yīng)該具有相似的輸出結(jié)果曼振。而偽標簽就是取最高概率的作為偽標簽几迄;
  2. 熵正則通過最小化未標記數(shù)據(jù)的類概率的條件熵,促進了類之間的低密度分離冰评,而無需對密度進行任何建模映胁,通過熵正則化與偽標簽具有相同的作用效果,都是希望利用未標簽數(shù)據(jù)的分布的重疊程度的信息甲雅。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末解孙,一起剝皮案震驚了整個濱河市抛人,隨后出現(xiàn)的幾起案子弛姜,更是在濱河造成了極大的恐慌,老刑警劉巖妖枚,帶你破解...
    沈念sama閱讀 212,542評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件廷臼,死亡現(xiàn)場離奇詭異,居然都是意外死亡绝页,警方通過查閱死者的電腦和手機荠商,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,596評論 3 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來续誉,“玉大人莱没,你說我怎么就攤上這事】嵫唬” “怎么了郊愧?”我有些...
    開封第一講書人閱讀 158,021評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長井佑。 經(jīng)常有香客問我属铁,道長,這世上最難降的妖魔是什么躬翁? 我笑而不...
    開封第一講書人閱讀 56,682評論 1 284
  • 正文 為了忘掉前任焦蘑,我火速辦了婚禮,結(jié)果婚禮上盒发,老公的妹妹穿的比我還像新娘例嘱。我一直安慰自己狡逢,他們只是感情好,可當我...
    茶點故事閱讀 65,792評論 6 386
  • 文/花漫 我一把揭開白布拼卵。 她就那樣靜靜地躺著奢浑,像睡著了一般。 火紅的嫁衣襯著肌膚如雪腋腮。 梳的紋絲不亂的頭發(fā)上雀彼,一...
    開封第一講書人閱讀 49,985評論 1 291
  • 那天,我揣著相機與錄音即寡,去河邊找鬼徊哑。 笑死,一個胖子當著我的面吹牛聪富,可吹牛的內(nèi)容都是我干的莺丑。 我是一名探鬼主播,決...
    沈念sama閱讀 39,107評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼墩蔓,長吁一口氣:“原來是場噩夢啊……” “哼梢莽!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起奸披,我...
    開封第一講書人閱讀 37,845評論 0 268
  • 序言:老撾萬榮一對情侶失蹤蟹漓,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后源内,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,299評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡份殿,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,612評論 2 327
  • 正文 我和宋清朗相戀三年膜钓,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片卿嘲。...
    茶點故事閱讀 38,747評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡颂斜,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出拾枣,到底是詐尸還是另有隱情沃疮,我是刑警寧澤,帶...
    沈念sama閱讀 34,441評論 4 333
  • 正文 年R本政府宣布梅肤,位于F島的核電站司蔬,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏姨蝴。R本人自食惡果不足惜俊啼,卻給世界環(huán)境...
    茶點故事閱讀 40,072評論 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望左医。 院中可真熱鬧授帕,春花似錦同木、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,828評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至芥映,卻和暖如春洲尊,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背屏轰。 一陣腳步聲響...
    開封第一講書人閱讀 32,069評論 1 267
  • 我被黑心中介騙來泰國打工颊郎, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人霎苗。 一個月前我還...
    沈念sama閱讀 46,545評論 2 362
  • 正文 我出身青樓姆吭,卻偏偏與公主長得像,于是被迫代替她去往敵國和親唁盏。 傳聞我的和親對象是個殘疾皇子内狸,可洞房花燭夜當晚...
    茶點故事閱讀 43,658評論 2 350

推薦閱讀更多精彩內(nèi)容