在計(jì)算機(jī)視覺(CV)領(lǐng)域,目前的方法主要依賴大量的標(biāo)注樣本來學(xué)習(xí)豐富的視覺表征柱搜,從而在各項(xiàng)CV任務(wù)中取得較好的表現(xiàn)迟郎。然而在許多情況下,大規(guī)模的人工標(biāo)注并不容易獲得聪蘸。因此宪肖,我們希望可以利用無監(jiān)督方法去學(xué)習(xí)那些不帶標(biāo)注的樣本。那么問題來了健爬,一個(gè)樣本沒有了標(biāo)簽匈庭,我們該設(shè)計(jì)怎樣的目標(biāo)任務(wù),才能促使網(wǎng)絡(luò)學(xué)習(xí)到好的特征表示呢浑劳?
首先,我們來聽一個(gè)隔壁領(lǐng)域的小故事夭拌。
在自然語言處理(NLP)領(lǐng)域魔熏,上下文信息(context)常常作為特征學(xué)習(xí)的監(jiān)督信號。舉個(gè)栗子鸽扁,我們學(xué)生時(shí)代的老朋友——“完形填空”:給定一個(gè)很大的語料庫蒜绽,我們要訓(xùn)練一個(gè)模型,能夠?qū)⒚總€(gè)詞映射為特征向量桶现,然后根據(jù)上下文信息去預(yù)測某個(gè)被挖掉的詞躲雅。在特征空間中哪個(gè)詞和上下文詞距離越近,那么要填這個(gè)詞的可能性越大骡和。這可以看作是把一個(gè)無監(jiān)督問題(找到單詞間的相似性度量)轉(zhuǎn)化為了“自監(jiān)督問題”:學(xué)習(xí)一個(gè)函數(shù)相赁,能夠表示挖掉的詞與他旁邊的詞的關(guān)系相寇。這里的“完形填空”就作為一個(gè)pretext task(直譯借口任務(wù),或稱代理任務(wù))促進(jìn)模型學(xué)習(xí)詞特征钮科,進(jìn)而在很多真實(shí)任務(wù)中起到很大幫助唤衫。
于是,這樣的思路被帶進(jìn)了CV領(lǐng)域绵脯。CV中的自監(jiān)督學(xué)習(xí)隆重登場佳励。
下面正式地向大家介紹——“自監(jiān)督學(xué)習(xí)”(Self-supervised Learning)
自監(jiān)督學(xué)習(xí),是無監(jiān)督學(xué)習(xí)的一種蛆挫,即無需額外的人工標(biāo)簽赃承,僅利用數(shù)據(jù)自身的信息作為監(jiān)督(自己監(jiān)督自己)。利用來自數(shù)據(jù)自身的監(jiān)督信息悴侵,設(shè)計(jì)一個(gè)pretext task瞧剖,訓(xùn)練網(wǎng)絡(luò)去完成該pretext task,從而促使網(wǎng)絡(luò)學(xué)習(xí)到數(shù)據(jù)特征畜挨。
如何檢驗(yàn) pretext task 的有效性筒繁,或者說學(xué)習(xí)到的數(shù)據(jù)特征是否足夠好?
通過遷移學(xué)習(xí)巴元,將pretext task中學(xué)到的特征遷移到downstream task(直譯下游任務(wù)毡咏,或稱后續(xù)任務(wù))中,包括圖像分類逮刨、檢測呕缭、分割等任務(wù),類似于提供了預(yù)訓(xùn)練模型修己。如果能促進(jìn)這些 downstream ?task 中取得很好的表現(xiàn)恢总,則說明學(xué)習(xí)到的特征是好的。
說到這里睬愤,想必大家可以發(fā)現(xiàn)片仿,自監(jiān)督學(xué)習(xí)中最重要的一環(huán),就是如何設(shè)計(jì)一個(gè)pretext task尤辱,讓模型可以學(xué)到更好的數(shù)據(jù)特征砂豌。接下來,帶大家看看各種腦洞大開的pretext task光督。
[1] 相對位置預(yù)測:預(yù)測一張圖像中隨機(jī)選擇的兩個(gè)圖像塊之間的相對位置阳距。
[2] 圖像修復(fù):預(yù)測一張圖像中被遮擋的部分。
[3] 拼圖游戲:將圖像中打亂的9個(gè)圖像塊復(fù)原结借。
[4] 旋轉(zhuǎn)角度預(yù)測:預(yù)測圖像中物體的旋轉(zhuǎn)角度筐摘。
[5] 圖像著色:Lab圖像中利用L亮度通道,預(yù)測ab色彩通道。
[6] 跨通道預(yù)測:L通道和ab通道相互預(yù)測咖熟。
[7] 計(jì)數(shù):預(yù)測鼻子圃酵、眼睛、爪子球恤、頭的數(shù)量辜昵。
[8] 實(shí)例區(qū)分:分類,一張圖像和其增強(qiáng)的圖像為一類咽斧,和其他圖像為不同類堪置。
[9] 對比預(yù)測編碼:根據(jù)“過去的”信息,預(yù)測“未來的”信息张惹。
欲知后事如何舀锨,且待明天繼續(xù)更...