Simclr及CSI中對(duì)數(shù)據(jù)增強(qiáng)方法的相關(guān)實(shí)驗(yàn)

simclr動(dòng)圖
https://vdn1.vzuu.com/SD/9e10ead6-5a34-11eb-b86b-26b5ae12cbf4.mp4?disable_local_cache=1&auth_key=1629184957-0-0-6f9844a215936bb0f10ab911ee8301ae&f=mp4&bu=pico&expiration=1629184957&v=hw
Simclr核心觀點(diǎn):

  • 數(shù)據(jù)增強(qiáng)(data augmentations)的組合對(duì)預(yù)測(cè)任務(wù)的表現(xiàn)有重要影響臊岸,對(duì)于非監(jiān)督學(xué)習(xí)而言树酪,數(shù)據(jù)增強(qiáng)的提升作用更大如暖;
  • 本文定義了一個(gè)對(duì)比損失和表征之間的可學(xué)習(xí)非線性轉(zhuǎn)換汉形,大幅提高了表征的質(zhì)量;
  • 具有對(duì)比交叉熵?fù)p失(contrastive cross entropy loss)的表征學(xué)習(xí)得益于歸一化嵌入和適當(dāng)?shù)卣{(diào)整溫度參數(shù);
  • 與監(jiān)督學(xué)習(xí)相比,對(duì)比學(xué)習(xí)可以通過(guò)更多的訓(xùn)練和更大的Batch Size 獲得更好的表現(xiàn),更深更寬的網(wǎng)絡(luò)對(duì)對(duì)比學(xué)習(xí)表現(xiàn)的提升也有益说敏。
    1.simclr涉及的數(shù)據(jù)增強(qiáng)方法,需要注意的是丢郊,在實(shí)驗(yàn)中盔沫,其只使用了隨即裁剪(包括裁剪、大小調(diào)整和翻轉(zhuǎn))枫匾、顏色失真和高斯模糊三種手段迅诬。


    image.png

    作者認(rèn)為單一數(shù)據(jù)增強(qiáng)方法都不足以學(xué)到良好的表征,即使模型可以識(shí)別出任務(wù)中的正對(duì)婿牍,組合增強(qiáng)方法會(huì)增大預(yù)測(cè)難度侈贷,但是能夠顯著提升表征質(zhì)量,最后作者發(fā)現(xiàn),隨機(jī)裁剪和顏色失真的組合最有利于學(xué)習(xí)表征俏蛮。


    image.png

    實(shí)際用到的數(shù)據(jù)增強(qiáng)方法
    image.png


simclr中將數(shù)據(jù)增強(qiáng)后的圖像作為原始圖像的相近樣本撑蚌,在這一設(shè)定下,作者實(shí)驗(yàn)發(fā)現(xiàn)rotate等數(shù)據(jù)增強(qiáng)方法對(duì)于simclr是有反作用的搏屑,CSI作者解決的異常檢測(cè)問(wèn)題争涌,其pretext task設(shè)置為分辨出原始圖像與增強(qiáng)后的圖像,實(shí)驗(yàn)發(fā)現(xiàn)simclr中性能不佳的rotate反而在異常檢測(cè)中性能較好辣恋×恋妫可能的原因是simclr與csi的設(shè)定可以認(rèn)為是相反的,對(duì)于csi的設(shè)定伟骨,rotate等形狀變化類數(shù)據(jù)增強(qiáng)方法對(duì)分類任務(wù)更敏感(作者認(rèn)為是引入更顯著的分布差異)饮潦。
1.CSI論文中涉及的數(shù)據(jù)增強(qiáng)方法


image.png

2.將原圖與增強(qiáng)后的圖進(jìn)行二分類任務(wù)


image.png

可以得出perm和rotate這兩種涉及形狀變換的數(shù)據(jù)增強(qiáng)分發(fā)對(duì)于對(duì)于二分類任務(wù)的貢獻(xiàn)最大,說(shuō)明形狀變換的數(shù)據(jù)增強(qiáng)方法較大的改變了數(shù)據(jù)的分布携狭。
3.在vanilla SimCLR上自監(jiān)督學(xué)習(xí)任務(wù)對(duì)數(shù)據(jù)增強(qiáng)方法進(jìn)行消融實(shí)驗(yàn)
Align表示把數(shù)據(jù)增強(qiáng)當(dāng)作正樣本(認(rèn)為添加增強(qiáng)的圖像與原圖相似性高)

Shift表示把數(shù)據(jù)增強(qiáng)當(dāng)作負(fù)樣本(認(rèn)為添加增強(qiáng)的圖像與原圖相似性低)


image.png

實(shí)驗(yàn)可知继蜡,baseline任務(wù)性能為87.9,將相關(guān)數(shù)據(jù)增強(qiáng)方法當(dāng)作正樣本會(huì)降低vanilla SimCLR的性能逛腿,特別是perm和rotate的反作用最明顯稀并。
而當(dāng)作負(fù)樣本時(shí)候,將相關(guān)數(shù)據(jù)增強(qiáng)方法當(dāng)作正樣本會(huì)提升vanilla SimCLR的性能单默,特別是perm和rotate的作用最明顯碘举。
接上表,受simclr啟發(fā)搁廓,作者也嘗試了使用多種數(shù)據(jù)增強(qiáng)方法要優(yōu)于單種數(shù)據(jù)增強(qiáng)方法引颈,以rotate作為基礎(chǔ),結(jié)合其他的數(shù)據(jù)增強(qiáng)方法枚抵。
image.png

4.數(shù)據(jù)集與數(shù)據(jù)增強(qiáng)的關(guān)系
作者分析了數(shù)據(jù)集特點(diǎn)與數(shù)據(jù)增強(qiáng)的關(guān)系。對(duì)于旋轉(zhuǎn)不變性的數(shù)據(jù)集明场,如下圖的編織紋理類數(shù)據(jù)集汽摹,旋轉(zhuǎn)不影響語(yǔ)義,故對(duì)任務(wù)無(wú)促進(jìn)作用苦锨,而高斯噪聲則對(duì)任務(wù)有價(jià)值逼泣。更詳細(xì)的沒有說(shuō)明,數(shù)據(jù)集適應(yīng)的數(shù)據(jù)增強(qiáng)方法只能通過(guò)實(shí)驗(yàn)證明舟舒。


image.png


一些想法
在將自監(jiān)督學(xué)習(xí)引入異常檢測(cè)方法中拉庶,

  • 數(shù)據(jù)增強(qiáng)實(shí)際上是讓增強(qiáng)后的數(shù)據(jù)與原數(shù)據(jù)形成差異,以便于模擬異常數(shù)據(jù)秃励。(可通過(guò)t-sne查看分布)
  • 變形類數(shù)據(jù)增強(qiáng)方法(rotate/perm)更容易與原始圖像區(qū)分氏仗,說(shuō)明其與原始圖像的分布差異更大,原始其他數(shù)據(jù)增強(qiáng)是在原圖基礎(chǔ)上做的夺鲜。
  • 不同數(shù)據(jù)集的正常/異常數(shù)據(jù)分布不同皆尔,像mnist/cifar10等數(shù)據(jù)集模擬異常檢測(cè)任務(wù)呐舔,爭(zhēng)產(chǎn)樣本與異常樣本的分布差異較大,使用變形類數(shù)據(jù)增強(qiáng)方法可能更能模擬此種差異慷蠕。而像ped2這種實(shí)際場(chǎng)景下的異常事件數(shù)據(jù)集珊拼,正常/異常樣本的分布差異可能很小,此時(shí)使用變形類數(shù)據(jù)增強(qiáng)方法是不合適的流炕∨煜郑可以結(jié)合t-sne分析哪些數(shù)據(jù)增強(qiáng)方法與異常樣本集合更像,以及如何量化增強(qiáng)后的正常數(shù)據(jù)與異常數(shù)據(jù)的相似度(余弦距離每辟?)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末剑辫,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子影兽,更是在濱河造成了極大的恐慌揭斧,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,525評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件峻堰,死亡現(xiàn)場(chǎng)離奇詭異讹开,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)捐名,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,203評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門旦万,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人镶蹋,你說(shuō)我怎么就攤上這事成艘。” “怎么了贺归?”我有些...
    開封第一講書人閱讀 164,862評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵淆两,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我拂酣,道長(zhǎng)秋冰,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,728評(píng)論 1 294
  • 正文 為了忘掉前任婶熬,我火速辦了婚禮剑勾,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘赵颅。我一直安慰自己虽另,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,743評(píng)論 6 392
  • 文/花漫 我一把揭開白布饺谬。 她就那樣靜靜地躺著捂刺,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上叠萍,一...
    開封第一講書人閱讀 51,590評(píng)論 1 305
  • 那天芝发,我揣著相機(jī)與錄音,去河邊找鬼苛谷。 笑死辅鲸,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的腹殿。 我是一名探鬼主播独悴,決...
    沈念sama閱讀 40,330評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼锣尉!你這毒婦竟也來(lái)了刻炒?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,244評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤自沧,失蹤者是張志新(化名)和其女友劉穎坟奥,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體拇厢,經(jīng)...
    沈念sama閱讀 45,693評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡爱谁,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,885評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了孝偎。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片访敌。...
    茶點(diǎn)故事閱讀 40,001評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖衣盾,靈堂內(nèi)的尸體忽然破棺而出寺旺,到底是詐尸還是另有隱情,我是刑警寧澤势决,帶...
    沈念sama閱讀 35,723評(píng)論 5 346
  • 正文 年R本政府宣布阻塑,位于F島的核電站,受9級(jí)特大地震影響果复,放射性物質(zhì)發(fā)生泄漏陈莽。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,343評(píng)論 3 330
  • 文/蒙蒙 一据悔、第九天 我趴在偏房一處隱蔽的房頂上張望传透。 院中可真熱鬧耘沼,春花似錦极颓、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,919評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春骇径,著一層夾襖步出監(jiān)牢的瞬間躯肌,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,042評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工破衔, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留清女,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,191評(píng)論 3 370
  • 正文 我出身青樓晰筛,卻偏偏與公主長(zhǎng)得像嫡丙,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子读第,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,955評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容