由于簡書圖床問題無法有效識別圖片乘碑,原文請移步至『CVHub』官方衛(wèi)星公眾號閱讀!
引言
隨著深度學(xué)習(xí)在計算機(jī)視覺的廣泛應(yīng)用金拒,以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)模型取得了突破性的進(jìn)展兽肤。然而,直至今日绪抛,盡管提出了以 ViT 為代表的新一代視覺網(wǎng)絡(luò)架構(gòu)资铡,但數(shù)據(jù)稀缺仍然是構(gòu)建深度學(xué)習(xí)模型最常見的挑戰(zhàn)之一。在實際的應(yīng)用場景中幢码,足量且高保真的優(yōu)質(zhì)數(shù)據(jù)集通常是可遇不可求的笤休,一方面費錢費時費力不說,由于隱私保護(hù)和極端概率問題症副,數(shù)據(jù)集的獲取變得尤為困難店雅。因此政基,一種低成本且有效的方法便是利用數(shù)據(jù)增強(qiáng)來減少對訓(xùn)練數(shù)據(jù)的依賴,從而幫助開發(fā)人員更好更快地構(gòu)建高精度的 AI 模型闹啦。
今天沮明,CVHub 將為大家集中盤點計算機(jī)視覺各大主流任務(wù)上的數(shù)據(jù)增強(qiáng)策略,歡迎轉(zhuǎn)發(fā)窍奋、評論和收藏荐健,感謝大家長久以來的關(guān)注,我們將竭誠為大家?guī)沓掷m(xù)高質(zhì)量的 CV 論文解讀费变,以下是本文的大綱:
- 數(shù)據(jù)增強(qiáng)的定義
- 數(shù)據(jù)增強(qiáng)的作用
- 數(shù)據(jù)增強(qiáng)的方式
數(shù)據(jù)增強(qiáng)的定義
數(shù)據(jù)增強(qiáng)通常是依賴從現(xiàn)有數(shù)據(jù)生成新的數(shù)據(jù)點來人為地增加數(shù)據(jù)量的過程摧扇。這包括對數(shù)據(jù)進(jìn)行不同方向的擾動處理或使用深度學(xué)習(xí)模型在原始數(shù)據(jù)的潛在空間中生成新數(shù)據(jù)點以人為的擴(kuò)充新的數(shù)據(jù)集。
這里需要區(qū)分兩個概念挚歧,即增強(qiáng)數(shù)據(jù)和合成數(shù)據(jù):
合成數(shù)據(jù):在不使用真實世界圖像的情況下人工生成數(shù)據(jù)扛稽,合成數(shù)據(jù)可由
GAN
或者現(xiàn)如今大火的AGI
技術(shù)Diffusion Model
產(chǎn)生;增強(qiáng)數(shù)據(jù):從原始圖像派生而來滑负,并進(jìn)行某種較小的幾何變換(例如翻轉(zhuǎn)在张、平移、旋轉(zhuǎn)或添加噪聲等)或者色彩變換(例如亮度矮慕、對比度帮匾、飽和度或通道混洗等),以此來增加訓(xùn)練集的多樣性痴鳄。
數(shù)據(jù)增強(qiáng)的作用
省錢 · 省時 · 省心
在實際的應(yīng)用場景中瘟斜,數(shù)據(jù)集的采集、清洗和標(biāo)注在大多數(shù)情況下都是一個非常昂貴且費時費力且乏味的事情痪寻。有了數(shù)據(jù)增強(qiáng)技術(shù)螺句,一方面可以減輕相關(guān)人員的工作量,另一方面也可以幫助公司削減運營開支橡类。此外蛇尚,有些數(shù)據(jù)由于涉及到各種隱私問題可能用錢都買不到,又或者一些異常場景的數(shù)據(jù)幾乎是極小概率時間顾画,這時候數(shù)據(jù)增強(qiáng)的優(yōu)勢便充分的體現(xiàn)出來了取劫。
提升模型性能
眾所周知,卷積神經(jīng)網(wǎng)絡(luò)對平移研侣、視點谱邪、大小或光照均具有不變性。因此庶诡,CNN 能夠準(zhǔn)確地對不同方向的物體進(jìn)行分類虾标。在深度學(xué)習(xí)中,CNN 通過對輸入圖像進(jìn)行卷積運算來學(xué)習(xí)圖像中的不同特征,從而在計算機(jī)視覺任務(wù)上表現(xiàn)非常出色璧函。隨著 ViT 的提出,一系列 Vision Transformer 模型被提出并被廣泛地應(yīng)用基显。然而蘸吓,無論是 CNN 還是 Transformer,均離不開數(shù)據(jù)的支持撩幽。特別是库继,當(dāng)數(shù)據(jù)量較小時 CNN 容易過擬合,Transformer 則無法學(xué)習(xí)到良好的表征窜醉。
數(shù)據(jù)增強(qiáng)的方式
數(shù)據(jù)增強(qiáng)方式大致可分為兩類:基礎(chǔ)數(shù)據(jù)增強(qiáng)和高級數(shù)據(jù)增強(qiáng)宪萄。
基礎(chǔ)數(shù)據(jù)增強(qiáng)方法
Image Manipulation
圖像處理(Image Manipulation)是指在圖像中對其位置或顏色所做的更改:
- 位置操作是通過調(diào)整像素的位置來進(jìn)行的;
- 顏色操作是通過改變圖像的像素值來進(jìn)行的。
首先介紹下幾何數(shù)據(jù)增強(qiáng)(Geometric Data Augmentation
)榨惰,它是指對圖像幾何形狀所做的更改拜英。幾何指的是位置,比如以一定角度移動等琅催。這種技術(shù)改變了圖像中像素值的位置居凶,例如旋轉(zhuǎn)、平移和剪切藤抡。主要包含以下三種:
- Rotation
旋轉(zhuǎn)侠碧,其讓圖像在 0 到 360 度之間旋轉(zhuǎn)。此處旋轉(zhuǎn)度數(shù)是一個超參數(shù)缠黍,應(yīng)該根據(jù)實際需要選擇弄兜。舉個例子,就像大家最熟悉的 MNIST
一樣瓷式,我們不能旋轉(zhuǎn) 180 度替饿,不然數(shù)字 6 旋轉(zhuǎn) 180 就變成 9,這就離譜了蒿往。
- Translation
平移盛垦,它是另一種幾何類型的數(shù)據(jù)增強(qiáng),通過向上瓤漏、向下腾夯、向右或向左移動圖像以提供不同的視圖。
- Shearing
錯切蔬充,其字面意思是沿軸扭曲圖像蝶俱。錯切是一種數(shù)據(jù)增強(qiáng)技術(shù),可以將圖像的一部分向一個方向移動饥漫,而另一部分則向相反方向移動榨呆。從技術(shù)上講,它分為兩類庸队,即沿x軸切和y軸切积蜻。對于 x 軸闯割,圖像的頂部沿一個方向移動,底部沿完全相反的方向移動竿拆。而在 y 軸中宙拉,圖像的左側(cè)部分沿一個方向移動,右側(cè)部分沿相反方向移動丙笋。
其次谢澈,我們?yōu)榇蠹医榻B下非幾何數(shù)據(jù)增強(qiáng)(Non-Geometric Data Augmentations
),這種增強(qiáng)方式側(cè)重于圖像的視覺外觀而不是其幾何形狀御板。例如噪聲注入锥忿、翻轉(zhuǎn)、裁剪怠肋、調(diào)整大小和色彩空間操作是均是非幾何增強(qiáng)技術(shù)的范疇敬鬓。下面介紹一些經(jīng)典的方法:
- Flipping
翻轉(zhuǎn),它是一種水平或垂直翻轉(zhuǎn)圖像的數(shù)據(jù)增強(qiáng)技術(shù)灶似,幾乎會應(yīng)用在許多視覺任務(wù)上列林。一般來說,我們常用的是水平翻轉(zhuǎn)酪惭,垂直翻轉(zhuǎn)在大多數(shù)情況下會導(dǎo)致目標(biāo)歧義希痴,例如一個人翻轉(zhuǎn)過來就很不協(xié)調(diào)和自然,當(dāng)然還是那句話春感,根據(jù)你的實際應(yīng)用場景調(diào)整砌创。
- Cropping and resizing
裁剪,屬于另一種數(shù)據(jù)增強(qiáng)技術(shù)鲫懒,常用作預(yù)處理增強(qiáng)嫩实。使用隨機(jī)裁剪或中心裁剪作為數(shù)據(jù)增強(qiáng)。該技術(shù)會減小圖像的大小窥岩,然后執(zhí)行調(diào)整大小以匹配圖像的原始大小恩尾,同時不會平滑圖像的標(biāo)簽讥蟆。
- Noise Injection
注入噪聲是另一種數(shù)據(jù)增強(qiáng)技術(shù),它有助于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)穩(wěn)健的特征,對抵御對抗性攻擊非常有幫助稠曼。
- Color Space
一般來說围段,圖像通常是由 RGB 三顏色通道組成的找颓。這里如果我們單獨操縱每個通道值以控制亮度也是一種數(shù)據(jù)增強(qiáng)方式粒竖,有時也稱為光度增強(qiáng)。這種增強(qiáng)有助于避免模型偏向 lightning 條件呻疹。執(zhí)行顏色空間增強(qiáng)的最簡單方法是隔離任何通道并添加 2 個填充任何隨機(jī)值或 0 或 255 的通道吃引。顏色空間常用于照片編輯應(yīng)用程序,即用于控制亮度或暗度。
- Jitter
擾動镊尺,是一種通過隨機(jī)改變圖像的亮度朦佩、對比度、飽和度和色調(diào)的數(shù)據(jù)增強(qiáng)方式鹅心。對于這四個是超參數(shù)吕粗,我們應(yīng)仔細(xì)選擇它們的取值范圍。例如旭愧,如果我們不小心多度提高了肺部疾病檢測的X光圖像亮度,這會使肺部在X光中變白混雜宙暇,對疾病診斷實際是沒有幫助的输枯。
- Kernel Filters
這是一種用來銳化或模糊圖像的數(shù)據(jù)增強(qiáng)方式。一開始占贫,我們可以滑動大小為 n x n 的窗口 Kernel 或高斯模糊過濾器和邊緣過濾器的矩陣桃熄。高斯模糊濾鏡可以使圖像變得更加模糊,而邊緣濾鏡則使圖像的水平或垂直邊緣銳化型奥。
緊接著瞳收,我們繼續(xù)介紹第三種基于圖像擦除的數(shù)據(jù)增強(qiáng)方式(Image Erasing Data Augmentations
):
Cutout
是通過在訓(xùn)練期間隨機(jī)擦除子區(qū)域并在圖像中填充 0 或 255 的一種數(shù)據(jù)增強(qiáng)技術(shù)。
Random erasing
是一種像剪切一樣隨機(jī)擦除圖像中子區(qū)域的一種增強(qiáng)方式厢汹。但它也隨機(jī)決定是否屏蔽螟深,并決定屏蔽區(qū)域的縱橫比和大小。例如烫葬,我們可以在人臉識別任務(wù)中界弧,通過這項數(shù)據(jù)增強(qiáng)技術(shù)來模擬戴口罩的效果。
捉迷藏(Hide-and-Seek
)數(shù)據(jù)增強(qiáng)的關(guān)鍵思想是將圖像劃分為隨機(jī)大小的均勻正方形搭综,并隨機(jī)刪除隨機(jī)數(shù)量的正方形垢箕。當(dāng)重要信息被隱藏時,它迫使神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)相關(guān)特征兑巾。在每個epoch条获,它都會給出圖像的不同視圖。
最后蒋歌,我們向大家介紹基于網(wǎng)格掩碼的數(shù)據(jù)增強(qiáng)方式帅掘。先前的方法嘗試解決隨機(jī)刪除可能會存在完全擦除對象或刪除上下文信息區(qū)域的問題。為了在這些問題之間進(jìn)行權(quán)衡奋姿,GridMask
創(chuàng)建統(tǒng)一的掩碼锄开,然后將其應(yīng)用于圖像,如下圖所示:
此圖顯示了 GridMask 增強(qiáng)的過程称诗,具體的做法是生成一個掩碼萍悴,然后將其與輸入圖像相乘。
Image Mixing Data Augmentations
圖像混合數(shù)據(jù)增強(qiáng)在過去幾年一直是一個熱門話題。圖像混合數(shù)據(jù)增強(qiáng)是關(guān)于將圖像與其他圖像或相同圖像混合癣诱。在本文中计维,我們將其大致分為兩類,即單圖像混合(Single image mixing
)增強(qiáng)和非單圖像混合(Non-single image mixing
)增強(qiáng)撕予。
首先鲫惶,第一部分我們先介紹下基于單圖像混合的數(shù)據(jù)增強(qiáng)方式。單一圖像混合技術(shù)顧名思義便是僅使用一個圖像实抡,并從不同的視角對其進(jìn)行處理欠母。最近在單圖增強(qiáng)方面做了很多工作,比如LocalAugment
吆寨、SelfAugmentation
赏淌、SalfMix
等,下面分別為大家介紹下啄清。
Local Augment
六水,即局部增強(qiáng)的原理是將圖像切分成小塊,并在每個小塊上應(yīng)用不同類型的數(shù)據(jù)增強(qiáng)辣卒,目的是潛在地改變目標(biāo)偏差屬性掷贾,但產(chǎn)生顯著的局部特征,如上圖所示荣茫。雖然這種增強(qiáng)并不主宰全局結(jié)構(gòu)想帅,但提供了非常多樣化的圖像特征,這對于神經(jīng)網(wǎng)絡(luò)以更通用的方式學(xué)習(xí)局部特征至關(guān)重要计露。
在 Self Augmentation
中博脑,圖像的隨機(jī)區(qū)域會被裁剪并隨機(jī)粘貼到圖像中,以提高小樣本學(xué)習(xí)的泛化能力票罐。
SalfMix
提出的背景主要是關(guān)注是否可以泛化基于單圖像混合增強(qiáng)的神經(jīng)網(wǎng)絡(luò)叉趣?為此,其思想是找到圖像的第一個顯著部分來決定應(yīng)該刪除哪個部分以及應(yīng)該復(fù)制哪個部分该押。
如上圖所示疗杉,SalfMix 是通過顯著性圖將圖像中顯著的區(qū)域裁剪出來并放入非顯著區(qū)域。
引入 KeepAugment
是為了防止分布偏移降低神經(jīng)網(wǎng)絡(luò)的性能蚕礼。KeepAugment 的想法是通過保留圖像的顯著特征和增強(qiáng)非顯著區(qū)域來提高保真度烟具。其中,被保留的特征進(jìn)一步允許在不改變分布的情況下增加多樣性奠蹬。
YOCO
朝聋,即You Only Cut Once,它可以從部分信息中識別對象并提高增強(qiáng)的多樣性囤躁,從而鼓勵神經(jīng)網(wǎng)絡(luò)表現(xiàn)得更好冀痕。YOCO 制作了兩張圖像荔睹,每張都應(yīng)用了一個增強(qiáng),然后將每張圖像連接成一張圖像言蛇。YOCO 易于實現(xiàn)僻他,且不會引入任何參數(shù),同時也易于使用腊尚。
Cut-Thumbnail
吨拗,即縮略圖,是一種新穎的數(shù)據(jù)增強(qiáng)婿斥,它將圖像調(diào)整到一定的小尺寸劝篷,然后用調(diào)整后的圖像隨機(jī)替換圖像的隨機(jī)區(qū)域,旨在減輕網(wǎng)絡(luò)的形狀偏差民宿。Cutthumbnail 的優(yōu)點是它不僅保留了原始圖像携龟,而且在調(diào)整后的小圖像中保持全局。
此圖像顯示了縮略圖的縮小圖像示例勘高。其方式是將圖像縮小到一定尺寸 112×112 或 56×56 后,盡管丟失了很多局部細(xì)節(jié)坟桅,但圖像中的目標(biāo)(狗)仍然可以識別华望。
最后一部分我們向大家介紹非單圖像的混合數(shù)據(jù)增強(qiáng)(Non-Single Image Mixing Data Augmentations)方式,這塊涉及的內(nèi)容比較豐富仅乓,包括大家所熟悉的 Mixup赖舟、CutMix、CopyPaste 等混合增強(qiáng)技術(shù)夸楣,下面讓我們一起看看吧宾抓!
Mixup
是根據(jù)混合因子(alpha)來混合任意兩個隨機(jī)圖像,這些圖像的相應(yīng)標(biāo)簽也以相同的方式混合豫喧∈矗混合數(shù)據(jù)增強(qiáng)不僅在準(zhǔn)確性方面而且在魯棒性方面都可持續(xù)地提高了性能。
CutMix
解決了信息丟失和區(qū)域丟失問題紧显。它的靈感來自 Cutout讲衫,其中任何隨機(jī)區(qū)域都用 0 或 255 填充,而在 cutmix 中孵班,不是用 0 或 255 填充隨機(jī)區(qū)域涉兽,而是用另一個圖像的補(bǔ)丁填充該區(qū)域。相應(yīng)地篙程,它們的標(biāo)簽也根據(jù)混合的像素數(shù)按比例混合枷畏。
SaliencyMix
基本上解決了 Cutmix 的問題,并認(rèn)為用另一個補(bǔ)丁填充圖像的隨機(jī)區(qū)域并不能保證補(bǔ)丁具有豐富的信息虱饿,因此混合未保證補(bǔ)丁的標(biāo)簽會導(dǎo)致模型學(xué)習(xí)關(guān)于圖像的不必要信息 修補(bǔ)拥诡。為了解決這個問題触趴,SaliencyMix 首先選擇圖像的顯著部分并將其粘貼到隨機(jī)區(qū)域或另一幅圖像的顯著或非顯著區(qū)域。
上面這張圖展示了該方法的實現(xiàn)過程袋倔。
Puzzle Mix 提出了一種拼圖混合數(shù)據(jù)增強(qiáng)技術(shù)雕蔽,該技術(shù)側(cè)重于靈活地使用圖像的顯著信息和基本統(tǒng)計數(shù)據(jù),目的是打破神經(jīng)網(wǎng)絡(luò)對現(xiàn)有數(shù)據(jù)增強(qiáng)的誤導(dǎo)監(jiān)督宾娜。
uzzle Mix
確保包含足夠的目標(biāo)類信息批狐,同時保留每個樣本 的局部統(tǒng)計信息。
SnapMix
是一種基于語義比例的混合數(shù)據(jù)增強(qiáng)前塔,它利用類激活圖來降低標(biāo)簽噪聲水平嚣艇。SnapMix 根據(jù)實際參與增強(qiáng)圖像的顯著像素創(chuàng)建目標(biāo)標(biāo)簽,確保增強(qiáng)圖像和混合標(biāo)簽之間的語義對應(yīng)华弓。
該圖給出了一個基本示例食零,可以看出,與 CutMix 和 Mixup 相比寂屏,SnapMix 生成的標(biāo)簽在視覺上更符合混合圖像的語義結(jié)構(gòu)贰谣。
FMix
也是一種混合樣本數(shù)據(jù)增強(qiáng)(MSDA),利用隨機(jī)二分類掩碼迁霎。這些隨機(jī)二分類掩碼是通過對從傅立葉空間獲得的低頻圖像應(yīng)用閾值來獲取的吱抚。一旦獲得掩碼,一個顏色區(qū)域?qū)?yīng)用于其中一個輸入考廉,另一個顏色區(qū)域?qū)?yīng)用于另一個輸入秘豹。整體流程如下圖所示:
MixMo
側(cè)重于通過子網(wǎng)絡(luò)學(xué)習(xí)多輸入多輸出。該方法的主要動機(jī)是采用更可靠的機(jī)制代替直接的隱藏求和操作昌粤。MixMo 的具體做法是將 M 個輸入嵌入到共享空間中既绕,將它們混合并將它們傳遞到更深的層進(jìn)行分類。
StyleMix
針對以前的方法問題涮坐,即不區(qū)分內(nèi)容和樣式特征凄贩。為了解決這個問題提出了兩種方法 styleMix 和 StyleCutMix,這是第一個非常詳細(xì)地分別處理圖像的內(nèi)容和樣式特征的工作膊升,并且它在流行的基準(zhǔn)數(shù)據(jù)集上顯示出令人印象深刻的性能怎炊。
RandomMix
可用于提高模型的泛化能力,它從一組增強(qiáng)中隨機(jī)選擇混合增強(qiáng)并將其應(yīng)用于圖像廓译,使模型能夠查看不同的樣本评肆。整體演示如下圖所示:
MixMatch
是一種應(yīng)用于半監(jiān)督學(xué)習(xí)的數(shù)據(jù)增強(qiáng)技術(shù),其將單個圖像增加 K 次并將所有 K 個圖像傳遞給分類器非区,對它們的預(yù)測進(jìn)行平均瓜挽,最后,通過調(diào)整它們的分布溫度項來增強(qiáng)它們的預(yù)測征绸。
ReMixMatch
是混合匹配的擴(kuò)展久橙,通過引入分布對齊和增強(qiáng)錨定使先前的工作變得高效俄占。分布對齊任務(wù)是使未標(biāo)記數(shù)據(jù)的預(yù)測邊緣分布接近 ground truth 的邊緣分布,并鼓勵未標(biāo)記數(shù)據(jù)的預(yù)測邊緣分布接近 ground truth 標(biāo)簽的邊緣分布淆衷。增強(qiáng)錨定將輸入的多個強(qiáng)增強(qiáng)版本提供給模型缸榄,并鼓勵每個輸出接近同一輸入的弱增強(qiáng)版本的預(yù)測。
ReMixMatch 使用弱增強(qiáng)圖像(中間綠色部分)的預(yù)測來預(yù)測同一圖像(圖中藍(lán)色部分)的強(qiáng)增強(qiáng)祝拯。
FixMatch
通過在有限的標(biāo)記數(shù)據(jù)上進(jìn)行訓(xùn)練甚带,然后使用經(jīng)過訓(xùn)練的模型將標(biāo)簽分配給未標(biāo)記數(shù)據(jù)。Fixmatch 首先將偽標(biāo)簽分配給概率高于某個閾值的未標(biāo)記圖像佳头。該模型被迫對未標(biāo)記圖像的強(qiáng)增強(qiáng)版本進(jìn)行預(yù)測鹰贵,以使用交叉熵?fù)p失將其預(yù)測與偽標(biāo)簽相匹配。
AugMix
是一種簡單有效的數(shù)據(jù)增強(qiáng)康嘉,可減少訓(xùn)練和測試(未見)數(shù)據(jù)分布之間的差距碉输。AugMix 操作以相應(yīng)的隨機(jī)增強(qiáng)幅度執(zhí)行,最后亭珍,所有這些圖像被合并以生成一個新圖像敷钾,該圖像廣泛探索圖像周圍語義等效的輸入空間。
如上圖所示肄梨,在三個分支中分別進(jìn)行了三個操作闰非,最后,將所有圖像混合生成新圖像峭范,這有利于提升模型的魯棒性。
Copy-Paste]
只是將一個圖像的掩碼實例復(fù)制并粘貼到另一個圖像瘪贱,其實現(xiàn)起來非常簡單纱控,但效果出眾,特別是對于小目標(biāo)檢測來說菜秦。當(dāng)然甜害,我們也可以采用 BBox 級的實例來實現(xiàn)。
上圖展示了兩個圖像的實例以不同的比例相互粘貼球昨。
如今尔店,最先進(jìn)的非標(biāo)簽保留數(shù)據(jù)增強(qiáng)技術(shù)已經(jīng)使用兩個示例的線性組合顯示出有希望的結(jié)果。Mixed-Example
集中討論兩個問題:
- 為什么這些方法有效主慰?
- 若通過提出新的增強(qiáng)嚣州,這種線性組合重要嗎?
上圖給出了改進(jìn)的混合示例執(zhí)行的線性方法和廣義增強(qiáng)的視覺比較共螺。
RICAP
该肴,即隨機(jī)圖像裁剪和修補(bǔ),是一種新的數(shù)據(jù)增強(qiáng)技術(shù)藐不,它切割和混合四張圖像而不是兩張圖像匀哄,并且圖像的標(biāo)簽也被混合秦效。
CutBlur
探索和分析了現(xiàn)有的超分辨率數(shù)據(jù)增強(qiáng)技術(shù),并提出了另一種新的數(shù)據(jù)增強(qiáng)技術(shù)涎嚼,通過切割高分辨率圖像塊并粘貼到相應(yīng)的低分辨率圖像阱州,反之亦然。Cutblur 在超分辨率方面表現(xiàn)出色法梯。
下面是它的實現(xiàn)原理示意圖:
[圖片上傳失敗...(image-e89bf0-1673617354135)]
ResizeMix
是一種將數(shù)據(jù)與保留的對象信息和真實標(biāo)簽混合的數(shù)據(jù)增強(qiáng)方法苔货,其通過直接以四種不同的方式剪切和粘貼源數(shù)據(jù)以針對圖像。這里鹊汛,四種不同的方式蒲赂,包括顯著部分、非部分刁憋、隨機(jī)部分或調(diào)整源圖像大小來修補(bǔ)滥嘴,它主要解決了兩個問題:
? 如何從源圖像中獲取補(bǔ)丁至耻?
? 將源圖像的補(bǔ)丁粘貼到目標(biāo)圖像的什么位置若皱?
[圖片上傳失敗...(image-366230-1673617354135)]
此外,ResizeMix 發(fā)現(xiàn)顯著性信息對于促進(jìn)混合數(shù)據(jù)擴(kuò)充并不重要尘颓。
ClassMix
是一種用于半監(jiān)督學(xué)習(xí)的基于分割的數(shù)據(jù)增強(qiáng)方法走触。傳統(tǒng)的數(shù)據(jù)增強(qiáng)對語義分割并不像圖像分類那樣有效。ClassMix 通過在考慮對象邊界的同時利用網(wǎng)絡(luò)預(yù)測疤苹,通過混合未標(biāo)記樣本來擴(kuò)充訓(xùn)練樣本互广。
[圖片上傳失敗...(image-3e14fd-1673617354135)]
CDA
,即 Context Decoupling Augmentation
卧土,是一種用于弱監(jiān)督語義分割的上下文解耦增強(qiáng)技術(shù)惫皱,從而解決 WSSS 領(lǐng)域傳統(tǒng)數(shù)據(jù)技術(shù)性能不佳的問題,這些通過增加相同上下文數(shù)據(jù)語義樣本不會在對象區(qū)分中貢獻(xiàn)太多價值尤莺。例如旅敷,對于圖像分類任務(wù)來說,目標(biāo)識別是由于目標(biāo)本身及其周圍環(huán)境颤霎,這不鼓勵模型只關(guān)注當(dāng)前目標(biāo)媳谁,而要結(jié)合上下文。
為了打破這一點友酱,CAD 使特定對象出現(xiàn)的位置多樣化晴音,并引導(dǎo)網(wǎng)絡(luò)打破對象和上下文信息之間的依賴關(guān)系。在這種情況下缔杉,它還提供增強(qiáng)和網(wǎng)絡(luò)焦點到對象實例而不是對象實例和上下文信息的方式段多。
[圖片上傳失敗...(image-6c0484-1673617354135)]
ObjectAug
是一種用于語義分割的對象級增強(qiáng),解決了混合圖像級數(shù)據(jù)增強(qiáng)策略的問題壮吩,以前的策略無法用于分割进苍,因為對象和背景是耦合的加缘,其次對象的邊界由于它們與背景的固定語義聯(lián)系而沒有被增強(qiáng)。為了緩解這個問題觉啊,首先,它借助語義標(biāo)簽將對象和背景從圖像中分離出來杠人,然后使用翻轉(zhuǎn)和旋轉(zhuǎn)等流行的數(shù)據(jù)增強(qiáng)技術(shù)對每個對象進(jìn)行增強(qiáng)。由于這些數(shù)據(jù)增強(qiáng)而導(dǎo)致的像素變化可以使用圖像修復(fù)來恢復(fù)袁铐。最后揭蜒,對象和背景耦合以創(chuàng)建增強(qiáng)圖像,從而有效的提升分割的性能剔桨。
[圖片上傳失敗...(image-dfa799-1673617354135)]
高級數(shù)據(jù)增強(qiáng)
高級數(shù)據(jù)增強(qiáng)的一個典型代表便是自動數(shù)據(jù)增強(qiáng)屉更,其目標(biāo)是從訓(xùn)練數(shù)據(jù)中找到數(shù)據(jù)增強(qiáng)策略。它將尋找最佳增強(qiáng)策略的問題轉(zhuǎn)化為離散搜索問題洒缀,由搜索算法和搜索空間組成瑰谜,主要包含四部分:
-
基于強(qiáng)化學(xué)習(xí)的數(shù)據(jù)增強(qiáng)(
Reinforcement learning data augmentation
) -
基于非強(qiáng)化學(xué)習(xí)的數(shù)據(jù)增強(qiáng)(
Non-Reinforcement learning data augmentation
) -
基于風(fēng)格遷移的數(shù)據(jù)增強(qiáng)(
Neural Style Transfer
) -
基于特征空間的數(shù)據(jù)增強(qiáng)(
Feature space data augmentations
)
下面簡單介紹下這兩部分。
基于強(qiáng)化學(xué)習(xí)的數(shù)據(jù)增強(qiáng)
AutoAugment
的目標(biāo)是通過自動搜索策略找到最好的數(shù)據(jù)擴(kuò)充而不是通過手動進(jìn)行數(shù)據(jù)擴(kuò)充树绩。為了解決這個限制似舵,其設(shè)計了搜索空間并具有由許多子策略組成的策略。每個子策略都有兩個參數(shù)葱峡,一個是圖像處理函數(shù),第二個是概率和大小龙助。這些子策略是使用強(qiáng)化學(xué)習(xí)作為搜索算法找到的砰奕,整體流程如下所示:
[圖片上傳失敗...(image-c5683e-1673617354135)]
Fast Autoaugment
解決了 AutoAugment 需要花費大量時間才能找到最佳的數(shù)據(jù)增強(qiáng)策略的問題。該方法的解決方案是通過利用基于密度匹配的高效搜索策略找到更優(yōu)的數(shù)據(jù)擴(kuò)充提鸟,從而減少了高階訓(xùn)練時間军援。
[圖片上傳失敗...(image-467db6-1673617354135)]
Faster AutoAugment
旨在非常高效地找到有效的數(shù)據(jù)增強(qiáng)策略,其基于可區(qū)分的增強(qiáng)搜索策略称勋。此外胸哥,它不僅為許多具有離散參數(shù)的轉(zhuǎn)換操作估計梯度,而且還提供了一種有效選擇操作的機(jī)制赡鲜。最終空厌,它引入了一個訓(xùn)練目標(biāo)函數(shù)庐船,旨在最小化原始分布和增廣分布之間的距離,該函數(shù)也是可微的嘲更。需要注意的是筐钟,其增強(qiáng)的參數(shù)是在反向傳播期間更新的,整體流程圖定義如下:
[圖片上傳失敗...(image-9ecdea-1673617354135)]
RAD
赋朦,即增強(qiáng)數(shù)據(jù)強(qiáng)化學(xué)習(xí)篓冲,其易于插入有效提升了強(qiáng)化學(xué)習(xí)算法的性能。RAD 主要考慮兩個問題:
- 學(xué)習(xí)數(shù)據(jù)效率宠哄;
- 新環(huán)境的泛化能力壹将;
此外,它表明傳統(tǒng)的數(shù)據(jù)增強(qiáng)技術(shù)使 RL 算法能夠在基于像素的控制和基于狀態(tài)的控制方面勝過復(fù)雜的 SOTA 任務(wù)毛嫉,下面是它的總體流程圖:
[圖片上傳失敗...(image-5cce4d-1673617354135)]
MARL
诽俯,即多代理強(qiáng)化學(xué)習(xí),是一種基于多代理協(xié)作的局部補(bǔ)丁自動增強(qiáng)方法狱庇,這是第一個使用強(qiáng)化學(xué)習(xí)找到補(bǔ)丁級別數(shù)據(jù)增強(qiáng)策略的方法惊畏。MARL 首先將圖像分成小塊,然后共同為每個小塊找到最佳數(shù)據(jù)增強(qiáng)策略.
[圖片上傳失敗...(image-b318d8-1673617354135)]
LDAS
建議使用自動增強(qiáng)來學(xué)習(xí)目標(biāo)檢測的最佳策略密任。它解決了目標(biāo)檢測增強(qiáng)的兩個關(guān)鍵問題:
- 分類學(xué)習(xí)策略不能直接應(yīng)用于檢測任務(wù)颜启,如果應(yīng)用幾何增強(qiáng),它會增加處理邊界框的復(fù)雜性浪讳;
- 與設(shè)計新的網(wǎng)絡(luò)架構(gòu)相比缰盏,數(shù)據(jù)增強(qiáng)增加的價值要少得多,因此受到的關(guān)注較少淹遵,但應(yīng)謹(jǐn)慎選擇用于目標(biāo)檢測的增強(qiáng)
下圖展示了基于此數(shù)據(jù)擴(kuò)充的一些子策略:
[圖片上傳失敗...(image-41e351-1673617354135)]
- [Scale-Aware Automatic Augmentation](https://arxiv.org/abs/2103.17220
"Scale-Aware Automatic Augmentation"
口猜,即Scale-Aware Automatic Augmentation
,是一種用于目標(biāo)檢測的數(shù)據(jù)增強(qiáng)策略透揣。首先济炎,它定義了一個搜索空間,其中圖像級和框級數(shù)據(jù)增強(qiáng)為尺度不變性做好了準(zhǔn)備辐真;其次须尚,這項工作還提出了一種新的搜索度量,名為有效且高效地搜索增強(qiáng)的帕累托比例平衡侍咱。
[圖片上傳失敗...(image-2e3103-1673617354135)]
ADA
提供了一種系統(tǒng)的方法來從目標(biāo)檢測的角度找到數(shù)據(jù)增強(qiáng)的最佳對抗性擾動耐床,該方法基于數(shù)據(jù)的博弈論解釋,即納什均衡楔脯。納什均衡提供了最佳邊界框預(yù)測器和數(shù)據(jù)擴(kuò)充的最佳設(shè)計撩轰。 最優(yōu)對抗性擾動是指 ground truth 的最差擾動,它迫使框預(yù)測器從最困難的樣本分布中學(xué)習(xí)。
[圖片上傳失敗...(image-324c04-1673617354135)]
從上圖可以看出堪嫂,ADA 偏向于選擇盡可能與 GT 不同但又包含關(guān)鍵對象特征的邊界框偎箫。
Deep CNN Ensemble
提出了一種新的 R-CNN 模型變體,在訓(xùn)練和評估方面進(jìn)行了兩個核心修改溉苛。首先镜廉,它使用幾個不同的 CNN 模型作為 R-CNN 中的集成器,其次愚战,它通過從 Microsoft COCO 數(shù)據(jù)集中選擇與 PASCAL VOC 一致的子集娇唯,巧妙地用 Microsoft COCO 數(shù)據(jù)增強(qiáng) PASCAL VOC 訓(xùn)練示例。原理圖如下所示:
[圖片上傳失敗...(image-b35c57-1673617354135)]
通過對抗性學(xué)習(xí)可以獲取穩(wěn)健而準(zhǔn)確的目標(biāo)檢測寂玲,先前方法展示了當(dāng)對目標(biāo)檢測任務(wù)進(jìn)行微調(diào)時分類器性能從不同的數(shù)據(jù)增強(qiáng)中獲得增益塔插,并且在準(zhǔn)確性和穩(wěn)健性方面的性能沒有提高。RADA
提供了一種探索對抗性樣本的獨特方法拓哟,有助于提高性能想许。為此,它在目標(biāo)檢測器的微調(diào)階段通過探索對抗性樣本來增強(qiáng)示例断序,這被認(rèn)為是依賴于模型的數(shù)據(jù)增強(qiáng)流纹。
首先,它從檢測器分類和定位層中選擇更強(qiáng)的對抗樣本违诗,這些樣本會隨著檢測器的變化而變化漱凝,以確保增強(qiáng)策略保持一致。該方法在不同目標(biāo)檢測任務(wù)的準(zhǔn)確性和魯棒性方面顯示出顯著的性能提升:
[圖片上傳失敗...(image-897d76-1673617354135)]
上圖分別展示了 RADA 分別提高了目標(biāo)檢測器在干凈圖像上的準(zhǔn)確性诸迟、檢測器對自然損壞的魯棒性以及對跨數(shù)據(jù)集域偏移的魯棒性茸炒。
PTDA
,即 Pespective Transformation Data Augmentation阵苇,同樣也是一種用于目標(biāo)檢測的新數(shù)據(jù)增強(qiáng)壁公,簡稱為透視變換,它可以生成以不同角度捕獲的新圖像绅项。因此紊册,它模仿圖像,就好像它們是在相機(jī)無法捕獲這些圖像的特定角度拍攝的一樣快耿。 該方法在多個目標(biāo)檢測數(shù)據(jù)集上顯示出有效性囊陡。
DADA
,Deep Adversarial Data Augmentation润努,即深度對抗性數(shù)據(jù)增強(qiáng),它將數(shù)據(jù)增強(qiáng)被表述為訓(xùn)練類條件和監(jiān)督 GAN 的問題示括。此外铺浇,它還引入了新的鑒別器損失,目的是保證數(shù)據(jù)擴(kuò)充是真實的垛膝,并且擴(kuò)充樣本被迫平等參與并在尋找決策邊界時保持一致鳍侣。
基于非強(qiáng)化學(xué)習(xí)的數(shù)據(jù)增強(qiáng)
以前的最佳增強(qiáng)方法大都是一些使用強(qiáng)化學(xué)習(xí)或一些復(fù)雜的學(xué)習(xí)策略丁稀,因此需要花費大量時間才能找到合適的增強(qiáng)方法和確定增強(qiáng)因子。這些方法消除了單獨搜索階段的障礙倚聚,這使得訓(xùn)練更加復(fù)雜线衫,從而增加了計算成本開銷。為了打破這一點惑折,RandAugment
是一種新的數(shù)據(jù)增強(qiáng)方法授账,比 AutoAugment 簡單又好用。主要思想是隨機(jī)選擇變換惨驶,并調(diào)整它們的大邪兹取:
[圖片上傳失敗...(image-71e1b6-1673617354135)]
基于風(fēng)格遷移的數(shù)據(jù)增強(qiáng)
基于風(fēng)格遷移的數(shù)據(jù)增強(qiáng)是一種獨特的數(shù)據(jù)增強(qiáng)方式,可以在不改變高層語義的情況下將一幅圖像的藝術(shù)風(fēng)格轉(zhuǎn)移到另一幅圖像粗卜。它為訓(xùn)練集帶來了更多多樣性屋确。這種神經(jīng)風(fēng)格遷移的主要目標(biāo)是從兩張圖像生成第三張圖像,其中一張圖像提供紋理內(nèi)容续扔,另一張圖像提供高級語義內(nèi)容攻臀。下面介紹一些常見的應(yīng)用。
STaDA
纱昧,Style Transfer as Data Augmentation刨啸,顧名思義便是基于風(fēng)格遷移的數(shù)據(jù)增強(qiáng)方法,這是一種徹底評估了不同的 SOTA 神經(jīng)風(fēng)格轉(zhuǎn)移算法作為圖像分類任務(wù)的數(shù)據(jù)增強(qiáng)砌些。此外呜投,它還將神經(jīng)風(fēng)格遷移算法與傳統(tǒng)的數(shù)據(jù)增強(qiáng)方法相結(jié)合,下面給出相關(guān)的示意圖:
[圖片上傳失敗...(image-1ab37c-1673617354135)]
NSTDA
存璃,Neural Style Transfer as Data Augmentation仑荐,是一種將神經(jīng)風(fēng)格遷移作為改進(jìn) COVID-19 診斷分類的數(shù)據(jù)增強(qiáng)方法。這項工作顯示了循環(huán)生成對抗網(wǎng)絡(luò)的有效性纵东,該網(wǎng)絡(luò)主要用于神經(jīng)風(fēng)格遷移粘招,增強(qiáng) COVID-19 負(fù) x 射線圖像以轉(zhuǎn)換為正 COVID 圖像以平衡數(shù)據(jù)集并增加數(shù)據(jù)集的多樣性。該方法充分表明了使用 Cycle GAN 增強(qiáng)圖像可以提高幾種不同 CNN 架構(gòu)的性能偎球。
[圖片上傳失敗...(image-e45096-1673617354135)]
這項工作提出了一種新的數(shù)據(jù)增強(qiáng)洒扎,稱為基于風(fēng)格神經(jīng)轉(zhuǎn)移的風(fēng)格增強(qiáng)。SA
隨機(jī)化顏色衰絮、對比度和紋理袍冷,同時在訓(xùn)練期間保持形狀和語義內(nèi)容。這是通過選擇任意樣式傳輸網(wǎng)絡(luò)來隨機(jī)化樣式并從多元正態(tài)分布嵌入中獲取目標(biāo)樣式來完成的猫牡。它提高了三個不同任務(wù)的性能:分類胡诗、回歸和域適應(yīng)诗充。
[圖片上傳失敗...(image-abcdc8-1673617354135)]
從上圖可以明顯的看出肛著,基于 SA 的數(shù)據(jù)增強(qiáng)方式可以將形狀保留下來窑睁,但樣式(包括顏色宠页、紋理和對比度)是隨機(jī)的。
StyPath
是一種用于穩(wěn)健組織學(xué)圖像分類的風(fēng)格遷移數(shù)據(jù)增強(qiáng)策略瑰抵,旨在減少偏見的風(fēng)格你雌。
[圖片上傳失敗...(image-3500c2-1673617354135)]
這項工作介紹了一種基于深度神經(jīng)網(wǎng)絡(luò)的人工系統(tǒng),可生成具有高感知質(zhì)量的藝術(shù)圖像二汛。AS
創(chuàng)建神經(jīng)嵌入婿崭,然后使用嵌入來分離圖像的風(fēng)格和內(nèi)容,最后再重新組合目標(biāo)圖像的內(nèi)容和風(fēng)格以生成藝術(shù)圖像习贫。
[圖片上傳失敗...(image-e145b6-1673617354135)]
基于特征空間的數(shù)據(jù)增強(qiáng)
基于特征空間的數(shù)據(jù)增強(qiáng)首先將圖像轉(zhuǎn)換為嵌入或表示逛球,然后對圖像的嵌入執(zhí)行數(shù)據(jù)增強(qiáng),最后再向大家介紹下這部分內(nèi)容苫昌。
這項工作首先使用編碼器-解碼器來學(xué)習(xí)表示颤绕,然后在表示上應(yīng)用不同的變換,例如添加噪聲祟身、插值或外推奥务。所提出的方法已經(jīng)顯示出靜態(tài)和順序數(shù)據(jù)的性能改進(jìn)。
[圖片上傳失敗...(image-98f164-1673617354135)]
- Feature Space Augmentation for Long-Tailed Data
該方法提出了基于特征空間中的新數(shù)據(jù)增強(qiáng)袜硫,以解決長尾問題并提升代表性不足的類樣本氯葬。所提出的方法首先在類激活圖的幫助下將類特定特征分為通用特征和特定特征。代表性不足的類樣本是通過將代表性不足的類的類特定特征與來自其他混淆類的類通用特征注入而生成的婉陷。這使得數(shù)據(jù)多樣化帚称,也解決了代表性不足的類別樣本的問題。
[圖片上傳失敗...(image-9a7fed-1673617354135)]
生成對抗網(wǎng)絡(luò)在無監(jiān)督域適應(yīng)中顯示出可喜的結(jié)果秽澳,以學(xué)習(xí)與源域無法區(qū)分的目標(biāo)域特征闯睹。這項工作擴(kuò)展了 GAN 以強(qiáng)制特征提取器成為域不變的,并通過特征空間中的數(shù)據(jù)增強(qiáng)來訓(xùn)練它担神,稱為特征增強(qiáng)楼吃。總的來說妄讯,該工作探索了 GAN 在特征層面的數(shù)據(jù)增強(qiáng)孩锡。
FeatMatch 提出了一種新的 SSL 特征空間數(shù)據(jù)增強(qiáng)方法,其靈感來自基于圖像的 SSL 方法亥贸,該方法結(jié)合了圖像增強(qiáng)和一致性正則化躬窜。基于圖像的 SSL 方法僅限于傳統(tǒng)的數(shù)據(jù)增強(qiáng)炕置。為了打破這一目標(biāo)荣挨,基于特征的 SSL 方法從復(fù)雜的數(shù)據(jù)擴(kuò)充中產(chǎn)生了不同的特征溜族。一個關(guān)鍵點是,這些高級數(shù)據(jù)增強(qiáng)利用了通過聚類提取的類內(nèi)和類間表示的信息垦沉。所提出的方法僅在 min-Imagenet 上顯示出顯著的性能增益,例如在 miniImageNet 上絕對增益 17.44%仍劈,而且還顯示了對分布外樣本的魯棒性厕倍。此外,圖像級和特征級增強(qiáng)和一致性之間的差異如下圖所示:
[圖片上傳失敗...(image-cfdb83-1673617354135)]
由于本文涉及內(nèi)容過多贩疙,目前已整理成 PDF 版本形式以供大家下載讹弯,歡迎關(guān)注『CVHub』官方衛(wèi)星號回復(fù)關(guān)鍵字“數(shù)據(jù)增強(qiáng)”領(lǐng)取。
以下是筆者寫過的相關(guān)總結(jié)系列篇这溅,有需要的讀者可自行查閱:
[圖片上傳失敗...(image-d37ad3-1673617354135)]
[圖片上傳失敗...(image-337a24-1673617354135)]
[圖片上傳失敗...(image-56adf9-1673617354135)]
[圖片上傳失敗...(image-ccc627-1673617354135)]
[圖片上傳失敗...(image-1509af-1673617354135)]
[圖片上傳失敗...(image-e919ce-1673617354135)]
[圖片上傳失敗...(image-6cfa63-1673617354135)]