增量分類器和表示學(xué)習(xí)
Sylvestre-Alvise Rebuffi行您,Alexander Kolesnikov, Georg Sperl, Christoph H. Lampert娃循,2001.
類增量學(xué)習(xí):
概念:一個可視化的對象分類系統(tǒng)應(yīng)該能夠逐步地學(xué)習(xí)新的類捌斧,當它們的訓(xùn)練數(shù)據(jù)變得可用時泉沾,我們將這種場景稱為類增量學(xué)習(xí)跷究。
條件:在形式上,我們要求算法具有以下三個屬性:
i)它應(yīng)該是可訓(xùn)練的丁存,一個數(shù)據(jù)流中不同類的例子在不同的時間發(fā)生解寝,
ii)它應(yīng)該隨時為到目前為止觀察到的類提供一個有競爭力的多類分類器编丘,
iii)它的計算需求和內(nèi)存占用應(yīng)該保持有限,或者至少非常緩慢地增長索守,相對于目前看到的類的數(shù)量而言卵佛。
前兩個標準表達了類增量學(xué)習(xí)的本質(zhì)敞斋。第三個標準防止了一些無關(guān)緊要的算法植捎。
作者就增量學(xué)習(xí)系統(tǒng)的開發(fā)問題,提出了一種新的策略:iCaRL(增量分類器和表示學(xué)習(xí))召夹。
它是一種實用的同時學(xué)習(xí)分類器的策略和在類增量設(shè)置中的特征表示戳鹅,允許以一種class-incremental(分類增量)的方式進行學(xué)習(xí):只有少量類的培訓(xùn)數(shù)據(jù)必須同時出現(xiàn)昏兆,并且可以逐步添加新類爬虱。
iCaRL的3個組成部分:
i)根據(jù)最接近樣本均值(nearest-mean-of-exemplars)規(guī)則進行分類跑筝,
ii)基于放牧(herding)的優(yōu)先樣本選擇(prioritized exemplar selection),
iii)運用知識提煉和原型排練(knowledge distillation and prototype rehearsal)進行學(xué)習(xí)赞警。
iCaRL的主要組件:
Class-Incremental分類器學(xué)習(xí)?
iCaRL從類增量形式的數(shù)據(jù)流中同時學(xué)習(xí)分類器和特征表示愧旦,即樣本集,
...笤虫,其中
,
琼蚯。
分類:iCaRL依賴集合P1遭庶,...稠屠,Pt完箩。從數(shù)據(jù)流中動態(tài)選擇的示例性圖像弊知。確保圖像的總數(shù)不超過一個固定參數(shù)K。算法1描述了用于將圖像分類到目前觀察到的類集合的樣本分類器的平均值叔扼。
訓(xùn)練:iCaRL使用增量學(xué)習(xí)策略一次處理成批的課程瓜富。每當新類的數(shù)據(jù)可用時与柑,iCaRL就調(diào)用更新例程(算法2)价捧。
體系結(jié)構(gòu):在底層结蟋,iCaRL利用了卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)嵌屎。我們將該網(wǎng)絡(luò)解釋為一個可訓(xùn)練的特征提取器
接著是一個單一的分類層宝惰,其sigmoid輸出節(jié)點與目前觀察到的類相同。
資源使用:理論上iCaRL可以運行無限長的時間内贮。在其運行期間的任何時候夜郁,其存儲器需求將是特征提取參數(shù)的大小竞端、K個示例性圖像的存儲以及觀察到的類的盡可能多的權(quán)重向量庙睡。
最接近平均值示例分類
iCaRL采用近似平均樣本分類策略乘陪。為了預(yù)測新圖像x的標簽y*啡邑,它計算到目前為止觀察到的每個類的原型向量戚绕,其中
是y類所有樣本的平均特征向量舞丛。它還計算應(yīng)分類的圖像的特征向量瓷马,并為類標簽分配最相似的原型:
背景:最接近平均值示例分類規(guī)則克服了增量學(xué)習(xí)設(shè)置的兩個主要問題欧聘。最近鄰范例均值規(guī)則(上式)并沒有解耦權(quán)向量怀骤,不會出現(xiàn)災(zāi)難性遺忘焕妙。每當特征表示發(fā)生變化時焚鹊,類原型就會自動變化末患,這使得分類器對特征表示的變化具有很強的魯棒性璧针。
表示學(xué)習(xí)
每當iCaRL獲得數(shù)據(jù)時,申屹,表示新課程哗讥,s杆煞,…索绪,t贫悄,它更新了它的特征提取例程和范例集窄坦。
算法3列出了逐步改進特征表示的步驟。
首先肠缨,iCaRL構(gòu)造了一個擴充的訓(xùn)練集晒奕,由當前可用的訓(xùn)練示例和存儲的范例組成脑慧。
接下來闷袒,針對每個示例計算當前網(wǎng)絡(luò)岩梳,并存儲所有以前類的結(jié)果網(wǎng)絡(luò)輸出(不是針對新類冀值,因為網(wǎng)絡(luò)還沒有針對這些類進行過培訓(xùn))池摧。
最后作彤,通過最小化損失函數(shù)來更新網(wǎng)絡(luò)參數(shù)竭讳,對于每個新圖像绢慢,該函數(shù)鼓勵網(wǎng)絡(luò)為新類輸出正確的類指示器(分類損失),對于舊類輸出正確的類指示器(分類損失)骚露,以重現(xiàn)上一步中存儲的分數(shù)(蒸餾損失)。
背景:表示學(xué)習(xí)步驟類似于普通的網(wǎng)絡(luò)優(yōu)化:從先前學(xué)習(xí)的網(wǎng)絡(luò)權(quán)重開始误续,它最小化了訓(xùn)練集上的損失函數(shù)育瓜。有兩個簡單微調(diào)的修改,旨在防止或至少減輕災(zāi)難性遺忘——擴充訓(xùn)練集钙态、擴充損失函數(shù)菇晃。
范例管理
每當iCaRL遇到新的類時,它都會調(diào)整它的范例集估灿。當t類已經(jīng)被觀察到并且K是可存儲的范例的總數(shù)時馅袁,iCaRL將對每個類使用m = K/t范例(直到舍入為止)汗销。這樣就確保了K個范例的可用內(nèi)存預(yù)算總是被充分利用抵窒,但是從來沒有超出。
有兩個例程負責(zé)范例管理:一個是為新類選擇范例李皇,另一個是減少以前類的范例集的大小。
算法4描述了范例選擇步驟茧跋。
選擇原型P1,……瘾杭,Pm并迭代存儲捍岳,直到滿足目標編號m睬隶。在迭代的每一步中页徐,都會向范例集中添加一個當前訓(xùn)練集的范例变勇,也就是使所有范例中的平均特征向量最接近所有訓(xùn)練范例中的平均特征向量的范例搀绣。
算法5描述了刪除示例過程。
為了將范例的數(shù)量從任意的m'減少到m巧鸭,一個人可以丟棄范例Pm+1麻捻,…,Pm'郑叠,只保留范例P1明棍,...,Pm沸版。
背景:范例管理例程的設(shè)計有兩個目的:最初的范例集應(yīng)該很好地接近類的均值向量歌豺,并且應(yīng)該能夠在算法運行期間的任何時間刪除范例而不違反這個屬性类咧。
采用data-independent刪除策略,以確保滿足后一個屬性区宇。
實驗
作者提出了一個評估增量學(xué)習(xí)方法的協(xié)議值戳,并將iCaRL的分類精度與其他方法進行了比較。隨后報告了進一步的實驗卧晓,通過分離單個成分的影響,揭示了iCaRL的工作機制郁稍。
基準協(xié)議
評估步驟:對于給定的多類分類數(shù)據(jù)集胜宇,類按固定的隨機順序排列。然后财破,根據(jù)可用的訓(xùn)練數(shù)據(jù)从诲,以類遞增的方式對每個方法進行訓(xùn)練。在每批類之后抖锥,只考慮那些已經(jīng)訓(xùn)練過的類碎罚,對數(shù)據(jù)集的測試部分數(shù)據(jù)評估得到的分類器荆烈。如果一個數(shù)字是可取的竟趾,報告這些精度的平均值,稱為平均增量精度玫鸟。
實驗中的兩個實例:
1) iCIFAR-100基準:使用CIFAR-100數(shù)據(jù)犀勒,每次訓(xùn)練2贾费、5、10褂萧、20或50個類导犹,批量訓(xùn)練所有100個類羡忘。評估度量是測試集上的標準多類精度磕昼。由于數(shù)據(jù)集是可管理的掰烟,作者使用不同的類順序運行這個基準10次,并報告結(jié)果的平均值和標準偏差蝎亚。
2) ilLSVRC基準:在兩種情況下使用ImageNet ILSVRC 2012數(shù)據(jù)集:僅使用一個100個類的子集先馆,以10個批處理(ilLSVRC-small)或使用全部1000個類,以100個批處理(ilLSVRC-full)梅惯。評估度量是數(shù)據(jù)集val部分的前5位精度仿野。
結(jié)果
主要實驗研究了不同方法在類增量條件下的精度脚作。除iCaRL外還實現(xiàn)并測試了三種可選的類增量方法。
LwF.MC:試圖通過使用學(xué)習(xí)過程中的蒸餾損失來防止災(zāi)難性遺忘劣针,就像iCaRL所做的那樣亿扁,但它沒有使用示例集。對于分類襟己,它使用網(wǎng)絡(luò)輸出值本身哄褒。這本質(zhì)上是一種無遺忘學(xué)習(xí)方法呐赡,但應(yīng)用于多類分類中。
fixed re pr.:固定表示學(xué)習(xí)了一個多類分類網(wǎng)絡(luò)萌狂,但以一種防止災(zāi)難性遺忘的方式。它在處理完第一批類后凍結(jié)特征表示误趴,在處理完相應(yīng)類后凍結(jié)分類層的權(quán)重务傲。對于后續(xù)的批處理類售葡,只訓(xùn)練新類的權(quán)重向量。
finetuning:精細調(diào)整學(xué)習(xí)一個普通的多類網(wǎng)絡(luò)楼雹,而不采取任何措施來防止災(zāi)難性遺忘尖阔。它也可以被解釋為通過微調(diào)先前學(xué)習(xí)的多類分類網(wǎng)絡(luò)來為新的傳入類學(xué)習(xí)多類分類器。
圖2顯示了實驗結(jié)果谴供。
結(jié)果顯示,iCaRL的性能明顯優(yōu)于其他方法泻肯,而且設(shè)置的增量越大性能越好(即可以同時處理的類越少)慰照。
在其他方法中焚挠,基于蒸餾的網(wǎng)絡(luò)訓(xùn)練(LwF.MC)總是次之,除了ilLSVRC-full之外榛泛,其中最好在第一批100個類之后修復(fù)表示噩斟。
Finetuning總是得到最差的結(jié)果,這證實了災(zāi)難性遺忘確實是課堂增量學(xué)習(xí)的一個主要問題沛简。
圖3進一步分析了不同方法的行為斥废。
圖3:iCIFAR-100上不同方法的混淆矩陣(條目被log(1+z)轉(zhuǎn)換以獲得更好的可見性)牡肉。iCaRL的預(yù)測幾乎均勻地分布在所有的類中统锤,而LwF.MC的預(yù)測幾乎均勻地分布在所有的類中,傾向于更頻繁地預(yù)測最近批次的類煌寇。固定表示的分類器對第一批的類有偏倚逾雄,而finetuning訓(xùn)練的網(wǎng)絡(luò)只預(yù)測最后一批的類標簽腻脏。
結(jié)果顯示迹卢,iCaRL的混淆矩陣在所有類中看起來都是同構(gòu)的徒仓,表明iCaRL對它在學(xué)習(xí)過程中遇到的早期或晚期的類沒有固有的偏見掉弛。特別是,它不會遭受災(zāi)難性的遺忘谋作。
而其他類的混淆矩陣顯示出不均勻的模式乎芳。
微分分析
為了進一步了解iCaRL的工作機制,在iCIFAR-100上進行了額外的實驗吭净,在實驗中分離了這些方法的各個方面寂殉。
首先原在,分析了為什么iCaRL在基于普通細化的訓(xùn)練基礎(chǔ)上有所改進。
它在三個方面有所不同:通過使用樣本均值分類規(guī)則村怪,通過在表示學(xué)習(xí)中使用樣本浮庐,以及通過使用蒸餾損失兔辅。
創(chuàng)建了三個混合設(shè)置:
第一個(hybrid 1)以與iCaRL相同的方式學(xué)習(xí)表示击喂。但是直接使用網(wǎng)絡(luò)的輸出進行分類稽煤,而不是樣本均值分類器。
第二個(hybrid 2)使用樣本進行分類,但沒有使用訓(xùn)練過程中的蒸餾損失循衰。
第三種方法(hybrid 3)既不使用蒸餾損失褐澎,也不使用樣本進行分類,而是在表示學(xué)習(xí)過程中使用樣本迁酸。
作為比較俭正,還包括Lw.FMC掸读。再一次,它使用了蒸餾澡罚,但是沒有任何范例始苇。
表1a將結(jié)果總結(jié)為增量訓(xùn)練所有步驟的分類準確率的平均值筐喳。
結(jié)果顯示避归,混合設(shè)置大多在iCaRL和LwF.MC之間取得了效果。這表明哺窄,事實上iCaRL的所有新組件都對其良好性能作出了重大貢獻账锹。
第二組實驗
第二組實驗中奸柬,研究了使用樣本均值作為分類原型,而不是使用最接近類均值(NCM)規(guī)則抱婉,在多大程度上損失了準確性。
后者使用未修改的iCaRL來學(xué)習(xí)表示衙四,但是使用NCM對圖像進行分類患亿。在NCM中窍育,使用當前的特征提取器在每次表示更新后重新計算類均值。
表1b的結(jié)果顯示iCaRL和NCM之間只有微小的差異表锻。確定iCaRL可靠地識別代表性范例瞬逊。
圖4展示了不同內(nèi)存預(yù)算的影響仪或,將iCaRL與表la的hybrid dl分類器和表1b的NCM分類器進行了比較。
結(jié)果表明iCaRL的表示學(xué)習(xí)步驟確實受益于更多的原型。有了足夠多的原型(這里至少有1000個)到旦,iCaRL的樣本均值分類器的性能與NCM分類器相似添忘,而根據(jù)網(wǎng)絡(luò)輸出進行篩選是沒有競爭力的。
結(jié)論
本文介紹了一種同時學(xué)習(xí)分類器和特征表示的類增量學(xué)習(xí)策略iCaRL斧吐。
iCaRL的三個主要組成部分是:
1)一個對數(shù)據(jù)表示的變化具有魯棒性的近似平均樣本分類器煤率,同時每個類只需要存儲少量副本乏冀,
2)一個基于herdingstep的優(yōu)先樣本選擇煤辨,
3)一個表示學(xué)習(xí)步驟,使用范例與蒸餾相結(jié)合端三,以避免災(zāi)難性遺忘鹃彻。
在CIFAR-100和ImageNet ILSVRC 2012上的實驗表明蛛株,iCaRL能夠在其他方法很快失敗的情況下,在很長一段時間內(nèi)增量學(xué)習(xí)欢摄。
iCaRL強大的分類效果的主要原因是它使用了示例圖像怀挠。
盡管取得了可喜的結(jié)果害捕,但類別遞增分類還遠遠沒有解決尝盼。特別是,iCaRL的性能仍然低于系統(tǒng)在批處理設(shè)置中(即同時提供所有類的所有訓(xùn)練示例)所實現(xiàn)的性能裁赠。