《SVDNet for Pedestrian Retrieval》翻譯理解

Abstract:

這篇文章提出了一個用于檢索問題的SVDNet,聚焦于在行人再識別上的應(yīng)用焕济。我們查看卷積神經(jīng)網(wǎng)絡(luò)中全連接層的每一個權(quán)重向量,發(fā)現(xiàn)它們往往都高度相關(guān)盔几。這導(dǎo)致了每個全連接描述中個體之間的相關(guān)性晴弃,在基于歐幾里得距離時會影響檢索性能。為了解決這個問題,這篇論文使用了SVD來優(yōu)化深層表達學(xué)習(xí)上鞠。通過嚴厲和放松的迭代(RPI)訓(xùn)練框架际邻,我們可以在CNN訓(xùn)練中迭代地整合正交性約束,生成所謂的SVDNet芍阎。我們在Market-1501,CUHK03和DukeMTMC-reID數(shù)據(jù)集上做了評估世曾,證明了RPI可以有效的產(chǎn)生更具區(qū)分力的FC描述并顯著提高re-ID正確率。在Market-1501數(shù)據(jù)集上谴咸,基于CaffeNet時將rank-1準確率從55.3%提升到80.5%轮听,基于ResNet-50時則從73.8%提升到82.3%郭赐。

  1. Introduction

這篇論文考慮的問題是行人檢索蚕涤,也稱為行人再識別。它目的是檢索出有包含所查詢?nèi)宋锏膱D片端逼。

行人再識別不同于圖片分類珊随,因為訓(xùn)練集和測試集上包含不同的類別述寡。所以流行的re-ID深度學(xué)習(xí)方法包含以下幾步:1)在訓(xùn)練集上訓(xùn)練深度分類模型,2)使用全連接層提取query與gallery圖片的描述3)使用歐幾里得距離計算相似度返回一個經(jīng)過排序的列表叶洞。

通過觀察訓(xùn)練后的分類模型我們發(fā)現(xiàn)全連接層的權(quán)重向量往往高度相關(guān)由此受到啟發(fā)鲫凶。這個問題主要有兩個原因。第一個原因與訓(xùn)練樣本的non-uniform分布有關(guān)衩辟。此問題在最后一個FC層尤為明顯螟炫。FC層的每個單元的輸出代表了輸入圖片與類別的相似度。訓(xùn)練之后對于相似人物(如身穿紅色與紫色衣服的人)學(xué)習(xí)到了高度相關(guān)的權(quán)重向量艺晴,如圖1所示昼钻。第二個原因是CNN訓(xùn)練時很少有正交化約束。其實學(xué)習(xí)到的權(quán)重向量或許就是自然相關(guān)的财饥。

[圖片上傳失敗...(image-b29668-1515226349508)]

使用歐幾里得距離處理檢索問題時FC層的權(quán)重向量相關(guān)度會影響性能换吧。實際上使用歐幾里得距離作為檢索的判斷時折晦,特征向量中每個個體應(yīng)該盡可能獨立钥星。然而,當權(quán)重向量相關(guān)時满着,F(xiàn)C層描述——前面CNN層輸出在這些權(quán)重向量上的投影——會擁有相關(guān)性谦炒。這最終會導(dǎo)致一些記錄在歐幾里得距離中起主要作用,造成不良的排序結(jié)果风喇。舉例來說宁改,測試時兩個不同人物的圖片通過網(wǎng)絡(luò)傳輸產(chǎn)生如上圖1所示的綠色和黑色虛線,然后投影到紅色魂莫,粉紅色还蹲,藍色這幾個權(quán)重向量來組成描述。投影值在紅色與粉色向量上很接近,這使得兩個描述表現(xiàn)出相似性谜喊,而忽略了它們在藍色向量上投影的差異潭兽。總結(jié)來說斗遏,要想在歐幾里得距離下工作山卦,解決FC描述中的冗余是一個重要的問題。

為了解決這個問題诵次,我們提出了SVD-Net账蓉,它的特點是FC層包含不相關(guān)的權(quán)重向量。我們還提出了一種三步訓(xùn)練框架逾一。在第一步铸本,權(quán)重矩陣經(jīng)過SVD分解,由左酉矩陣和奇異值矩陣的乘積替換嬉荆。第二步归敬,我們保持正交的權(quán)重矩陣固定,只訓(xùn)練余下的層鄙早。第三步汪茧,權(quán)重矩陣不再固定,網(wǎng)絡(luò)整體優(yōu)化限番。這三步迭代進行舱污,來約束權(quán)重矩陣的正交性。在大型的re-ID數(shù)據(jù)集上的結(jié)果表現(xiàn)出了在baseline網(wǎng)絡(luò)上的顯著提升弥虐,我們的結(jié)果也是先進水平扩灯。

  1. Related Work

Deep learning for person re-ID:在行人再識別任務(wù)上的深度學(xué)習(xí)方法可以分為兩類:相似度學(xué)習(xí)和表達學(xué)習(xí)。也被稱為深度度量學(xué)習(xí)霜瘪,論文[25,24,1,13,5,19]都使用了圖片對或者是triplet的網(wǎng)絡(luò)輸入珠插。在兩個早期的工作中,Yi等人在[29]和Li等人在[13]中使用了圖片對颖对,并且在學(xué)習(xí)過程中加入了部分的先驗知識捻撑。之后Varior等人在論文[25]中加入了LSTMs模塊。LSTMs連續(xù)處理圖片部分缤底,所以能夠記住空間連接來提升對于深度特征的區(qū)分力顾患。[24]中Varior等人在每個卷積層之后插入了一個門限函數(shù)來捕獲圖片對之間有效的精細模式。上面提到的這些方法在一定程度上都能夠有效地學(xué)習(xí)圖片相似性个唧,但是或許在大規(guī)模的gallery上會有有效性問題江解。

第二種基于CNN的行人再識別方法關(guān)注于特征學(xué)習(xí),它將訓(xùn)練樣本劃分成預(yù)定義的類別徙歼,并使用FC描述來做檢索犁河。在[33鳖枕,34]中,使用一個CNN分類模型對視頻幀或圖片標注框進行學(xué)習(xí)桨螺。Xiao等人在論文[26]中從多個re-ID數(shù)據(jù)集聯(lián)合學(xué)習(xí)到通用的特征表達耕魄。Zheng等人在[31]中提出了類似于pictorial的PoseBox結(jié)構(gòu)學(xué)習(xí)姿態(tài)不變的特征來解決空間的不對齊。為了結(jié)合特征學(xué)習(xí)與相似度學(xué)習(xí)的優(yōu)點彭谁,Zheng等人在[35]和Geng等人在[10]中結(jié)合了contrastive loss和identification loss來提高對于學(xué)習(xí)特征的區(qū)分能力吸奴。我們這篇論文采用了分類模型,在不失有效性潛能的同時表現(xiàn)出了有競爭力的準確率缠局。

PCANet and truncated SVD for CNN:我們澄清了SVDNet與幾個“外觀相似”的工作之間的區(qū)別则奥。PCANet被提出用于圖片分類。它的特點是級聯(lián)的PCA過濾器狭园。PCANet與SVDNet相同的地方是它們都學(xué)習(xí)正交的投影方向读处。SVDNet與PCANet在兩個主要方面有所不同。首先唱矛,SVDNet是在CNN的權(quán)重矩陣上施加SVD罚舱,PCANet是在原始輸入和特征上施加PCA。第二個不同是绎谦,PCANet中的濾波器是用無監(jiān)督方式學(xué)習(xí)的管闷。它不像SVDNet那種依賴于后向傳播。實際上窃肠,SVDNet建立了CNN與SVD之間的聯(lián)系包个。SVDNet的參數(shù)是通過后向傳播與使用SVD分解進行學(xué)習(xí)。

Truncated SVD被廣泛應(yīng)用于CNN模型壓縮冤留。SVDNet與它們有兩點不同碧囊。首先,Truncated SVD用來分解FC層的權(quán)重然后用幾個重要的向量進行重建纤怒,SVDNet不去重建權(quán)重矩陣糯而,但是將其替換為左酉矩陣和奇異值矩陣。第二泊窘,Truncated SVD在可以接受的預(yù)測損失下減少了模型大小和測試時間熄驼,但是SVDNet顯著的提高了檢索準確率,沒有對模型大小產(chǎn)生影響州既。

Orthogonality in the weight matrix:我們注意論文[27]的目的是使CNN濾波器正交化谜洽,但是我們的網(wǎng)絡(luò)不同萝映。在論文[27]中吴叶,正交化的正則化效果有益于深層網(wǎng)絡(luò)的后向傳播,從而提高分類準確率序臂。論文[27]中提出的正則化也許并不會直接有益于特征學(xué)習(xí)過程蚌卤。但這篇論文中实束,正交化可以用于產(chǎn)生適用于檢索的不相關(guān)描述。我們的網(wǎng)絡(luò)或許不適合提高分類效果逊彭。

  1. Proposed Method

這一部分描述了SVDNet的結(jié)構(gòu)咸灿,訓(xùn)練方法以及工作機制。

3.1. Architecture

SVDNet往往接在主要網(wǎng)絡(luò)后侮叮,例如CaffeNet和ResNet-50避矢。主要的差別是SVDNet使用Eigenlayer作為倒數(shù)第二個FC層,如下圖2所示囊榜。Eigenlayer包含一個正交的權(quán)重矩陣审胸,是一個不包含偏差的線性層。不使用偏差是因為偏差會干擾到學(xué)習(xí)到的正交性卸勺。實際上砂沛,我們的初步實驗表明了加上ReLU激活層和偏差會對re-ID表現(xiàn)造成損失,所以我們選擇使用線性層來實現(xiàn)Eigenlayer曙求。選擇將Eigenlayer放在倒數(shù)第二個FC層而不是倒數(shù)第一個FC層是因為對最后一個FC層施加正則化模型不會收斂碍庵,這或許是因為最后一個FC層的權(quán)重相關(guān)性是由訓(xùn)練樣本的分布決定的。訓(xùn)練過程中悟狱,來自前面層的特征傳遞到Eigenlayer層作為輸入静浴。它們與Eigenlayer層權(quán)重的內(nèi)積組成輸出特征,與最后一個c維度的層形成全連接挤渐,這里的c是訓(xùn)練類別的個數(shù)马绝。

[圖片上傳失敗...(image-e231a5-1515226349507)]

測試時,我們提取query與gallery圖片學(xué)習(xí)到的嵌入挣菲。這一步富稻,我們能夠使用Eigenlayer的輸入或者輸出作為特征表達,如上圖2所示白胀。我們的實驗表明了這兩個特征擁有類似的表現(xiàn)椭赋,說明Eigenlayer不僅提高了輸出的表現(xiàn)還提高了輸入的表現(xiàn)。原因有點不明確或杠,我們認為這來源于CNN的后向傳播訓(xùn)練哪怔,在此期間,帶有Eigenlayer的權(quán)重矩陣的正交性會直接影響到輸入特征的特性向抢。

3.2.Training SVDNet

訓(xùn)練SVDNet的過程如下圖所示认境。我們首先簡要介紹第0步,然后再描述嚴格和放松的迭代策略(RPI),(第1挟鸠,2叉信,3步)。

Step 0.我們首先向網(wǎng)絡(luò)中添加了一個線性層艘希。然后微調(diào)網(wǎng)絡(luò)直到收斂硼身。注意到第0步之后的權(quán)重向量還是高度相關(guān)的硅急。實驗中,我們展示了CNN模型在第0步之后的re-ID表現(xiàn)佳遂,將對線性層的各種輸出維度進行評估营袜。

[圖片上傳失敗...(image-cae8e1-1515226349507)]

Restraint and Relaxation Iteration(RPI):這是訓(xùn)練SVDNet的關(guān)鍵步驟,包含三步丑罪。

·Decorrelation:我們按[圖片上傳失敗...(image-ce34c-1515226349502)] 來施加SVD荚板。這里W是線性層的權(quán)重向量,U是左酉矩陣吩屹,S是奇異值矩陣啸驯,V是右酉矩陣。經(jīng)過分解祟峦,我們將W替換成US罚斗。然后線性層使用[圖片上傳失敗...(image-bee30d-1515226349502)] 的所有特征向量作為權(quán)重向量并命名為Eigenlayer。

·Restraint:主干網(wǎng)絡(luò)一直訓(xùn)練直到收斂宅楞,但是Eigenlayer層被固定针姿。

·Relaxation:Eigenlayer層不固定,微調(diào)繼續(xù)進行厌衙。

經(jīng)過步驟1和2距淫,權(quán)重向量是正交的,但是步驟3是放松訓(xùn)練婶希。W不再是固定狀態(tài)榕暇。所以訓(xùn)練進入另一個關(guān)于”restraint and relaxation”的迭代t(t=1,...,T)。

雖然簡單喻杈,但是這種方法背后的機制很有趣彤枢。我們嘗試在章節(jié)3.3深入研究這種機制。所有涉及到的分析中都是使用在ImageNet上進行預(yù)訓(xùn)練的CaffeNet作為主干網(wǎng)絡(luò)筒饰。

3.3 Mechanism Study

Why is SVD employed?我們的想法是在CNN已經(jīng)學(xué)習(xí)到的內(nèi)容上找出一系列正交的投影方向缴啡。對于線性層,W空間的一組基是一個可能的解(例如由W列向量組成的線性子空間)瓷们。事實上存在了很多的正交基业栅。所以我們決定使用W的奇異向量作為一個新的投影方向并且使用對應(yīng)的奇異值來加權(quán)投影結(jié)果。所以我們將[圖片上傳失敗...(image-d89d2f-1515226349502)] 替換成US谬晕。經(jīng)過這一步特征表達在整個樣本空間的區(qū)分能力會保持不變碘裕。數(shù)學(xué)證明如下:

給出兩幅圖片<a name="OLE_LINK1"></a>[圖片上傳失敗...(image-7e0c62-1515226349502)] ,我們定義[圖片上傳失敗...(image-4614d0-1515226349502)] 為Eigenlayer層前面對應(yīng)的特征攒钳,[圖片上傳失敗...(image-8cc8-1515226349502)] 分別是Eigenlayer輸出的特征帮孔。[圖片上傳失敗...(image-7a1852-1515226349501)] 之間的歐幾里得距離[圖片上傳失敗...(image-e7a6e3-1515226349501)] 計算如下:

[圖片上傳失敗...(image-49cfe6-1515226349506)]

上式的U,S,V如前面所定義的。因為V是一個單位正交陣夕玩,所以等式2又等于:

[圖片上傳失敗...(image-8915d8-1515226349506)]

等式3表明了將[圖片上傳失敗...(image-65e71a-1515226349501)] 替換成US,[圖片上傳失敗...(image-77f4c8-1515226349501)] 還是不變的你弦。因此,算法流程中的第1步使得微調(diào)之后的CNN模型的區(qū)分能力是百分百保留的燎孟。

下面有一些其他的分解方法作為SVD的補充禽作。但是這些方法都沒有保留住CNN模型的區(qū)分能力。為了證明這一點揩页,我們將SVD與以下幾種做對比旷偿。

  1. 使用原始的W(定義為Orig)

  2. 將W替換為US(定義為US)

  3. 將W替換成U(定義為U)

  4. 將W替換成[圖片上傳失敗...(image-36c353-1515226349501)] (定義為[圖片上傳失敗...(image-cec18-1515226349501)] )

  5. 將W=QR(Q-R分解)替換成QD,這里的D是從上三角陣中提取的對角陣(定義為QD)

在Market-1501上的對比見下表1.我們將FC層替換成1024維的線性層并微調(diào)網(wǎng)絡(luò)直到收斂(算法1中的第0步)。之后我們使用方法2-5來替代微調(diào)后的W爆侣。這四種方法都是將W更新為一個正交矩陣萍程,但是表1指出,只有將W替換成US才能保持re-ID的準確率兔仰,其他的方法都會使準確率下降茫负。

[圖片上傳失敗...(image-93aeeb-1515226349505)]

When does performance improvement happen?如上證明所示,Alg.1中的第一步將[圖片上傳失敗...(image-4ff2a6-1515226349500)] 替換成US并沒有立刻帶來準確率提升乎赴,但是保證了不變忍法。不僅如此,經(jīng)過這一步操作榕吼,模型偏離了原始的微調(diào)結(jié)果饿序,訓(xùn)練樣本上的loss會在一定范圍內(nèi)增大。但是ALg.1中第二步和第三步會解決這個問題羹蚣。這兩步的主要的效果是提高Eigenlayer輸入特征和輸出特征的區(qū)分能力原探。一方面,約束步驟學(xué)習(xí)Eigenlayer層的上游和下游層顽素,它依然保持了正交特性咽弦。我們在圖5中展示了這一步提高了準確率。另一方面胁出,relaxation步將會使模型再次偏移正交狀態(tài)离唬,但是會更接近收斂。這一步划鸽,如圖5所示输莺,表現(xiàn)變差。但是使用RPI,整體的效果會提升裸诽。有趣的是教育孩子時嫂用,也鼓勵一種交替的relaxation和restraint策略。

Correlation diagnosing:目前為止丈冬,我們還沒有提出一種度量來評估向量相關(guān)嘱函。實際上,向量間相關(guān)度可以使用相關(guān)系數(shù)來估計埂蕊。但是據(jù)我們所知往弓,它無法評估向量集整體之間的相關(guān)度疏唾。在這篇論文中,我們提出下面的策略來估計總體相關(guān)度函似。給出一個權(quán)重向量:

[圖片上傳失敗...(image-95ceab-1515226349505)]

k是W中權(quán)重向量的個數(shù)(CaffeNet FC7層的k=4096),[圖片上傳失敗...(image-955fb0-1515226349500)] 是W中的權(quán)重向量槐脏。給出W,我們定義于運算[圖片上傳失敗...(image-84eda1-1515226349500)] 來度量W所有列向量的相關(guān)度:

[圖片上傳失敗...(image-eeaf09-1515226349505)]

從等式5,我們可以看到S(W)的值落在[圖片上傳失敗...(image-4b77f5-1515226349500)] 撇寞。當W為正交陣時S(W)的值為1顿天,當所有的權(quán)重向量都相同時S(W)獲得最小值[圖片上傳失敗...(image-505c9a-1515226349500)] 。所以當S(W)接近[圖片上傳失敗...(image-7ee4e6-1515226349500)] 或者很小時蔑担,權(quán)重向量有高的相關(guān)度牌废。比如,在我們的baseline中直接使用微調(diào)后的CaffeNet,[圖片上傳失敗...(image-b1b82-1515226349500)] =0.0072啤握。表明FC7層的權(quán)重向量高度相關(guān)鸟缕。我們會在章節(jié)4.5中展示,S可以有效地指示SVDNet訓(xùn)練地收斂排抬。

Convergence Criteria for RPI:實際應(yīng)用中什么時候停止RPI是一個很重要的問題叁扫。我們使用等式5來評估經(jīng)過relaxation步W的正交性,發(fā)現(xiàn)隨著迭代的進行畜埋,S(W)的值增加莫绣。這表示W(wǎng)中權(quán)重向量的相關(guān)度經(jīng)過RPI一步步減小。所以當S(W)變得穩(wěn)定時悠鞍,模型就收斂了对室,RPI也就結(jié)束。詳細的如下圖5所示咖祭。

[圖片上傳失敗...(image-44940a-1515226349505)]

  1. Experiment

4.1.Datasets and Settings

Datasets:這篇論文使用Market-1501,CUHK03,DukeMTMC-reID這3個數(shù)據(jù)集來評估掩宜。Market-1501數(shù)據(jù)集包含1501個個體,由6個相機捕捉的19732張gallery圖片和12936張訓(xùn)練圖像組成么翰。所有的標注框由DPM檢測器生成牺汤。大多數(shù)相關(guān)實驗都是在Market-1501數(shù)據(jù)集上進行的。CUHK03數(shù)據(jù)集包含1467個個體的13164張圖片浩嫌。每一個個體都是使用2個相機觀察到的檐迟。CUHK03同時提出了手動標注的和DPM檢測的標注框,在這篇論文中我們使用后者码耐。對CUHK03進行了20次隨機的訓(xùn)練測試集劃分追迟,最后給出平均結(jié)果。DukeMTMC-reID數(shù)據(jù)集由8個相機捕捉骚腥,用于跨相機追蹤敦间。我們采用了論文[37]的結(jié)果作為re-ID基準。它包含1404個個體(一半用來訓(xùn)練,一半用來測試)廓块,16522張訓(xùn)練圖片厢绝,228張query圖片和17661張gallery圖片。對于Market-1501與DukeMTMC-reID我們分別使用論文[32]和[37]中提供的評估包带猴。

在三個數(shù)據(jù)集上我們都使用了CMC與mAP進行表現(xiàn)評估昔汉。

Backbones:我們主要使用了兩種在ImageNet上預(yù)訓(xùn)練的模型作為主干網(wǎng)絡(luò),分別是CaffeNet和ResNet-50浓利。在使用CaffeNet時挤庇,我們直接將原始的FC7層替換成Eigenlayer钞速,這是為了以免認為效果提升來自于更深的結(jié)構(gòu)贷掖。當使用ResNet-50作為主干網(wǎng)絡(luò)時,我們在最后一個FC層前插入Eigenlayer渴语,因為ResNet沒有隱藏的FC層苹威,而且在50層結(jié)構(gòu)中增加一層的影響可以忽略。在Market-1501上的一些實驗驾凶,我們還使用了VGGNet和Tiny CaffeNet作為主干網(wǎng)絡(luò)來展示SVDNet在不同結(jié)構(gòu)上的效果牙甫。Tiny CaffeNet就是將CaffeNet的FC6層與FC7層的維度分別減小到1024和512。

4.2.Implementation Details

Baseline:下面是論文[33]的操作调违,baseline使用的是經(jīng)過微調(diào)后的CaffeNet與ResNet-50窟哺。使用的都是默認配置,除了最后的FC層輸出的維度改為了訓(xùn)練個體數(shù)技肩。CaffeNet baseline使用0.001的學(xué)習(xí)率訓(xùn)練了60個epoch且轨,然后又使用0.0001的學(xué)習(xí)率訓(xùn)練了20個epoch。ResNet baseline訓(xùn)練了60個epoch虚婿。開始的學(xué)習(xí)率是0.001旋奢,在25和50個epoch時減小了10倍。在測試時然痊,CaffeNet的FC6或FC7層與ResNet-50的Pool5層或FC層用作特征表達至朗。

在Market-1501上,CaffeNet和ResNet-50使用FC6(Pool5)達到的rank-1準確率為55.3(73.8%)剧浸,這與論文[33]中的結(jié)果一致锹引。

Detailed setting:使用CaffeNet作為主干的SVDNet通過25個RPI達到最終的收斂。除最后一輪restraint與relaxation外唆香,每一輪RPI我們都使用0.001的學(xué)習(xí)率迭代了2000次粤蝎。對于最后的restraint訓(xùn)練我們使用了5000次迭代(學(xué)習(xí)率為0.001)+3000次迭代(學(xué)習(xí)率為0.0001)。Batch size設(shè)置為64袋马。使用ResNet作為主干網(wǎng)絡(luò)的SVDNet通過7個RPI達到最終收斂初澎,我們使用了8000次迭代,并在5000輪后將學(xué)習(xí)率減小10倍。1到3輪RPI的初始學(xué)習(xí)率為0.001碑宴,后面的RPI的的初始學(xué)習(xí)率為0.0001软啼。Batch size大小設(shè)置為32。

所有模型中Eigenlayer的輸出維度設(shè)置為1024延柠。將在章節(jié)4.4中分析超參數(shù)的影響祸挪。章節(jié)4.5會說明為什么使用不同的主干網(wǎng)絡(luò)時會設(shè)置不同的RPI次數(shù)。

4.3.Performance Evaluation

The effectiveness of SVDNet:我們在三個re-ID基準上做了測試贞间。整體結(jié)果如下表2贿条。

[圖片上傳失敗...(image-a4821a-1515226349504)]

每種主干網(wǎng)絡(luò)的提升都是顯著的:當使用CaffeNet作為主干網(wǎng)絡(luò)時,在Market-1501上rank-1準確率從55.3%提升到80.5%增热,mAP從30.4%上升到55.9%整以。在CUHK03(DukeMTMC-reID)數(shù)據(jù)集上,rank-1準確率提升了26.3%(20.7%)峻仇,mAP上升了24.7%(17.5%)公黑。當使用ResNet作為主干網(wǎng)絡(luò)時,rank-1準確率在Market-1501,CUHK03摄咆,DukeMTMC-reID上分別上升了8.4%凡蚜,15.6%,11.2%吭从。對應(yīng)的mAP上升了14.2%朝蜘,13.7%和12.7%。一些Market-1501上的檢索例子如下圖3涩金。

[圖片上傳失敗...(image-e84378-1515226349504)]

Comparison with state of the art:我們將SVDNet與最先進的方法對比谱醇。表3列出了在Market-1501與CUHK03上的比較結(jié)果。與目前已經(jīng)發(fā)表的論文相比鸭廷,SVDNet取得了有競爭力的表現(xiàn)枣抱。我們在Market-1501上達到的rank-1=82.3%,mAP=62.1%,在CUHK03上的rank-1=81.8%,mAP=84.8%辆床。論文[38]中的re-ranking方法在Market-1501上的mAP比我們高佳晶,因為re-ranking利用了gallery圖像之間的關(guān)系。我們推測讼载,在re-ranking方法上使用SVDNet也會帶來效果提升轿秧。與一些未發(fā)表的Arxiv論文相比,我們的一些數(shù)字比論文[10]和論文[35]稍低咨堤。論文[10]和論文[35]都使用了verification與classification loss的結(jié)合,我們會進一步將這一策略運用到SVDNet中菇篡。

不僅如此,SVDNet在相對簡單CNN網(wǎng)絡(luò)上的表現(xiàn)是驚人的一喘。在Market-1501上驱还,使用CaffeNet作為主干網(wǎng)絡(luò)的SVDNet達到了80.5%的rank-1與55.9%的mAP嗜暴,這遠遠超出了其他基于CaffeNet的方法。另外议蟆,使用VGGNet與Tiny CaffeNet作為主干網(wǎng)絡(luò)分別達到了79.7%與77.4%的rank-1準確率闷沥。在CUHK03上,使用CaffeNet作為主干網(wǎng)絡(luò)的SVDNet甚至超過了一些基于ResNet的方法(除了DLCE(R))咐容。這個現(xiàn)象說明我們的方法可以通過高效計算獲得一個可接受的結(jié)果舆逃。

在表4中,使用論文[38]提出的新的訓(xùn)練/測試策略(稱為CUHK03-NP)對DukeMTMC-reID和CUHK03進行了比較總結(jié)戳粒。因為DukeMTMC和CUHK03-NP最近才成為基準所以只有相對較少的結(jié)果路狮。在DukeMTMC-reID上,這篇文章的rank-1=76.7%蔚约,mAP=56.8%奄妨,這高于一些有競爭力的方法,甚至是最近的GAN炊琉。在CUHK03-NP上展蒂,這篇文章的rank-1=41.5%又活,mAP=37.3%苔咪,也高于大部分方法。

[圖片上傳失敗...(image-1a3398-1515226349504)]

4.4. Imapact of Output Dimension

我們改變Eigenlayer輸出層的維度柳骄。圖4畫出了在CaffeNet和ResNet-50上的結(jié)果团赏。

當不使用RPI訓(xùn)練時,這個網(wǎng)絡(luò)與baseline模型沒有本質(zhì)區(qū)別耐薯√蚯澹可以看到倒數(shù)第二層的輸出維度顯著影響了表現(xiàn)。當輸出維度增加曲初,re-ID結(jié)果先增加体谒,然后到達一個平臺期再快速下降。在這種方案中臼婆,我們發(fā)現(xiàn)使用低維更加有益抒痒,可能是因為減少了FC層濾波器的冗余。

[圖片上傳失敗...(image-e5b2df-1515226349504)]

輸出維度對SVDNet最終效果的影響還展示了另一種趨勢颁褂。當輸出維度增加故响,效果會逐漸提升到一個穩(wěn)定的水平,這表明我們的模型可以對有害的冗余免疫颁独。

4.5.RPI Boosting Procedure

這個實驗揭示了每個restraint步與relaxation步如何改變re-ID表現(xiàn)以及SVDNet如何一步步達到一個穩(wěn)定的結(jié)果彩届。在我們的實驗中,每個RPI中都使用了25個restraint phase與relaxation phase誓酒。Eigenlayer的輸出維度設(shè)置為2048樟蠕。我們測試了所有CNN模型的re-ID表現(xiàn)與S(W)的值。我們也增加了baseline模型的訓(xùn)練epoch,使其與SVDNet的訓(xùn)練相同,比較沒有RPI訓(xùn)練的模型的S(W)的值寨辩。結(jié)果如下圖5所示寂汇,可以由此得出四個結(jié)論。

[圖片上傳失敗...(image-552484-1515226349504)]

第一捣染,每次RPI,rank-1正確率有一個“上升和下降”的過程來響應(yīng)restraint和relaxation步驟:restraint訓(xùn)練時W保持正交性骄瓣,表現(xiàn)提升,表明學(xué)習(xí)到的特征的區(qū)分能力增加耍攘。第二榕栏,隨著RPI的進行,整體的準確率提升蕾各,當模型收斂時達到一個穩(wěn)定值扒磁。第三,使用S(W)來判斷正交性作為RPI的收斂條件是很有效的式曲。RPI訓(xùn)練時妨托,S(W)逐漸增加直到達到穩(wěn)定,沒有RPI時吝羞,S(W)會在一個相對低的值范圍波動兰伤,表明了權(quán)重向量之間的高度相關(guān)。第四钧排,使用ResNet作為主干網(wǎng)絡(luò)的SVDNet相對CaffeNet的僅需要很少的RPI次數(shù)達到收斂敦腔。

4.6. Comparison of Decorrelation Methods

在章節(jié)3.3中,介紹了一些分解方法恨溜。我們證明了只有將W替換成US才能保持Eigenlayer輸出特征的區(qū)分能力符衔,其他三種方法都只會在一定程度上導(dǎo)致表現(xiàn)下降。這里我們給出使用RPI訓(xùn)練時的最終表現(xiàn)糟袁。

Market-1501數(shù)據(jù)集上的結(jié)果如表5所示判族。可以看到將W替換成US這種分解方法達到了最高的表現(xiàn)项戴,接著就是”U”,”QD”和“[圖片上傳失敗...(image-b365eb-1515226349499)] ”形帮。事實上與原始“Orig”相比,“[圖片上傳失敗...(image-7cfd47-1515226349499)] ”并沒有帶來可見的提升肯尺。這個實驗說明了不僅僅是正交本身沃缘,分解方法對于SVDNet也很重要。

[圖片上傳失敗...(image-84013e-1515226349503)]

  1. Conclusions

在這篇論文中则吟,提出了SVDNet作為行人檢索或ReID的表達學(xué)習(xí)槐臀。在全連接層的權(quán)重矩陣的投影方向上施加去相關(guān)。通過restraint和relaxation的迭代氓仲,向量相關(guān)度逐漸下降水慨。在這種策略下得糜,re-ID表現(xiàn)經(jīng)過反復(fù)的增加和降低,最終達到一個穩(wěn)定水平晰洒。由于權(quán)重向量之間的關(guān)聯(lián)減小朝抖,學(xué)習(xí)到的特征更適合應(yīng)用到使用歐幾里得距離的檢索任務(wù)中。在Market-1501,CuHK03和DukeMTMC-reID數(shù)據(jù)集上都得到了顯著的提升谍珊,re-ID準確率也接近最先進的表現(xiàn)治宣。

未來我們會進一步研究SVDNet以更多地了解其工作原理。我們也會將SVDNet運用到一般的實例檢索問題中砌滞。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末侮邀,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子贝润,更是在濱河造成了極大的恐慌绊茧,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,591評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件打掘,死亡現(xiàn)場離奇詭異华畏,居然都是意外死亡,警方通過查閱死者的電腦和手機尊蚁,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,448評論 3 392
  • 文/潘曉璐 我一進店門亡笑,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人枝誊,你說我怎么就攤上這事况芒∠е剑” “怎么了叶撒?”我有些...
    開封第一講書人閱讀 162,823評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長耐版。 經(jīng)常有香客問我祠够,道長,這世上最難降的妖魔是什么粪牲? 我笑而不...
    開封第一講書人閱讀 58,204評論 1 292
  • 正文 為了忘掉前任古瓤,我火速辦了婚禮,結(jié)果婚禮上腺阳,老公的妹妹穿的比我還像新娘落君。我一直安慰自己,他們只是感情好亭引,可當我...
    茶點故事閱讀 67,228評論 6 388
  • 文/花漫 我一把揭開白布绎速。 她就那樣靜靜地躺著,像睡著了一般焙蚓。 火紅的嫁衣襯著肌膚如雪纹冤。 梳的紋絲不亂的頭發(fā)上洒宝,一...
    開封第一講書人閱讀 51,190評論 1 299
  • 那天,我揣著相機與錄音萌京,去河邊找鬼雁歌。 笑死,一個胖子當著我的面吹牛知残,可吹牛的內(nèi)容都是我干的靠瞎。 我是一名探鬼主播,決...
    沈念sama閱讀 40,078評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼求妹,長吁一口氣:“原來是場噩夢啊……” “哼较坛!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起扒最,我...
    開封第一講書人閱讀 38,923評論 0 274
  • 序言:老撾萬榮一對情侶失蹤丑勤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后吧趣,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體法竞,經(jīng)...
    沈念sama閱讀 45,334評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,550評論 2 333
  • 正文 我和宋清朗相戀三年强挫,在試婚紗的時候發(fā)現(xiàn)自己被綠了岔霸。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,727評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡俯渤,死狀恐怖呆细,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情八匠,我是刑警寧澤絮爷,帶...
    沈念sama閱讀 35,428評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站梨树,受9級特大地震影響坑夯,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜抡四,卻給世界環(huán)境...
    茶點故事閱讀 41,022評論 3 326
  • 文/蒙蒙 一柜蜈、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧指巡,春花似錦淑履、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,672評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至阔涉,卻和暖如春缆娃,著一層夾襖步出監(jiān)牢的瞬間捷绒,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,826評論 1 269
  • 我被黑心中介騙來泰國打工贯要, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留暖侨,地道東北人。 一個月前我還...
    沈念sama閱讀 47,734評論 2 368
  • 正文 我出身青樓崇渗,卻偏偏與公主長得像字逗,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子宅广,可洞房花燭夜當晚...
    茶點故事閱讀 44,619評論 2 354

推薦閱讀更多精彩內(nèi)容

  • 前面的文章主要從理論的角度介紹了自然語言人機對話系統(tǒng)所可能涉及到的多個領(lǐng)域的經(jīng)典模型和基礎(chǔ)知識葫掉。這篇文章,甚至之后...
    我偏笑_NSNirvana閱讀 13,906評論 2 64
  • 本文轉(zhuǎn)自:http://www.jixuweifeng.com/2016/07/24/AlexNet%E8%AE%...
    xielinjiang閱讀 2,335評論 0 1
  • 題目:《基于感知損失函數(shù)的實時風(fēng)格轉(zhuǎn)換和超分辨率重建》 文章地址:《Perceptual Losses for R...
    zhwhong閱讀 29,185評論 13 41
  • 生理需求書中列舉了不少證明這個觀點跟狱,如:1俭厚,囚犯為了與人溝通不惜付出生命的帶價;2驶臊,積極的婚姻關(guān)系比單身的在肺炎挪挤,...
    1點01的n次方閱讀 235評論 0 0
  • 親愛的,我愛你 不知道怎么開始聊下去的 慢慢的習(xí)慣每天和你道晚安早安 咱倆第一次見面下著雨 你打一把黑傘向我走來 ...
    山長說閱讀 168評論 0 1