ECCV 2016 person re-identification相關 第四篇
這篇文章大致的idea是把簡單的比如color LBP之類的特征通過LSTM網絡聚合成highly discriminative representation
優(yōu)勢:
- First, it allows discriminative information of frame-wise data to propagate along the temporal direction, and discriminative information could be accumulated from the first LSTM node to the deepest one今妄, thus yielding a highly discriminative sequence level human representation.
- Second, during feature propagation, this framework can prevent non-informative information from reaching the deep nodes, therefore it is robust to noisy features
- Third, the proposed fusion network is simple yet efficient, which is able to deal with sequences with variable length.
傳統(tǒng)的方法妈嘹,其中一個方面就是度量學習喷好,但是這篇文章通過融合簡單特征初茶,生成深層特征野芒,因此,簡單的度量比如cos就能產生好的效果叉趣。這里我也認為胜臊,reID的工作更多的是應該放在如何提取high discriminative 的特征上去。
傳統(tǒng)做reID裙犹,一般就是先用cnn或者直接提取single的底層特征尽狠,然后扔到度量學習層里面訓練,然后用得到的模型和度量來做預測叶圃。但是這種做法在提取特征的時候沒有考慮時間信息袄膏,只考慮了空間特征,所以不適合用視頻的形式作為輸入(multi shot)
本文在的特征采取的是手工特征(color掺冠、LBP)沉馆,因為cnn需要大量的數據作為訓練,而現(xiàn)有的訓練數據集都比較小德崭,容易過擬合斥黑。
主要思想
特征提取
LSTM的輸入是手工特征,圖片大小resize到128x64 kernal大小是16x8 重疊是8和4 所以對于一個frame出來15*15個結果 LBP有256維眉厨,加上HSV和Lab各三維锌奴,一共262維, 每個time stamp(本文中一共是10個timestamp)是262x225維的輸入 每個time stamp的輸出是512維的向量憾股,根據下面的公式算出每個node的信息(i代表輸入門 o代表輸出門 f代表遺忘門):
σ是sigmoid函數鹿蜀,·代表element-wise multiplication
采用N-way softmax:
其中:
loss函數是:
此外箕慧,由于每個人的sequence的長度可能不一樣,因此作者隨機抽取固定長度的幀作為輸入 這篇文章里取L = 10
timestamp也是10茴恰,每個timestamp輸出512維的特征颠焦,所以整個輸出是5120維的。
特征度量
本文中作者采用了余弦距離作為特征度量往枣,也嘗試用RankSVM伐庭。不過余弦距離就效果不錯了
Si和Sj就是5120維的輸出
實驗結果
缺點分析
僅僅采用color和LBP作為特征還是存在局限性的,如果兩個人衣服什么的穿的都很像婉商,并且存在遮擋 光線變化 那么就會容易出現(xiàn)錯誤
改進
融入更多的特征似忧,或者采用更深的LSTM網絡會更好