姓名:榮皓宇
學(xué)號(hào):17101223406
轉(zhuǎn)載自開發(fā)者頭條: https://mp.weixin.qq.com/s/f0a5MZn9ljf-0GMdb8ktZA泳炉,有部分刪改
【嵌牛導(dǎo)讀】:人臉識(shí)別技術(shù)的應(yīng)用已經(jīng)逐步滲透各行各業(yè),比如你的iphone X等嚎杨。但人臉識(shí)別已經(jīng)非常成熟了花鹅,現(xiàn)在讓我們介紹下下個(gè)方向:行人重識(shí)別
【嵌牛鼻子】:行人重識(shí)別應(yīng)用,人臉識(shí)別枫浙,區(qū)別刨肃,用途,解決方案
【嵌牛提問】:行人重識(shí)別如何識(shí)別一個(gè)極小的(32x32)圖中箩帚、可能是側(cè)臉甚至后腦勺的人呢真友?
【嵌牛正文】:
人臉識(shí)別在LFW超越人的識(shí)別能力之后,就很少有重大的突破了紧帕,逐漸轉(zhuǎn)向視頻中人臉識(shí)別或人臉屬性學(xué)習(xí)等方向盔然。CV頂級(jí)會(huì)議的接受論文量也出現(xiàn)了逐漸平穩(wěn)的趨勢(shì)。
而行人重識(shí)別(Person re-identification)也稱行人再識(shí)別是嗜,是利用計(jì)算機(jī)視覺技術(shù)判斷圖像或者視頻序列中是否存在特定行人的技術(shù)轻纪。廣泛被認(rèn)為是一個(gè)圖像檢索的子問題。 給定一個(gè)監(jiān)控行人圖像叠纷,檢索跨設(shè)備下的該行人圖像。旨在彌補(bǔ)目前固定的攝像頭的視覺局限潦嘶,并可與行人檢測(cè)/行人跟蹤技術(shù)相結(jié)合 涩嚣,可廣泛應(yīng)用于智能視頻監(jiān)控崇众、智能安保等領(lǐng)域。
行人重識(shí)別為國內(nèi)現(xiàn)在主要的研究方向之一航厚,投稿量則在逐年遞增顷歌。國內(nèi)主要為 清華大學(xué),北京大學(xué)幔睬,復(fù)旦大學(xué)眯漩,大工,中山大學(xué)麻顶,港中文赦抖,華科,西交辅肾,中科院队萤,廈大等研究機(jī)構(gòu);國外為 悉尼科技矫钓,QMUL和UTSA等要尔。行人重識(shí)別CV頂級(jí)會(huì)議的接受論文量穩(wěn)步提升。
1新娜、首先讓我們從頂級(jí)會(huì)議錄取量的角度分析
人臉識(shí)別論文數(shù)量 (按關(guān)鍵字檢索 “face recognition“,"face verification")
CVPR2013: 9
ICCV2013: 11
CVPR2014: 7
CVPR2015: 8
ICCV2015: 2
CVPR2016: 5
CVPR2017: 6
ICCV2017: 8
行人重識(shí)別論文數(shù)量 (按關(guān)鍵字檢索 “person re-identification”,"person search","person retrieval"赵辕,"pedestrian retrieval")
CVPR2013: 1
ICCV2013: 3
CVPR2014: 3
CVPR2015: 7
ICCV2015: 8
CVPR2016: 11
CVPR2017: 14
ICCV2017: 16
2、行人重識(shí)別 和 人臉識(shí)別 的異同
行人重識(shí)別 是用一個(gè)攝像頭下的照片 去認(rèn)其他攝像頭下是否再次出現(xiàn)了這個(gè)人概龄。需處理攝像頭的viewpoint變化还惠,行人的姿態(tài)變化等。
人臉識(shí)別 是給定pair旁钧,去識(shí)別是不是同一個(gè)人吸重,或者找到照片庫中見過的人。
行人和人臉一樣具有結(jié)構(gòu)歪今,但行人結(jié)構(gòu)更復(fù)雜一些嚎幸,部件更多,不容易對(duì)齊寄猩。
大型行人數(shù)據(jù)集難以獲得嫉晶,不像人臉可以扒名人。現(xiàn)有行人重識(shí)別數(shù)據(jù)集(DukeMTMC-reID田篇,CUHK03替废,Market-1501等等)都是在校園中實(shí)際用攝像頭錄的。而早期的小數(shù)據(jù)集(Viper等)已無法提供全面評(píng)估泊柬,逐漸少用椎镣。
行人重識(shí)別落地的產(chǎn)品很少, 而人臉識(shí)別的大量應(yīng)用已經(jīng)落地 兽赁?
之前學(xué)界研究的少 多攝像頭/跨攝像頭問題状答。
以上是造成行人重識(shí)別 在學(xué)界火的原因吧冷守。
3、行人重識(shí)別常用 Large-scale 數(shù)據(jù)集
DukeMTMC-reID
該數(shù)據(jù)集在杜克大學(xué)內(nèi)采集惊科,圖像來自8個(gè)不同攝像頭拍摇。該數(shù)據(jù)集提供訓(xùn)練集和測(cè)試集。 訓(xùn)練集包含16,522張圖像馆截,測(cè)試集包含 17,661 張圖像充活。訓(xùn)練數(shù)據(jù)中一共有702人,平均每類(每個(gè)人)有23.5 張訓(xùn)練數(shù)據(jù)蜡娶。是目前最大的行人重識(shí)別數(shù)據(jù)集混卵,并且提供了行人屬性(性別/長短袖/是否背包等)的標(biāo)注。
Market-1501
該數(shù)據(jù)集在清華大學(xué)校園中采集翎蹈,圖像來自6個(gè)不同的攝像頭淮菠,其中有一個(gè)攝像頭為低像素。同時(shí)該數(shù)據(jù)集提供訓(xùn)練集和測(cè)試集荤堪。 訓(xùn)練集包含12,936張圖像合陵,測(cè)試集包含19,732 張圖像。圖像由檢測(cè)器自動(dòng)檢測(cè)并切割澄阳,包含一些檢測(cè)誤差(接近實(shí)際使用情況)拥知。訓(xùn)練數(shù)據(jù)中一共有751人,測(cè)試集中有750人碎赢。所以在訓(xùn)練集中低剔,平均每類(每個(gè)人)有17.2張訓(xùn)練數(shù)據(jù)。
CUHK03
該數(shù)據(jù)集在香港中文大學(xué)內(nèi)采集肮塞,圖像來自2個(gè)不同攝像頭襟齿。該數(shù)據(jù)集提供 機(jī)器檢測(cè)和手工檢測(cè)兩個(gè)數(shù)據(jù)集。 其中檢測(cè)數(shù)據(jù)集包含一些檢測(cè)誤差枕赵,更接近實(shí)際情況猜欺。平均每個(gè)人有9.6張訓(xùn)練數(shù)據(jù)。
4拷窜、未來可能拓展的研究課題
Transfer learning开皿。 在LFW上學(xué)好的人臉模型,在實(shí)際中可能不work篮昧。在行人重識(shí)別也有同樣的問題赋荆。 如研究在 數(shù)據(jù)集 Market-1501(夏季清華國人)上訓(xùn)練好的模型,怎么應(yīng)用到另一個(gè)數(shù)據(jù)集 DukeMTMC-reID(冬季杜克老外)
像人臉一樣懊昨。 往屬性學(xué)習(xí)/視頻base的行人重識(shí)別轉(zhuǎn)窄潭。
做更大更難的檢索庫,比如Market-1501 + 500K(更多干擾的候選行人)酵颁。
語言檢索行人嫉你。通過自然語言的描述來找人信认。
行人重識(shí)別:從哈利波特地圖說起
一、本文的目的是提供一個(gè)行人重識(shí)別的簡要概況均抽。
為了方便/直觀的理解這個(gè)問題,我們先來說兩則相關(guān)的故事其掂。一則闡明重識(shí)別問題的實(shí)際意義油挥,一則故事說明重識(shí)別問題的難點(diǎn)。
重識(shí)別的應(yīng)用:哈利·波特 在《阿茲卡班囚徒》中使用 實(shí)點(diǎn)圖 (Marauder’s Map) 實(shí)時(shí)追蹤并識(shí)別追蹤人 (顯示人名)款熬。將這個(gè)應(yīng)用轉(zhuǎn)化一下深寥,試想:如果在迪斯尼樂園/機(jī)場(chǎng)/大學(xué)校園里和孩子走散了,除了廣播“xx小朋友你的家長在廣播室等你”的被動(dòng)方式贤牛。我們可以翻開 實(shí)點(diǎn)圖就找到熊孩子惋鹅。而實(shí)點(diǎn)圖就可以通過重識(shí)別來實(shí)現(xiàn):主動(dòng)輸入小朋友的照片,檢索多個(gè)不同位置的攝像頭下的當(dāng)前幀殉簸,找到熊孩子的出現(xiàn)攝像頭闰集。最后聯(lián)系攝像頭的位置,就可以定位孩子了般卑。這個(gè)應(yīng)用同樣也可以用來找小偷/保護(hù)vip等等武鲁。
重識(shí)別的難點(diǎn):荷馬史詩 (Odyssey iv:412),Mennelaus 被告知蝠检,如果想要眾神息怒并平安回家沐鼠,就要在特洛伊戰(zhàn)爭的回家路上抓到 Proteus,讓他告訴自己躲避的方法叹谁。雖然Proteus變成了獅子饲梭,巨蛇,豹焰檩,甚至水和大樹憔涉,Mennelaus最終還是在海邊的海豹群中抓住了他,并知曉了自己平安回家的方法锅尘。這大概是最早的重識(shí)別的成功案例监氢。對(duì)照西游記的話,那大概就是大師兄三打白骨精的故事了藤违。重識(shí)別的難點(diǎn)在于浪腐,我們沒有大師兄的火眼金睛。多個(gè)攝像頭下拍攝行人的角度不同顿乒,圖像中的行人可能72變议街。所以要正確判斷的話,就要找到行人上的局部不變的part(比如:衣服顏色璧榄,衣服紋理特漩,手提包吧雹,背包等等)。在計(jì)算機(jī)視覺中涂身,常用的特征就有顏色直方圖等等雄卷。
(DukeMTMC-reID 數(shù)據(jù)集的retrieval demo)
二. 為了更好的理解這個(gè)問題,我們?cè)偎伎紟讉€(gè)補(bǔ)充問題:
1. 能不能用人臉識(shí)別做重識(shí)別蛤售?
理論上是可以的丁鹉。但是有兩個(gè)原因?qū)е氯四樧R(shí)別較難應(yīng)用:首先,廣泛存在后腦勺和側(cè)臉的情況悴能,做正臉的人臉識(shí)別難揣钦。其次,攝像頭拍攝的像素可能不高漠酿,尤其是遠(yuǎn)景攝像頭里面人臉截出來很可能都沒有32x32的像素冯凹。所以人臉識(shí)別在實(shí)際的重識(shí)別應(yīng)用中很可能有限。
2. 有些人靠衣服的顏色就可以判斷出來了炒嘲,還需要行人重識(shí)別么宇姚?
衣服顏色確實(shí)是行人重識(shí)別 做出判斷一個(gè)重要因素,但光靠顏色是不足的摸吠。首先空凸,攝像頭之間是有色差,并且會(huì)有光照的影響寸痢。其次呀洲,有撞衫(顏色相似)的人怎么辦,要找細(xì)節(jié)啼止,但比如顏色直方圖這種統(tǒng)計(jì)的特征就把細(xì)節(jié)給忽略了道逗。在多個(gè)數(shù)據(jù)集上的測(cè)試表明,光用顏色特征是難以達(dá)到50%的top1正確率的献烦。
3. 使用圖像檢索的指標(biāo)來衡量行人重識(shí)別的結(jié)果是否合適滓窍?
在早期,行人重識(shí)別數(shù)據(jù)集是由兩個(gè)攝像頭采集的比如viper巩那,每個(gè)query只有一個(gè)正確的retrieval目標(biāo)吏夯。所以往往使用top1比較。但在近期即横,隨著大數(shù)據(jù)集的提出噪生,數(shù)據(jù)集中往往包含多個(gè)攝像頭的多個(gè)正確目標(biāo)。光使用top1的話东囚,不能反應(yīng)模型的真實(shí)能力跺嗽。所以類似圖像檢索,重識(shí)別加入了mAP作為衡量標(biāo)準(zhǔn),將top2,top3...topn都考慮進(jìn)去桨嫁。
4. 測(cè)試方式
主要有兩種方案:a.測(cè)試的輸入是一對(duì)行人植兰,輸出為這對(duì)行人的相似度,然后再按相似度排序璃吧;b.輸入單個(gè)人楣导,提取特征,再計(jì)算與其他人的歐式距離畜挨,然后再按距離排序爷辙。
第一種方案的優(yōu)點(diǎn)是,判斷兩個(gè)人是不是一個(gè)人朦促,簡單的二分類(是/否)。但缺點(diǎn)是如果我們搜索庫中有m張圖片栓始,那么與目標(biāo)圖片組成m對(duì)圖片對(duì)务冕。每一對(duì)都要進(jìn)一次模型,估算相似度幻赚,這極大的增加了測(cè)試的時(shí)間禀忆。如果我們有n個(gè)query,那么我們要計(jì)算nm次相似度(而m往往很大)落恼。另一種方案是箩退,預(yù)先提取行人的特征,我們只要預(yù)先提好n+m次特征佳谦。之后只要比較就好了戴涝,比較特征可以簡單的用矩陣乘法實(shí)現(xiàn)。
目前兩種方案都有在用钻蔑,但是后一種更接近實(shí)際中圖像搜索的要求啥刻,用特征來快速檢索。
三. 科研中的方案
概括得不全咪笑,比較直接和簡要的想法有以下兩種(主要在神經(jīng)網(wǎng)絡(luò)上實(shí)現(xiàn)):
1. Part匹配:一部分一部分來比較可帽。
a.常見方案是水平切條,就是將圖像切為幾個(gè)水平的條窗怒。由于人體身材往往差不多映跟,所以可以用簡單的水平條來做一一比較 [1,2,3,4]。
b.在領(lǐng)域中做匹配扬虚,采用的是一個(gè)正方形的領(lǐng)域 [6]努隙。
c.另一個(gè)較新的方案是先在人體上檢測(cè)部件(手,腿孔轴,軀干等等)再進(jìn)行匹配剃法,這樣的話可以減少位置的誤差,但可能引入檢測(cè)部件的誤差 [7,8]。
d. 類似LSTM的attention匹配贷洲,但必須pair輸入收厨,測(cè)試時(shí)間較長。[5,10]
2.Loss設(shè)計(jì):常見的幾種學(xué)習(xí)特征表達(dá)的loss
a. identification loss 直接拿身份label做多類分類 [9]
b.verification loss [2,3,5,6] (主要是contrastive loss优构。[3, 6]中采用的是二分類loss)
c. identification loss + verification loss [11,12]
d. triplet loss [10,13,14]
e. 加入輔助任務(wù) 比如使用attribute等等 [15],
f. 數(shù)據(jù)增強(qiáng) 混合多數(shù)據(jù)集訓(xùn)練 [16] 诵叁,加入訓(xùn)練集上GAN生成的數(shù)據(jù) [17].
目前有一些公開的代碼,可詳見之前的知乎回答:有哪些行人重識(shí)別公開代碼?做了一些匯總钦椭。