行人重識(shí)別的背景:
隨著科技的發(fā)展抄瑟,監(jiān)控視頻已被廣泛應(yīng)用于商業(yè)凡泣、安防、搜尋等領(lǐng)域,在人們的日常生活中占據(jù)著非常重要的作用鞋拟。如何識(shí)別骂维、定位出監(jiān)控視頻中的特定行人,對(duì)于刑事偵查贺纲、搜尋救援等具有很重要的意義航闺。因此,行人重識(shí)別在近幾年受到了學(xué)術(shù)界的廣泛關(guān)注猴誊。行人重識(shí)別被認(rèn)為是一個(gè)圖像檢索的子問(wèn)題潦刃,它需要在給定一個(gè)監(jiān)控行人圖像后,檢索出其他攝像頭中存在的該行人圖像懈叹。
行人重識(shí)別的國(guó)內(nèi)外研究現(xiàn)狀:
早期的傳統(tǒng)行人重識(shí)別方法是集中在手工提取特征(如紋理空間福铅、顏色空間)、學(xué)習(xí)更好的相似度度量(如歐式距離项阴、余弦距離)上滑黔,但是傳統(tǒng)方法有一定的局限性,很難處理不同攝像頭拍攝的行人存在的姿態(tài)环揽、背景略荡、光線、尺度不同等問(wèn)題歉胶。行人重識(shí)別面臨著許多挑戰(zhàn)汛兜。
近年來(lái),能夠自動(dòng)學(xué)習(xí)魯棒性特征的深度學(xué)習(xí)方法逐漸被廣泛使用通今。構(gòu)建一個(gè)基于深度學(xué)習(xí)的行人重識(shí)別系統(tǒng)基本分為五大步驟:采集原始數(shù)據(jù)粥谬、生成標(biāo)注框,標(biāo)注訓(xùn)練數(shù)據(jù)辫塌、訓(xùn)練行人重識(shí)別模型漏策、檢索行人。其中臼氨,核心步驟是對(duì)模型的訓(xùn)練掺喻。眾多方法都是針對(duì)行人重識(shí)別的模型進(jìn)行了改進(jìn)、優(yōu)化储矩。行人重識(shí)別的模型由卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成感耙,它可以從原始的圖像中提取豐富的語(yǔ)義特征。
目前持隧,基于深度學(xué)習(xí)的行人重識(shí)別算法可按照提取圖像特征方法的不同即硼,大致分為基于全局特征、基于輔助特征屡拨、基于局部特征三種方法只酥√馑校基于全局特征的方法是提取每一張行人圖片的全局特征信息,早期有很多方法都是通過(guò)全局最大池化或者全局平均池化來(lái)提取特征层皱。Wu等人提出的PersonNet可以提取全局信息(Person re-identification with deep convolutional neural networks)。但是赠潦,這種方法無(wú)法解決背景區(qū)域造成的干擾叫胖,很有局限性。因此她奥,有學(xué)者開(kāi)始研究基于輔助特征的方法瓮增。Chang等人于2018年提出的MLFN是以視角點(diǎn)為輔助特征的多層語(yǔ)義結(jié)構(gòu)(Multi-level factorisation net for person re-identification)。Zheng等人首次將生成對(duì)抗網(wǎng)絡(luò)(GAN, Generative Adversarial Networks )應(yīng)用到行人重識(shí)別中(Unlabeled samples generated by gan improve the person re-identification baseline in vitro)哩俭,但是GAN網(wǎng)絡(luò)生成的圖片缺乏真實(shí)性绷跑,并且存在冗余的噪聲信息,不利于網(wǎng)絡(luò)的訓(xùn)練凡资。
當(dāng)前砸捏,對(duì)局部特征的研究越來(lái)越多。Varior等人將行人圖像進(jìn)行水平切塊處理隙赁,再將分割后的圖像按照從頭部到身體的順序送入長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)(LSTM垦藏,Long Short-Term Memory)中進(jìn)行訓(xùn)練,特征融合了局部特征(A siamese long short-term memory architecture for human re-identification)伞访。DeepReID采用網(wǎng)格分塊的方法掂骏,提取圖像對(duì)相同網(wǎng)格區(qū)域的相似和差異特征,融合所有區(qū)域的特征信息進(jìn)行二分類厚掷,判斷是否是同一個(gè)ID(Deep filter pairing neural network for person re-identification)弟灼。采用基于局部特征的方法,行人重識(shí)別的識(shí)別準(zhǔn)確率得到了顯著的提高冒黑。
目前比較新的行人重識(shí)別方法是特定共享特征變換的跨模態(tài)行人重識(shí)別(cm-SSFT)田绑,依據(jù)不同模態(tài)特征示例內(nèi)容,在不同模態(tài)之間轉(zhuǎn)換共享和特定特征抡爹。這個(gè)算法在主流數(shù)據(jù)集上將Rank-1和mAP分別提高了22.5% 和 19.3%辛馆。
上圖所示是與傳統(tǒng)做法的對(duì)比。主要思路是利用近鄰信息豁延,給定一紅外線query昙篙。當(dāng)搜索彩色target時(shí),可以先找到一些簡(jiǎn)單的置信度高的彩色樣本诱咏,把這些彩色樣本的顏色特異特征給紅外線query苔可,紅外線query樣本可以利用這些彩色信息再去搜索更難的彩色樣本。
行人重識(shí)別的常用數(shù)據(jù)集
公開(kāi)數(shù)據(jù)集包含Market1501袋狞、DukeMTMC-reID和CUHK03這三個(gè)數(shù)據(jù)集焚辅。 Market1501數(shù)據(jù)集采集于清華大學(xué)映屋,訓(xùn)練集有751個(gè)行人,共12936張圖像同蜻,測(cè)試集有750人棚点,共19732張圖像。DukeMTMC-reID采集于杜克大學(xué)湾蔓,訓(xùn)練集含有16522張圖像瘫析,702個(gè)行人,測(cè)試集有702人默责,共16522張圖像贬循。CUHK03采集于香港中文大學(xué),是以MATLAB MAT file的格式來(lái)存儲(chǔ)的桃序,該數(shù)據(jù)集包含1467個(gè)行人杖虾,共14097張圖像,平均每人有9.6張訓(xùn)練數(shù)據(jù)媒熊。這三個(gè)數(shù)據(jù)集都是目前較大規(guī)模的數(shù)據(jù)集奇适。因此,硬件方面需要計(jì)算速度高的NVIDIA顯卡訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)芦鳍。
未來(lái)可研究的方向
無(wú)遮擋場(chǎng)景下姿態(tài)不對(duì)齊會(huì)造成匹配錯(cuò)誤問(wèn)題:目前存在的主要挑戰(zhàn)有姿態(tài)滤愕、光線、相機(jī)等變化怜校。光線和相機(jī)的變化通常會(huì)給行人圖像帶來(lái)顏色间影、明亮以及對(duì)比度上的差異,很少會(huì)造成形變或者姿態(tài)上的變化茄茁,因此可以通過(guò)簡(jiǎn)單地對(duì)訓(xùn)練樣本進(jìn)行對(duì)應(yīng)的數(shù)據(jù)增廣來(lái)解決魂贬。但是姿態(tài)變化主要由兩種情況產(chǎn)生,第一種是人體不規(guī)則的裙顽、非剛性的形變付燥,第二種是拍攝視角變換,這兩種情況都會(huì)造成行人的體態(tài)發(fā)生規(guī)則的形變愈犹,很難簡(jiǎn)單地進(jìn)行對(duì)應(yīng)的圖像樣本生成键科,因此姿態(tài)變化是標(biāo)準(zhǔn)行人重識(shí)別任務(wù)里非常重要的一個(gè)待解決問(wèn)題,可以深入研究如何解決姿態(tài)變化的問(wèn)題漩怎。