[譯] End-to-end people detection in crowded scenes

檢測(cè)效果圖

題目：擁擠場(chǎng)景中的端到端人物檢測(cè) (推薦閱讀英文原文)

文章地址：《End-to-end people detection in crowded scenes》 arXiv.1506.04878
Github：https://github.com/Russell91/ReInspect

(未經(jīng)允許禁止轉(zhuǎn)載烁试，授權(quán)轉(zhuǎn)載請(qǐng)注明出處，謝謝伞访！)

Abstract

目前的人物檢測(cè)操作要么是以滑動(dòng)窗口的方式掃描圖像，或者通過(guò)分類一組離散的決策。我們提出了基于將圖像解碼成一組人物檢測(cè)的模型拉岁。我們的系統(tǒng)采用一幅圖像作為輸入，并直接輸出一組不同的檢測(cè)假設(shè)惰爬。因?yàn)槲覀兟?lián)合生成預(yù)測(cè)喊暖，所以不需要諸如非極大值抑制的公共后處理步驟。我們使用一個(gè)循環(huán)的LSTM層進(jìn)行序列生成撕瞧，并使用一個(gè)新的損失函數(shù)對(duì)模型進(jìn)行端對(duì)端訓(xùn)練陵叽，該損失函數(shù)對(duì)整個(gè)檢測(cè)集合起作用狞尔。我們證實(shí)了該方法在擁擠的場(chǎng)景中檢測(cè)人這一富有挑戰(zhàn)性的任務(wù)上的有效性。

1. Introduction

在本文中巩掺，我們提出了一種用于檢測(cè)圖像中的對(duì)象的新架構(gòu)偏序。我們努力實(shí)現(xiàn)一種端到端的方法，它接受一幅圖像作為輸入胖替，并直接生成一組對(duì)象邊界框作為輸出研儒。這個(gè)任務(wù)是具有挑戰(zhàn)性的，因?yàn)樗枰獏^(qū)分對(duì)象與背景并正確估計(jì)不同對(duì)象的數(shù)量及其位置刊殉。這種能夠直接輸出預(yù)測(cè)的端到端方法將優(yōu)于首先生成一組邊界框殉摔，用分類器評(píng)估它們州胳，然后對(duì)過(guò)完備檢測(cè)集合執(zhí)行某種形式的合并或非極大值抑制的方法记焊。

順序生成一組檢測(cè)具有重要的優(yōu)點(diǎn)，即通過(guò)記住先前生成的輸出可以避免對(duì)同一對(duì)象的多次檢測(cè)栓撞。為了控制這個(gè)生成過(guò)程遍膜，我們使用具有LSTM單元的遞歸神經(jīng)網(wǎng)絡(luò)。為了產(chǎn)生中間表示瓤湘，我們使用來(lái)自GoogLeNet的富有表現(xiàn)力的圖像特征瓢颅，這些特征作為系統(tǒng)的一部分進(jìn)一步微調(diào)。因此弛说，我們的架構(gòu)可以被看作是將圖像的中間表示轉(zhuǎn)換成一組預(yù)測(cè)對(duì)象的“解碼”過(guò)程挽懦。 LSTM可以被看作是在解碼步驟之間傳播信息并控制下一個(gè)輸出的位置的“控制器”（參見圖2的概述）。重要的是木人，我們的可訓(xùn)練端到端系統(tǒng)允許通過(guò)反向傳播聯(lián)合調(diào)諧所有組件信柿。

在[6,17]中使用的合并和非極大值抑制的主要限制之一是這些方法通常不訪問(wèn)圖像信息，而是僅基于邊界框的屬性（例如距離和重疊）醒第。這通常適用于孤立的對(duì)象渔嚷，但在對(duì)象實(shí)例重疊時(shí)常常失效。在實(shí)例重疊的情況下稠曼，需要圖像信息來(lái)決定將邊界框放置在哪里以及輸出多少個(gè)形病。作為解決方法，幾種方法提出了專門處理預(yù)定義相關(guān)對(duì)象（例如行人對(duì)）的特定解決方案[5,23]霞幅。在這里漠吻，我們提出一個(gè)通用的架構(gòu)，不需要對(duì)象相關(guān)的專門定義司恳，不局限于對(duì)象對(duì)途乃，而且是完全可訓(xùn)練的。

我們專注于人檢測(cè)的任務(wù)作為這個(gè)問(wèn)題的一個(gè)重要例子抵赢。在擁擠場(chǎng)景中欺劳，例如圖1所示唧取，多個(gè)人經(jīng)常出現(xiàn)在非常接近的地方，這使得區(qū)分附近的個(gè)體變得特別具有挑戰(zhàn)性划提。

圖1：OverFeat（a）和后處理（b）輸出的初始過(guò)完備集合檢測(cè)枫弟。注意未能檢測(cè)到中心的第三人。 (c)是用我們的方法獲得的檢測(cè)結(jié)果鹏往。

本文的關(guān)鍵貢獻(xiàn)是一種聯(lián)合預(yù)測(cè)圖像中的對(duì)象的可訓(xùn)練的端到端方法淡诗。這與現(xiàn)有方法相反，現(xiàn)有方法將每個(gè)邊界框的預(yù)測(cè)或分類視為獨(dú)立問(wèn)題并需要對(duì)檢測(cè)集合進(jìn)行后處理伊履。我們證明了我們的方法在富有挑戰(zhàn)性的包含有大量人物的擁擠場(chǎng)景數(shù)據(jù)集上優(yōu)于現(xiàn)有的架構(gòu)韩容。本文的技術(shù)貢獻(xiàn)是一組針對(duì)對(duì)象集的新的損失函數(shù)，同時(shí)結(jié)合了定位和檢測(cè)的要素唐瀑。另一技術(shù)貢獻(xiàn)是展示了可以成功地利用LSTM單元鏈來(lái)將圖像內(nèi)容解碼為可變長(zhǎng)度的相干實(shí)值輸出群凶。我們預(yù)見這種技術(shù)在其他結(jié)構(gòu)化計(jì)算機(jī)視覺預(yù)測(cè)任務(wù)中很有價(jià)值，例如多人物追蹤和多人物關(guān)節(jié)姿態(tài)估計(jì)哄辣。

1.1. Related work

在存在遮擋的情況下檢測(cè)多個(gè)對(duì)象已經(jīng)是計(jì)算機(jī)視覺中的臭名昭著的問(wèn)題请梢。早期的工作采用了局部特征和霍夫投票的碼本[13,2]，但仍然需要復(fù)雜的調(diào)整和多級(jí)流水線力穗。重要的是毅弧，這些模型使用基于局部特征的弱表示，其優(yōu)于現(xiàn)代深度表示当窗。

為了克服在緊鄰區(qū)域預(yù)測(cè)多個(gè)對(duì)象的困難够坐，已經(jīng)進(jìn)行了若干嘗試來(lái)聯(lián)合預(yù)測(cè)相關(guān)對(duì)象[5,23,15]。我們的工作是更一般的崖面，因?yàn)槲覀儧](méi)有明確定義這些組元咙，而是讓模型學(xué)習(xí)找到隔斷實(shí)例所需的任何特征。

目前嘶朱，表現(xiàn)最佳的對(duì)象檢測(cè)器要么通過(guò)以滑動(dòng)窗口方式密集地掃描圖像[17,6,27,16]或通過(guò)使用諸如[24,21]的建議機(jī)制來(lái)操作蛾坯，并且利用CNN來(lái)對(duì)一組指定的建議進(jìn)行分類[6]。兩種方法都產(chǎn)生描述包含對(duì)象的圖像區(qū)域的邊界框疏遏，然后通過(guò)合并嚴(yán)重重疊的實(shí)例來(lái)修剪網(wǎng)絡(luò)輸出脉课。這對(duì)于具有少量不重疊對(duì)象實(shí)例的圖像工作良好，但是在存在強(qiáng)閉塞的情況下通常會(huì)失效财异。

例如倘零，F(xiàn)aster R-CNN [16]學(xué)習(xí)類獨(dú)立的建議，隨后用CNN分類戳寸。像Faster R-CNN那樣呈驶，我們從圖像中提出了一組邊界框，但是不同的是這些預(yù)測(cè)直接對(duì)應(yīng)于對(duì)象實(shí)例疫鹊，并且不需要后處理袖瞻。Faster R-CNN的輸出必然是稀疏的司致，而我們的系統(tǒng)能夠產(chǎn)生任意緊鄰對(duì)象的預(yù)測(cè)。

我們的方法與OverFeat模型[17]有關(guān)聋迎。我們依靠回歸模塊從CNN編碼生成框脂矫。然而，在我們的例子中霉晕，不同的框是作為集成過(guò)程的一部分生成的庭再，而不是像OverFeat中那樣獨(dú)立。因此牺堰，每個(gè)輸出框直接對(duì)應(yīng)于圖像中檢測(cè)到的一個(gè)對(duì)象拄轻，并且我們不需要合并或非極大值抑制等后處理。我們的方法的另一個(gè)重要優(yōu)點(diǎn)是它會(huì)輸出對(duì)應(yīng)于每個(gè)被端到端訓(xùn)練的輸出框的置信度伟葫。在OverFeat的情況下恨搓，端到端訓(xùn)練的置信預(yù)測(cè)是不可用的，因?yàn)樗妮敵鍪菃l(fā)式合并過(guò)程的結(jié)果扒俯。

我們的工作與[25]有關(guān)奶卓，因?yàn)槲覀兡Ｐ椭械挠?xùn)練目標(biāo)聯(lián)合考慮了對(duì)多個(gè)對(duì)象實(shí)例的檢測(cè)一疯。主要區(qū)別在于撼玄，雖然[25]中的模型被訓(xùn)練以優(yōu)化非極大值抑制（NMS）后處理精度，但它在測(cè)試時(shí)仍然是執(zhí)行標(biāo)準(zhǔn)檢測(cè)和NMS墩邀，因此很容易與其他模型遇到相同的困難（例如掌猛，抑制對(duì)彼此接近的兩個(gè)對(duì)象實(shí)例的檢測(cè)）。相反眉睹，我們的模型在測(cè)試時(shí)是聯(lián)合生成輸出邊界框荔茬，使得它能夠正確地檢測(cè)甚至強(qiáng)烈遮擋的對(duì)象。

我們的工作使用來(lái)自最近神經(jīng)網(wǎng)絡(luò)模型的工具來(lái)預(yù)測(cè)序列[11竹海，19]慕蔚。如在[19]中，我們依靠LSTM來(lái)預(yù)測(cè)可變長(zhǎng)度輸出斋配。與語(yǔ)言生成不同孔飒，檢測(cè)要求系統(tǒng)在2D輸出空間上生成，其缺少自然的線性排序艰争。 MultiBox通過(guò)引入一個(gè)損失函數(shù)來(lái)解決這個(gè)難題坏瞄，它允許無(wú)序的預(yù)測(cè)在訓(xùn)練期間進(jìn)行排列以匹配真值實(shí)例[21]。Faster R-CNN通過(guò)將對(duì)象劃分為9個(gè)具有3個(gè)尺度和3個(gè)縱橫比的類別來(lái)解決這個(gè)問(wèn)題甩卓，允許網(wǎng)絡(luò)直接產(chǎn)生多個(gè)重疊對(duì)象鸠匀，只要它們具有不同的尺寸[16]。

我們基于這些貢獻(xiàn)逾柿，利用我們的循環(huán)解碼器的能力來(lái)按順序進(jìn)行聯(lián)合預(yù)測(cè)缀棍。除了計(jì)算預(yù)測(cè)與真值的最佳匹配之外宅此，我們的損失函數(shù)還鼓勵(lì)模型按照置信度下降的順序進(jìn)行預(yù)測(cè)中姜。在結(jié)構(gòu)化語(yǔ)音識(shí)別和自然語(yǔ)言處理中已經(jīng)提出了適當(dāng)?shù)膿p失函數(shù)[7]式矫。這里我們提出這樣一種針對(duì)物體檢測(cè)的損失函數(shù)。

圖2：我們的系統(tǒng)首先將圖像編碼為高維特征塊舍扰。然后LSTM充當(dāng)控制器坦敌，將該信息解碼為一組檢測(cè)結(jié)果侣诵。

2. Model

2.1 Overview

諸如[12,20]的深度卷積架構(gòu)構(gòu)成了對(duì)各種任務(wù)都有效的圖像表示。這些架構(gòu)已被用于檢測(cè)狱窘，盡管主要是通過(guò)將它們適配到分類或回歸框架中杜顺。深度表示具有足夠的能力來(lái)聯(lián)合編碼多個(gè)實(shí)例的外觀，但是必須用用于多實(shí)例預(yù)測(cè)的組件來(lái)增強(qiáng)它們以實(shí)現(xiàn)這種潛力蘸炸。在本文中躬络，我們考慮循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN），特別是LSTM單元[8]作為這樣的組件的候選者搭儒。使深度CNN與基于RNN的解碼器相結(jié)合變得有吸引力的關(guān)鍵特性是（1）直接接入強(qiáng)大的深卷積表示的能力和（2）產(chǎn)生可變長(zhǎng)度的相干預(yù)測(cè)的能力穷当。這些屬性已成功地在[11]中用于生成圖像說(shuō)明，在[19]中用于機(jī)器翻譯淹禾。生成相干集合的能力在我們這種情況下尤其重要馁菜，因?yàn)槲覀兊南到y(tǒng)需要記住先前生成的預(yù)測(cè)并避免對(duì)同一目標(biāo)的多個(gè)預(yù)測(cè)。

我們構(gòu)造一個(gè)模型铃岔，首先通過(guò)卷積架構(gòu)（例如[20]）將圖像編碼為高維描述符汪疮，然后將該表示解碼為一組邊界框。作為預(yù)測(cè)可變長(zhǎng)度輸出的核心機(jī)制毁习，我們建立與一個(gè)LSTM單元的循環(huán)網(wǎng)絡(luò)智嚷。我們的模型的概述如圖2所示。我們?cè)谡麄€(gè)圖像的跨越區(qū)域?qū)⑵滢D(zhuǎn)換成具有1024個(gè)維度特征的網(wǎng)格描述符纺且。這1024維向量匯總了區(qū)域的內(nèi)容并攜帶了關(guān)于對(duì)象位置的豐富信息盏道。LSTM從該信息源獲取并且在區(qū)域的解碼中充當(dāng)控制器。在每一步载碌，LSTM輸出新的邊界框和對(duì)應(yīng)的置信度猜嘱，即在該位置處將發(fā)現(xiàn)先前未檢測(cè)到的人。這些邊界框?qū)凑罩眯哦冉敌蛏煽致亍．?dāng)LSTM在具有高于預(yù)定閾值的置信度的區(qū)域中不能再找到另一個(gè)框時(shí)泉坐，就會(huì)產(chǎn)生停止符號(hào)。這時(shí)輸出序列將被收集并呈現(xiàn)為該區(qū)域中所有對(duì)象實(shí)例的最終描述裳仆。

我們的方法中主要計(jì)算流水線僅涉及前饋處理腕让，這使得其能夠被快速實(shí)現(xiàn)。在現(xiàn)代GPU上，該方法在640×480圖像上以每秒6幀的速度運(yùn)行纯丸。

2.2 Loss function

第2.1節(jié)中介紹的架構(gòu)預(yù)測(cè)一組候選邊界框以及與每個(gè)框相對(duì)應(yīng)的置信度得分偏形。假設(shè)是按順序生成的，并且隨后的預(yù)測(cè)通過(guò)LSTM的存儲(chǔ)器狀態(tài)取決于先前的預(yù)測(cè)觉鼻。在每次重復(fù)時(shí)俊扭，LSTM輸出一個(gè)對(duì)象邊界框b = {b_pos，b_c}坠陈，其中b_pos =（b_x萨惑，b_y，b_w仇矾，b_h）∈R^4 是邊界框的相對(duì)位置庸蔼，寬度和高度，b_c∈[ 0,1]是置信度的真值贮匕。低于預(yù)定閾值（例如0.5）的置信度值在測(cè)試時(shí)將被解釋為停止符號(hào)姐仅。較高的邊界框置信度b_c應(yīng)該指示該邊界框更可能對(duì)應(yīng)于真陽(yáng)性。我們將相應(yīng)的標(biāo)準(zhǔn)真值邊界框集合表示為G = {b^i | i = 1刻盐，...掏膏，M}，并且由模型生成的候選邊界框集合為C = {b^j | j = 1敦锌，...馒疹，N}。接下來(lái)供屉，我們引入適合于將學(xué)習(xí)過(guò)程引導(dǎo)到期望輸出的損失函數(shù)行冰。

考慮圖3中的例子，它示意性地顯示出了具有四個(gè)生成假設(shè)的檢測(cè)器伶丐，每個(gè)假設(shè)由其預(yù)測(cè)步驟編號(hào)，其被表示為秩疯特。注意典型的檢測(cè)錯(cuò)誤哗魂，如假陽(yáng)性（假設(shè)3），不精確的定位（假設(shè)1）和同一真值實(shí)例的多重預(yù)測(cè)（假設(shè)1和2）漓雅。不同的錯(cuò)誤需要不同種類的反饋录别。在假設(shè)1的情況下，邊框位置必須被微調(diào)邻吞。相反组题，假設(shè)3是假陽(yáng)性，模型應(yīng)當(dāng)通過(guò)設(shè)置低置信度得分來(lái)丟棄這個(gè)預(yù)測(cè)抱冷。假設(shè)2是對(duì)已經(jīng)由假設(shè)1預(yù)測(cè)過(guò)的目標(biāo)的第二次預(yù)測(cè)崔列，也應(yīng)該被丟棄。為了捕捉這些關(guān)系，我們引入一個(gè)匹配算法赵讯，為每個(gè)標(biāo)準(zhǔn)真值分配唯一的候選假設(shè)盈咳。該算法返回單射函數(shù)f：G→C，即 f(i) 是分配給標(biāo)準(zhǔn)真值假設(shè)i的候選假設(shè)的索引边翼。

給定f鱼响，我們?cè)诩螱和C上定義損失函數(shù)：

其中l_pos：

是標(biāo)準(zhǔn)真值位置和候選假設(shè)之間的位移，l_c是候選框置信度的交叉熵?fù)p失组底，它將與標(biāo)準(zhǔn)真值進(jìn)行匹配丈积。該交叉熵?fù)p失的標(biāo)簽由y_j提供，它由匹配函數(shù)定義得到：

其中α是置信度誤差和定位誤差之間的折衷項(xiàng)债鸡。我們交叉驗(yàn)證設(shè)置α = 0.03桶癣。注意，對(duì)于固定匹配娘锁，我們可以通過(guò)反向傳播這個(gè)損失函數(shù)的梯度來(lái)更新網(wǎng)絡(luò)牙寞。

作為一個(gè)原始基線，我們考慮一個(gè)基于標(biāo)準(zhǔn)真值邊界框的固定順序的簡(jiǎn)單匹配策略莫秆。我們通過(guò)圖像位置從上到下和從左到右排序標(biāo)準(zhǔn)真值框间雀。該固定順序匹配序列化地將候選者分配給排好序的標(biāo)準(zhǔn)真值。我們將這個(gè)匹配函數(shù)稱為“固定順序”匹配镊屎，將其表示為f_fix惹挟，與其對(duì)應(yīng)的損失函數(shù)表示為L_fix。

匈牙利損失：　固定順序匹配的限制是當(dāng)解碼過(guò)程產(chǎn)生假陽(yáng)性或假陰性時(shí)缝驳，它可能不正確地將候選假設(shè)分配給標(biāo)準(zhǔn)真值實(shí)例连锯。對(duì)于f_fix選擇的任何特定順序，此問(wèn)題仍然存在用狱。因此运怖，我們研究考慮C和G中元素之間所有可能的一對(duì)一分配的損失函數(shù)。

回想一下夏伊，我們的模型的原則性目標(biāo)之一是輸出對(duì)多個(gè)對(duì)象的連貫的預(yù)測(cè)序列摇展。我們將生成過(guò)程的停止標(biāo)準(zhǔn)定義為當(dāng)預(yù)測(cè)分?jǐn)?shù)低于指定閾值時(shí)產(chǎn)生。對(duì)于這樣的分?jǐn)?shù)閾值來(lái)說(shuō)溺忧，要使其有意義咏连，我們必須鼓勵(lì)模型在序列的早期生成正確的假設(shè)，并避免在高置信度之前產(chǎn)生低置信度預(yù)測(cè)鲁森。因此祟滴，當(dāng)兩個(gè)假設(shè)都有效地和同一真值實(shí)例重疊時(shí)（例如，圖3中的假設(shè)1和2）歌溉，我們優(yōu)選匹配在預(yù)測(cè)序列中較早出現(xiàn)的假設(shè)垄懂。

圖3：標(biāo)準(zhǔn)真值實(shí)例（黑色）與被接受（綠色）和被拒絕（紅色）候選匹配的圖示。匹配應(yīng)該同時(shí)遵守優(yōu)先級(jí)（1對(duì)2）和定位性（4對(duì)3）。

為了形式化這個(gè)概念埠偿，我們引入以下假設(shè)與標(biāo)準(zhǔn)真值的比較函數(shù)：

函數(shù)Δ：G×C→N×N×R 返回一個(gè)元組透罢，其中d_ij是邊界框位置之間的L1距離，r_j是LSTM輸出的預(yù)測(cè)序列中的b_j的秩或索引冠蒋，o_ij∈{ 0羽圃，1}是假設(shè)與標(biāo)準(zhǔn)真值實(shí)例不充分重疊的懲罰變量。這里抖剿，重疊標(biāo)準(zhǔn)要求候選者的中心要位于標(biāo)準(zhǔn)真值邊界框的范圍內(nèi)朽寞。o_ij變量明確區(qū)分定位和檢測(cè)錯(cuò)誤。我們定義了一個(gè)由Δ產(chǎn)生的元組的詞典順序斩郎。也就是說(shuō)脑融，當(dāng)評(píng)估兩個(gè)假設(shè)中的哪一個(gè)將被分配給標(biāo)準(zhǔn)真值時(shí)，重疊是最重要的缩宜，隨后是秩肘迎，然后再是細(xì)粒度定位。

給定方程2中的比較函數(shù)Δ的定義锻煌，我們通過(guò)匈牙利算法在多項(xiàng)式時(shí)間內(nèi)找到C和G之間的最小成本二分匹配妓布。注意，匈牙利算法適用于具有明確定義的加法和成對(duì)比較運(yùn)算的帶邊權(quán)的任何圖宋梧。為此匣沼，我們定義（+）作為元素相加，（<）作為詞典比較捂龄。對(duì)于圖3中的例子释涛，正確匹配假設(shè)1和4將花費(fèi)（0, 5, 0.4），而匹配1和3將花費(fèi)（1, 4, 2.3）倦沧，匹配2和4將花費(fèi)（0, 6, 0.2）唇撬。注意，用于檢測(cè)重疊的第一項(xiàng)是如何適當(dāng)?shù)靥幚砟切┍M管具有低秩刀脏，但離標(biāo)準(zhǔn)真值差太遠(yuǎn)而不足以成為敏感匹配的假設(shè)的情況（如圖3中的假設(shè)3的情況）局荚。我們將這種匹配的相應(yīng)損失稱為匈牙利損失，并表示為L_hung愈污。

我們還考慮L_hung的簡(jiǎn)化版本，其中只有來(lái)自C的排名前k = | G | 的預(yù)測(cè)被考慮用于匹配轮傍。注意暂雹，這等效于去除或置零方程2中的成對(duì)匹配項(xiàng)o_ij。我們將此損失表示為L_firstk创夜。在第4節(jié)杭跪，我們?cè)趯?shí)驗(yàn)上比較了L_fix，L_firstk和L_hung，結(jié)果顯示L_hung效果最好涧尿。

損失函數(shù)分析　我們的網(wǎng)絡(luò)幾乎在所有地方都是可微的（DAE）系奉，因?yàn)樗荄AE函數(shù)的組合。在匹配是局部恒定的鄰域中姑廉，L_hung也是DAE缺亮。此外，該匹配在最佳匹配成本為其中任何其他匹配并且所有重疊項(xiàng)嚴(yán)格控制的點(diǎn)的鄰域中將是恒定的桥言。在實(shí)踐中萌踱，這將發(fā)生在每次訓(xùn)練的迭代，所以我們有信心使用梯度下降号阿。

3. Implementation details

我們構(gòu)建了我們的模型并鸵，將圖像編碼成1024維GoogLeNet高層特征的15x20大小的網(wǎng)格。網(wǎng)格中的每個(gè)單元具有大小為139×139的感受野扔涧，并且被訓(xùn)練以產(chǎn)生與中心64×64區(qū)域相交的所有邊界框的集合园担。選擇64x64大小，足夠大以捕獲具有挑戰(zhàn)性的局部遮擋相互作用枯夜。也可以使用更大的區(qū)域弯汰，但是在我們這個(gè)場(chǎng)景上幾乎不能提供額外的幫助，其中很少的遮擋相互作用能夠跨越該尺度卤档。 300個(gè)不同的LSTM控制器并行運(yùn)行著蝙泼，每個(gè)對(duì)應(yīng)著網(wǎng)格中的1x1x1024單元。

我們的LSTM單元有250個(gè)存儲(chǔ)器狀態(tài)劝枣，沒(méi)有偏置項(xiàng)汤踏，沒(méi)有非線性輸出。在每一步舔腾，我們將GoogLeNet特性與前一個(gè)LSTM單元的輸出連接溪胶，并將結(jié)果饋送到下一個(gè)LSTM單元。我們已經(jīng)通過(guò)僅將圖像饋送到第一LSTM單元中產(chǎn)生可比較的結(jié)果稳诚，指出圖像的多個(gè)呈現(xiàn)可能不是必要的哗脖。通過(guò)并行地產(chǎn)生完整480×640圖像的每個(gè)區(qū)域，給出了解碼過(guò)程的有效批處理扳还。

我們的模型必須通過(guò)LSTM解碼器學(xué)習(xí)在邊界框位置上進(jìn)行回歸才避。在訓(xùn)練期間，解碼器輸出邊界框的過(guò)完備集合氨距，每個(gè)邊界框具有對(duì)應(yīng)的置信度桑逝。為了簡(jiǎn)單和批處理效率，過(guò)完備集的基數(shù)是固定的俏让，而不考慮標(biāo)準(zhǔn)真值框的數(shù)量楞遏。這樣可以訓(xùn)練LSTM對(duì)那些和標(biāo)準(zhǔn)真值接近的框輸出高置信度分?jǐn)?shù)和正確定位茬暇，而在其他地方輸出低置信度分?jǐn)?shù)。因?yàn)樵谄ヅ淦陂g優(yōu)先考慮前面的輸出寡喝，所以模型學(xué)習(xí)首先輸出高置信度糙俗，容易的邊界框。在我們的數(shù)據(jù)集中预鬓，很少有區(qū)域有超過(guò)4個(gè)實(shí)例巧骚，我們將過(guò)完備集限制為5個(gè)預(yù)測(cè)。更大數(shù)量的預(yù)測(cè)既不改善性能珊皿，也不降低性能网缝。

圖4：在被接受的預(yù)測(cè)（綠色）上拼接新區(qū)域的預(yù)測(cè)（紅色）的示例。

模型訓(xùn)練：　我們使用Caffe開源深度學(xué)習(xí)框架[10]進(jìn)行訓(xùn)練和評(píng)估蟋定。我們模型的解碼器部分是一個(gè)定制的LSTM實(shí)現(xiàn)粉臊。我們使用學(xué)習(xí)率e= 0.2和動(dòng)量0.5訓(xùn)練。梯度被修剪以在網(wǎng)絡(luò)上具有0.1的最大2范數(shù)驶兜。我們每100,000次迭代將學(xué)習(xí)率降低為0.8倍扼仲。在800,000次迭代達(dá)到收斂。我們?cè)贚STM輸出上使用概率為0.15的dropout(隨機(jī)失活)抄淑。去掉dropout會(huì)減少平均精度（AP）0.01屠凶。

每次迭代時(shí)，訓(xùn)練在一個(gè)圖像的所有子區(qū)域上進(jìn)行肆资〈＠ⅲ跨區(qū)域的LSTM解碼器的并行性降低了較大批量大小的效率增益。所有權(quán)重在區(qū)域和LSTM步驟之間綁定郑原。然而唉韭，當(dāng)每一步使用單獨(dú)的權(quán)重連接LSTM輸出來(lái)預(yù)測(cè)候選時(shí)，我們很驚訝地發(fā)現(xiàn)有輕微的性能提高犯犁。這些權(quán)重在各區(qū)域之間保持固定属愤。綁定這些權(quán)重涣澡，AP會(huì)從0.85減少到0.82惕艳。

初始化：GoogLeNet權(quán)重用Imagenet [3]上預(yù)先訓(xùn)練的權(quán)重初始化谁鳍。微調(diào)GoogLeNet的特征以滿足解碼器的新需求至關(guān)重要。沒(méi)有GoogLeNet微調(diào)的訓(xùn)練將使AP減少0.29澜掩。

解碼器中的所有權(quán)重用范圍在[-0.1,0.1]的均勻分布初始化屿附。典型的LSTM輸入激活與我們預(yù)訓(xùn)練的GoogLeNet顯著不同优训，激活在[-80,80]范圍內(nèi)搞监。為了補(bǔ)償這種不匹配牢酵，我們使用一個(gè)縮放層將GoogLeNet激活減少100倍悬包，然后將它們導(dǎo)入LSTM。同樣茁帽，全連接層輸出的初始標(biāo)準(zhǔn)偏差約為0.3玉罐，但邊界框像素位置和大小在[-64,64]中變化。因此潘拨，在將回歸預(yù)測(cè)與標(biāo)準(zhǔn)真值比較之前吊输，我們將其乘以因子100。注意铁追，只有當(dāng)還引入了比例學(xué)習(xí)速率乘法器時(shí)季蚂，這些修改才與改變權(quán)重初始化等價(jià)。

拼接：　我們的算法被訓(xùn)練來(lái)預(yù)測(cè)64x64像素區(qū)域內(nèi)的多個(gè)邊界框琅束。要在測(cè)試時(shí)將其應(yīng)用于完整的640x480大小的圖像扭屁，我們會(huì)從圖像的15×20網(wǎng)格中的每個(gè)區(qū)域生成預(yù)測(cè)，然后使用拼接算法遞歸地合并網(wǎng)格上連續(xù)單元格的預(yù)測(cè)涩禀。

拼接過(guò)程如圖4所示料滥。在給定的迭代中，令A(yù)表示當(dāng)前所有已接受的邊界框預(yù)測(cè)的集合艾船。我們處理一個(gè)新的區(qū)域葵腹，評(píng)估解碼器直到產(chǎn)生停止信號(hào)并收集新提出的邊界框的集合C。這些新的邊界框中的一些可能和先前的預(yù)測(cè)有重合屿岂。為了去除對(duì)同一對(duì)象的多次預(yù)測(cè)践宴，我們定義了與2.2節(jié)中的具有成對(duì)損失項(xiàng)Δ'的二分匹配問(wèn)題：A×C→N×R，給定Δ '（b_i爷怀，b_j）=（m_ij阻肩，d_ij）。這里运授，m_ij表示兩個(gè)框是否不相交烤惊，并且d_ij是由框之間的L1距離給出的局部消歧項(xiàng)乔煞。如前所述，我們利用匈牙利算法在多項(xiàng)式時(shí)間內(nèi)找到最小成本匹配撕氧。我們檢查每個(gè)匹配對(duì)（b瘤缩，b^），并將不與其匹配項(xiàng)b重疊的任何候選項(xiàng)b^添加到接受框的集合伦泥。這個(gè)過(guò)程和非極大值抑制之間的重要區(qū)別是（1）來(lái)自相同區(qū)域的框不會(huì)相互抑制，（2）每個(gè)框最多可以抑制一個(gè)其他框锦溪。連帶地不脯，這允許對(duì)實(shí)例生成預(yù)測(cè)，即使它們?cè)趫D像中明顯重疊刻诊。

4. Experimental results

數(shù)據(jù)集和評(píng)估指標(biāo)：　我們?cè)趦蓚€(gè)數(shù)據(jù)集上評(píng)估我們的方法防楷。我們?cè)谝粋€(gè)新的大規(guī)模人像數(shù)據(jù)集上進(jìn)行主要的開發(fā)和評(píng)價(jià)。我們使用來(lái)自公共網(wǎng)絡(luò)攝像頭的視頻鏡頭從繁雜的場(chǎng)景收集圖像则涯。我們?cè)谙挛闹袑⑦@個(gè)數(shù)據(jù)集稱為Brainwash复局。我們發(fā)現(xiàn)在Brainwash中有大量的圖像可以使我們專注于方法開發(fā)，而不會(huì)受到小的訓(xùn)練集大小的限制粟判。然后我們?cè)诠_的TUD-Crossing數(shù)據(jù)集上驗(yàn)證我們的結(jié)果[1]亿昏。我們使用相同的網(wǎng)絡(luò)架構(gòu)和相同的超參數(shù)值在兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。

圖5：TUD交叉數(shù)據(jù)集上的示例檢測(cè)結(jié)果档礁。中間和底部?jī)尚蟹謩e顯示了Faster R-CNN和我們的檢測(cè)器在工作點(diǎn)的輸出具有90％的精度角钩。頂行顯示了在應(yīng)用非極大值抑制之前的Faster R-CNN的輸出。

圖6：人物檢測(cè)方法在TUD交叉數(shù)據(jù)集上的比較呻澜。我們包括了使用來(lái)自[1]的僅包括基本上可見主體的原始真值（a）和使用帶有所有人物標(biāo)記的全部真值（b）獲得的結(jié)果递礼。

對(duì)于Brainwash數(shù)據(jù)集，我們收集了11917幅圖像羹幸，其中有91146個(gè)被標(biāo)記的人脊髓。我們以100秒的固定間隔從視頻鏡頭中提取圖像，以確保圖像有大的不同栅受。我們分配1000張圖像進(jìn)行測(cè)試和驗(yàn)證将硝，然后留下剩余的所有圖像進(jìn)行訓(xùn)練。訓(xùn)練和測(cè)試分片之間不存在時(shí)間重疊窘疮。生成的訓(xùn)練集包含82906個(gè)實(shí)例袋哼。測(cè)試和驗(yàn)證集分別包含4922和3318個(gè)人像實(shí)例。這些圖像是根據(jù)在某些例子任務(wù)中的表現(xiàn)預(yù)先選擇的少數(shù)幾個(gè)工人使用亞馬遜機(jī)械Turk進(jìn)行標(biāo)記的闸衫。我們標(biāo)記每個(gè)人的頭部涛贯，以避免邊界框位置的歧義。這些標(biāo)記者需要標(biāo)記他們能夠識(shí)別的任何人蔚出，即使該人的大部分不可見弟翘。收集的圖像的示例如圖8所示虫腋。Brainwash數(shù)據(jù)集中的圖像包括一些挑戰(zhàn)，例如小規(guī)模的人稀余，部分很強(qiáng)的閉塞悦冀，以及服裝和外觀的很大變化性。

圖7：性能評(píng)估

我們使用[4]中定義的標(biāo)準(zhǔn)協(xié)議進(jìn)行評(píng)估睛琳。如果一個(gè)假設(shè)與標(biāo)準(zhǔn)真值邊界框的交叉得分大于0.5盒蟆，則認(rèn)為該假設(shè)是正確的。我們繪制召回率-精確度曲線师骗，并總結(jié)圖7和圖6中每個(gè)實(shí)驗(yàn)中的平均精度（AP）和相等誤差率（EER）历等。對(duì)于Brainwash，我們還分析了每個(gè)模型預(yù)測(cè)一幅圖中總?cè)藬?shù)表現(xiàn)怎樣辟癌。如在[14]中寒屯，我們通過(guò)計(jì)算測(cè)試集圖像中預(yù)測(cè)數(shù)和真實(shí)檢測(cè)數(shù)之間的平均絕對(duì)差異來(lái)測(cè)量計(jì)數(shù)誤差。對(duì)于每個(gè)模型黍少，在驗(yàn)證集上選擇最佳檢測(cè)閾值寡夹，并且在圖7中將結(jié)果報(bào)告為COUNT。

基準(zhǔn)方法：　我們將我們的方法與Faster-RCNN [16]和OverFeat [17]模型作比較厂置。由[9]提供的OverFeat的原始版本依賴于使用AlexNet [12]訓(xùn)練的圖像表示菩掏。因此，我們將原始版本稱為OverFeat-AlexNet农渊。由于OverFeat和我們的模型都用Caffe實(shí)現(xiàn)患蹂，我們可以直接用GoogLeNet架構(gòu)替換上OverFeat模型。我們將新模型稱為OverFeat-GoogLeNet模型砸紊。在Brainwash數(shù)據(jù)集上的兩個(gè)OverFeat變體的比較顯示在圖7中传于。我們觀察到Overfeat-GoogLeNet的性能明顯優(yōu)于OverFeat-AlexNet。

圖8：使用OverFeat-GoogLeNet（頂行）和我們的方法（底行）獲得的示例檢測(cè)結(jié)果醉顽。結(jié)果顯示每個(gè)模型的輸出都有90％的精度沼溜。

圖9：我們的方法失效的情況。

請(qǐng)注意游添，我們的模型和OverFeat中使用的圖像表示是完全相同的系草。兩者都使用相同的代碼，參數(shù)唆涝，過(guò)濾器維度和過(guò)濾器數(shù)量實(shí)現(xiàn)找都。這給了我們直接比較模型的不同假設(shè)生成組件的有趣的可能性。在OverFeat [17]的情況下廊酣，該分量對(duì)應(yīng)于來(lái)自每個(gè)后面跟有一輪非極大值抑制操作單元的邊界框回歸能耻。在我們的模型中，該組件對(duì)應(yīng)于使用產(chǎn)生可變長(zhǎng)度輸出的LSTM層的解碼。我們最好的模型的性能如圖7所示晓猛，并與OverFeat的兩個(gè)版本進(jìn)行比較饿幅。

性能評(píng)估：　我們首先將我們的方法與OverFeat基準(zhǔn)方法在Brainwash數(shù)據(jù)集上進(jìn)行比較。我們的方法相對(duì)于OverFeat有了重大改進(jìn)戒职，召回率從71％提高到81％栗恩。我們還在AP（我們的模型0.78，相對(duì)于OverFeat-GoogLeNet的0.67）和人工計(jì)數(shù)錯(cuò)誤（0.76 vs 1.05）上取得了相當(dāng)大的改善洪燥。

圖8顯示了我們的模型和OverFeat-GoogLeNet獲得的檢測(cè)的幾個(gè)例子磕秤。箭頭突出顯示我們的模型即使在強(qiáng)閉塞的情況下也可以檢測(cè)到人。我們模型失敗的例子如圖9中的紅色箭頭所示蚓曼。

我們與文獻(xiàn)中關(guān)于TUD-Crossing數(shù)據(jù)集的先前工作相比較亲澡。該數(shù)據(jù)集包括來(lái)自擁擠的街道場(chǎng)景的圖像，并且已經(jīng)用于評(píng)估Tang等人[22]的遮擋特異性檢測(cè)器纫版。我們?cè)赥UD-Brussels數(shù)據(jù)集[26]上訓(xùn)練，因?yàn)門UD-Crossing數(shù)據(jù)集不提供相應(yīng)的訓(xùn)練集客情。TUD-Crossing數(shù)據(jù)集的原始標(biāo)準(zhǔn)真值不包括強(qiáng)烈遮擋的人的標(biāo)簽其弊。為了進(jìn)一步了解不同方法在強(qiáng)遮擋情況下的性能，我們擴(kuò)展了標(biāo)準(zhǔn)真值以包括數(shù)據(jù)集中的所有人膀斋。這將標(biāo)記人數(shù)從原始版本的1008增加到完整版本中的1530梭伐。我們將我們檢測(cè)器的結(jié)果與Tang等人[22]報(bào)道的結(jié)果，以及由作者Zhang等人[27]提供的結(jié)果進(jìn)行比較仰担，Zhang等人的方法代表了當(dāng)前行人檢測(cè)技術(shù)的最前沿糊识。

使用原始標(biāo)準(zhǔn)真值的結(jié)果如圖6（a）所示。有著95％的準(zhǔn)確率摔蓝，我們的方法達(dá)到了86％的召回率赂苗，相對(duì)于Tang等人[22]報(bào)道的79％（我們的方法的等誤差率為90％，[22]為85％）贮尉。注意拌滋，[22]和類似的方法已被明確地設(shè)計(jì)為解決多人物的檢測(cè)并采用手動(dòng)設(shè)計(jì)的聚類檢測(cè)組件，而我們的方法可以直接在輸入數(shù)據(jù)上進(jìn)行訓(xùn)練猜谚。我們的方法有了改進(jìn)败砂，并且超過(guò)了OverFeat-GoogLeNet基準(zhǔn)方法以及Zhang等人最近的方法。 [27]魏铅。

完整標(biāo)準(zhǔn)真值的結(jié)果如圖6（b）所示昌犹。注意整體表現(xiàn)的大幅下降，這是由于在完整標(biāo)準(zhǔn)真值中強(qiáng)烈遮擋的人占有較大比例览芳。我們的方法和[27]的方法之間的差異在這種情況下更加顯著斜姥。我們的方法達(dá)到80％的EER，相比于[27]的70％。

與Faster R-CNN對(duì)比：　我們使用作者提供的實(shí)現(xiàn)方法疾渴，在Brainwash和TUD-Crossing數(shù)據(jù)集上訓(xùn)練和評(píng)估Faster R-CNN檢測(cè)器[16]千贯。結(jié)果顯示在圖6和圖7中。我們觀察到搞坝，對(duì)于Faster R-CNN搔谴，非極大值抑制（NMS）的最佳水平對(duì)于獲得良好的性能是至關(guān)重要的。我們比較由參數(shù)τ∈[0,1]控制的三個(gè)級(jí)別的NMS桩撮。在TUD-Crossing數(shù)據(jù)集上敦第，我們的方法比所有NMS級(jí)別的Faster-RCNN都有所改善。在Brainwash數(shù)據(jù)集上店量，它表現(xiàn)出了與最佳設(shè)置的Faster-RCNN同等的結(jié)果芜果。注意，與TUD-Crossing數(shù)據(jù)集相比融师，Brainwash場(chǎng)景不那么擁擠右钾，并且包含更低比率的重疊邊界框。參數(shù)τ= 0.75的Faster R-CNN一直對(duì)同一個(gè)人產(chǎn)生多個(gè)預(yù)測(cè)旱爆，導(dǎo)致比較差的準(zhǔn)確率舀射。參數(shù)τ= 0.25的更嚴(yán)格的NMS減輕了這個(gè)問(wèn)題。在TUD-Crossing數(shù)據(jù)集上怀伦，參數(shù)τ= 0.25去除了大量導(dǎo)致低召回率的預(yù)測(cè)框脆烟，設(shè)置τ= 0.75保留對(duì)接近的人的檢測(cè)，但對(duì)單個(gè)人引入了假陽(yáng)性房待。我們?cè)趫D5中展示了我們的方法和Faster R-CNN之間的定性比較邢羔。兩種方法在完全可見的人的情況下表現(xiàn)相當(dāng)，但是我們的方法能夠更好地檢測(cè)部分被遮擋的人桑孩。

( 譯者注：更過(guò)關(guān)于CNN物體檢測(cè)可參考 [Detection] CNN 之 "物體檢測(cè)" 篇 )

在圖7中拜鹤，我們還包括使用我們的模型擴(kuò)展的結(jié)果，其具有額外的重新縮放層洼怔，能夠在分類之前將特征轉(zhuǎn)換成可變尺度表示署惯，并且得到性能的進(jìn)一步改善。關(guān)于這個(gè)擴(kuò)展的細(xì)節(jié)我們參考了[18]镣隶。

損失函數(shù)的比較　我們現(xiàn)在評(píng)估在2.2節(jié)中介紹的損失函數(shù)极谊。使用L_fix損失函數(shù)訓(xùn)練的模型只能達(dá)到0.60 的AP。這表明允許LSTM在訓(xùn)練期間輸出從易到難的檢測(cè)安岂，而不是以一些固定的空間排序轻猖，對(duì)于性能表現(xiàn)是很重要的。為了探究重疊項(xiàng)在我們的損失函數(shù)中的重要性域那，我們?cè)u(píng)估L_firstk損失咙边，其將每個(gè)區(qū)域中的k個(gè)標(biāo)準(zhǔn)真值實(shí)例匹配到前k個(gè)輸出預(yù)測(cè)猜煮。我們觀察到L_firstk通過(guò)在訓(xùn)練期間允許變動(dòng)LSTM輸出，在測(cè)試時(shí)效果優(yōu)于L_fix败许。然而王带，我們發(fā)現(xiàn)L_firstk努力將置信度附加到特定的框位置。使用L_firstk市殷，早期置信度預(yù)測(cè)通常太高愕撰，而晚期預(yù)測(cè)太低〈浊蓿看起來(lái)搞挣，代替學(xué)習(xí)相應(yīng)框是否正確的概率，模型在第i個(gè)循環(huán)步驟上學(xué)習(xí)預(yù)測(cè)在區(qū)域中至少有i個(gè)人的置信度音羞。這些置信度不適合于檢測(cè)閾值囱桨，并且強(qiáng)調(diào)在匹配函數(shù)中包括重疊項(xiàng)o_ij的重要性。每個(gè)損失函數(shù)的準(zhǔn)確率-召回率曲線如圖7所示嗅绰。

5. Conclusion

在本文中舍肠，我們介紹了一種新的對(duì)象檢測(cè)方法，并演示了其在TUD-Crossing和Brainwash數(shù)據(jù)集上的性能窘面。我們的系統(tǒng)解決了通過(guò)從圖像的豐富的中間表示解碼可變數(shù)量的輸出來(lái)檢測(cè)多個(gè)部分遮蔽的實(shí)例的挑戰(zhàn)貌夕。為了教我們的模型產(chǎn)生一致的預(yù)測(cè)集合，我們定義了一個(gè)適合于端到端訓(xùn)練我們的系統(tǒng)的損失函數(shù)民镜。我們的方法在現(xiàn)代GPU上以每秒15幀的速度運(yùn)行。我們預(yù)見這種方法可以證明在具有結(jié)構(gòu)化輸出的其他預(yù)測(cè)任務(wù)（例如人物追蹤和關(guān)節(jié)姿態(tài)估計(jì)）中也是有效的险毁。

Acknowledgements.　這項(xiàng)工作得到了Max Planck視覺計(jì)算和通信中心的支持制圈。作者要感謝NVIDIA公司提供K40 GPU。作者還要感謝Will Song和Brody Huval的有益的討論畔况。

References

[1] M. Andriluka, S. Roth, and B. Schiele. People-tracking-by-detection and people-detection-by-tracking. In CVPR 2008.

[2] O. Barinova, V. Lempitsky, and P. Kohli. On detection of multiple object instances using Hough transform. In CVPR 2010.

[3] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. Imagenet: A large-scale hierarchical image database. In CVPR 2009.

[4] M. Everingham, S. M. A. Eslami, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman. The pascal visual object classes challenge: A retrospective. International Journal of Computer Vision, 111(1):98–136, January 2015.

[5] A. Farhadi and M.A. Sadeghi. Recognition using visual phrases. In CVPR 2011.

[6] Ross Girshick, Jeff Donahue, Trevor Darrell, and Jitendra Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR’14.

[7] A. Graves, S. Fernandez, F. Gomez, and J. Schmidhuber. Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks. In ICML 2006.

[8] Sepp Hochreiter and Juergen Schmidhuber. Long short-term memory. In Neural Computation 9, 1997.

[9] Brody Huval, Tao Wang, Sameep Tandon, Jeff Kiske, Will Song, Joel Pazhayampallil, Mykhaylo Andriluka, Pranav Rajpurkar, Toki Migimatsu, Royce Cheng-Yue, Fernando Mujica, Adam Coates, and Andrew Y. Ng. An empirical evaluation of deep learning on highway driving. CoRR, abs/1504.01716, 2015.

[10] Yangqing Jia, Evan Shelhamer, Jeff Donahue, Sergey Karayev, Jonathan Long, Ross Girshick, Sergio Guadarrama, and Trevor Darrell. Caffe: Convolutional architecture for fast feature embedding. arXiv preprint arXiv:1408.5093, 2014.

[11] Andrej Karpathy and Li Fei-Fei. Deep visual-semantic alignments for generating image descriptions. In CVPR’15.

[12] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS’12.

[13] B. Leibe, E. Seemann, and B. Schiele. Pedestrian detection in crowded scenes. In CVPR 2005.

[14] Victor Lempitsky and Andrew Zisserman. Learning to count objects in images. In NIPS’10.

[15] W. Ouyang and X. Wang. Single-pedestrian detection aided by multi-pedestrian detection. In CVPR’13.

[16] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. In Neural Information Processing Systems (NIPS), 2015.

[17] Pierre Sermanet, David Eigen, Xiang Zhang, Michael Mathieu, Rob Fergus, and Yann LeCun. Overfeat: Integrated recognition, localization and detection using convolutional networks. In ICLR’14.

[18] Russell Stewart and Mykhaylo Andriluka. End-to-end people detection in crowded scenes. arXiv preprint arXiv:1506.04878, 2015.

[19] Ilya Sutskever, Oriol Vinyals, and Quoc Le. Sequence to sequence learning with neural networks. In NIPS*2014.

[20] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich. Going deeper with convolutions. CoRR, abs/1409.4842, 2014.

[21] Christian Szegedy, Scott Reed, Dumitru Erhan, and Dragomir Anguelov. Scalable, high-quality object detection. CoRR, abs/1412.1441, 2014.

[22] S. Tang, M. Andriluka, A. Milan, K. Schindler, S. Roth, and B. Schiele. Learning people detectors for tracking in crowded scenes. In ICCV’13.

[23] Siyu Tang, Mykhaylo Andriluka, and Bernt Schiele. Detection and tracking of occluded people. In BMVC 2012.

[24] J.R.R. Uijlings, K.E.A. van de Sande, T. Gevers, and A.W.M. Smeulders. Selective search for object recognition. International Journal of Computer Vision, 2013.

[25] Li Wan, David Eigen, and Rob Fergus. End-to-end integration of a convolutional network, deformable parts model and non-maximum suppression. In CVPR’15.

[26] Christian Wojek, Stefan Walk, and Bernt Schiele. Multi-cue onboard pedestrian detection. In CVPR 2009.

[27] S. Zhang, R. Benenson, and B. Schiele. Filtered channel features for pedestrian detection. In CVPR, 2015.

( 時(shí)間倉(cāng)促鲸鹦，很多地方翻譯的有問(wèn)題，僅供參考跷跪，推薦閱讀英文原文 )

附錄

不想下載文檔的可以大致參考一下英文原文預(yù)覽圖：

1 / 9

2 / 9

3 / 9

4 / 9

5 / 9

6 / 9

7 / 9

8 / 9

9 / 9

(注：感謝您的閱讀馋嗜，希望本文對(duì)您有所幫助。如果覺得不錯(cuò)歡迎分享轉(zhuǎn)載吵瞻，但請(qǐng)先點(diǎn)擊這里獲取授權(quán)葛菇。本文由版權(quán)印提供保護(hù)，禁止任何形式的未授權(quán)違規(guī)轉(zhuǎn)載橡羞，謝謝眯停！)

最后編輯于：2017.12.05 00:12:47

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市卿泽，隨后出現(xiàn)的幾起案子莺债，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 206,013評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件齐邦，死亡現(xiàn)場(chǎng)離奇詭異椎侠，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)措拇，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,205評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門我纪，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人儡羔，你說(shuō)我怎么就攤上這事宣羊。” “怎么了汰蜘？”我有些...
開封第一講書人閱讀 152,370評(píng)論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵仇冯，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我族操，道長(zhǎng)苛坚，這世上最難降的妖魔是什么膘掰？我笑而不...
開封第一講書人閱讀 55,168評(píng)論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任秧耗，我火速辦了婚禮外潜，結(jié)果婚禮上愁茁，老公的妹妹穿的比我還像新娘胃惜。我一直安慰自己熬词，他們只是感情好惫搏，可當(dāng)我...
茶點(diǎn)故事閱讀 64,153評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布剥哑。她就那樣靜靜地躺著笤妙，像睡著了一般冒掌。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上蹲盘，一...
開封第一講書人閱讀 48,954評(píng)論 1贊 283
城市分裂傳說(shuō)
那天股毫，我揣著相機(jī)與錄音，去河邊找鬼召衔。笑死铃诬，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的苍凛。我是一名探鬼主播趣席，決...
沈念sama閱讀 38,271評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼毫深！你這毒婦竟也來(lái)了吩坝？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 36,916評(píng)論 0贊 259
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤哑蔫，失蹤者是張志新（化名）和其女友劉穎钉寝，沒(méi)想到半個(gè)月后弧呐，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,382評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡嵌纲，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,877評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年俘枫，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片逮走。...
茶點(diǎn)故事閱讀 37,989評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡鸠蚪，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出师溅，到底是詐尸還是另有隱情茅信，我是刑警寧澤，帶...
沈念sama閱讀 33,624評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布墓臭，位于F島的核電站蘸鲸，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏窿锉。R本人自食惡果不足惜酌摇，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,209評(píng)論 3贊 307
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望嗡载。院中可真熱鬧窑多，春花似錦、人聲如沸洼滚。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,199評(píng)論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)遥巴。三九已至耿芹，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間挪哄，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,418評(píng)論 1贊 260
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工琉闪，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留迹炼，地道東北人。一個(gè)月前我還...
沈念sama閱讀 45,401評(píng)論 2贊 352
代替公主和親
正文我出身青樓颠毙，卻偏偏與公主長(zhǎng)得像斯入，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子蛀蜜，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,700評(píng)論 2贊 345