【論文地址】End-to-End Deep Learning for Driver Distraction Recognition(http://www.springer.com/cda/content/document/cda_downloaddocument/9783319598758-c2.pdf?SGWID=0-0-45-1608335-p180889205)
摘要
該模型框架草巡,通過預訓練卷積神經(jīng)網(wǎng)絡VGG-19尺迂,提取圖片特征乙墙。在照明條件冲粤、攝像頭位置、駕駛員種族以及性別存在差異的情況下稳强, VGG-19模型的測試精度達到了95%皇耗,平均每類測試精度為80%任内。所提出的方法在精度上優(yōu)于xgboost約7%。
模型框架
駕駛員分心識別問題可以看作是一個將輸入觀測映射到駕駛員狀態(tài)的多分類過程牌里。所開發(fā)的系統(tǒng)主要包括三個組件颊咬,如圖1所示。第一部分是CNN的一個變體牡辽,用于提取高度抽象特征喳篇。然后是一個Max池化層,用于減少特征的尺寸态辛。最后一個組件包括6個全連接層和一個Softmax層杭隙。
特征提取
常見的卷積網(wǎng)絡是由一系列卷積層,池化層堆疊而成因妙,通常后面緊接著全連接層痰憎。卷積層和池化層在較小的局部輸入塊上運行,這兩層的結合使得網(wǎng)絡對給定圖像中的位置變化更加穩(wěn)健攀涵。
作為卷積網(wǎng)絡的一個變體铣耘,VGG-19網(wǎng)絡首先在ImageNet競賽中的圖像分類、目標檢測和目標定位任務中被提出來以故。由于它具有結構簡單蜗细,參數(shù)數(shù)量適中的特點,很快被許多計算機視覺和圖像處理研究所接受。采用這種網(wǎng)絡有兩種常見的方法:對VGG中的所有參數(shù)進行微調炉媒;提取經(jīng)過預訓練的VGG模型的高度抽象特征踪区。本文的研究工作遵循第二種方法,從VGG19模型中提取代表性特征吊骤。
文中對VGG19的結構和配置做了簡要的總結缎岗。輸入應為224224的RGB圖片。卷積核大小為33白粉,使得下面的層包含較小的局部信息传泊,卷積的步長為1。并在2*2的塊上執(zhí)行max pooling鸭巴,步長為2眷细。VGG19中最后三個全連接層被丟棄,其余的結構用于特征提取鹃祖。
分類
如圖2溪椎,原始的VGG19中的分類器是一個三層全連接網(wǎng)絡,它是為包含不同目標的圖像分類而設計和訓練的恬口。VGG中最后一個max pooling后的特征圖尺寸為77512校读。如圖1,為了減小特征的維數(shù)并加快學習過程楷兽,在VGG19模型中的最后一個池化層和DNN分類器之間連接另一個max pooling,也在2*2像素窗上執(zhí)行华临,步長為2芯杀。同時,在這項工作中雅潭,我們使用了xgboost和一個6層全連接網(wǎng)絡作為分類器用來分心駕駛的分類揭厚。Xgboost后的全連接網(wǎng)絡分類器包含6層,每層有1000個神經(jīng)節(jié)點扶供,并采用SGD進行訓練筛圆。Xgboost的學習過程比較耗時,不適合直接在大圖像的像素級上工作椿浓。DNN與xgboost分類器兩者的性能比較如表1太援。
從表1中可以看出,DNN分類器在正常駕駛扳碍、右分心和后分心三個類別上占主導地位提岔;而在左分心類別中,兩者差異較小笋敞。另外碱蒙,對于兩個分類器,左分心的分類都有很好的區(qū)分,兩個分類器的F1度量幾乎為1赛惩。表中還顯示了右分心和正常駕駛分類上的精度高于召回率哀墓,而在后分心分類上表現(xiàn)相反。這一差異表明喷兼,模型把更多樣本分類為后分心類別中篮绰。