已經(jīng)開(kāi)始看的不懂了,只知道概念……
第三周 目標(biāo)檢測(cè)(Object detection)
3.1 目標(biāo)定位(Object localization)
如何利用神經(jīng)網(wǎng)絡(luò)進(jìn)行對(duì)象定位伐厌,即通過(guò)輸出四個(gè)參數(shù)值赖欣、绵咱、和給出圖片中對(duì)象的邊界框砌梆。
3.2 特征點(diǎn)檢測(cè)(Landmark detection)
3.3 目標(biāo)檢測(cè)(Object detection)
這種算法叫作滑動(dòng)窗口目標(biāo)檢測(cè)濒憋,因?yàn)槲覀円阅硞€(gè)步幅滑動(dòng)這些方框窗口遍歷整張圖片幌墓,對(duì)這些方形區(qū)域進(jìn)行分類但壮,判斷里面有沒(méi)有汽車(chē)。
滑動(dòng)窗口目標(biāo)檢測(cè)算法也有很明顯的缺點(diǎn)常侣,就是計(jì)算成本茵肃,因?yàn)槟阍趫D片中剪切出太多小方塊,卷積網(wǎng)絡(luò)要一個(gè)個(gè)地處理袭祟。如果你選用的步幅很大验残,顯然會(huì)減少輸入卷積網(wǎng)絡(luò)的窗口個(gè)數(shù),但是粗糙間隔尺寸可能會(huì)影響性能巾乳。反之您没,如果采用小粒度或小步幅,傳遞給卷積網(wǎng)絡(luò)的小窗口會(huì)特別多胆绊,這意味著超高的計(jì)算成本氨鹏。
3.4 滑動(dòng)窗口的卷積實(shí)現(xiàn)(Convolutional implementation of sliding windows)
以上就是在卷積層上應(yīng)用滑動(dòng)窗口算法的內(nèi)容,它提高了整個(gè)算法的效率压状。不過(guò)這種算法仍然存在一個(gè)缺點(diǎn)仆抵,就是邊界框的位置可能不夠準(zhǔn)確。
3.5 Bounding Box預(yù)測(cè)(Bounding box predictions)
3.6 交并比(Intersection over union)
3.7 非極大值抑制(Non-max suppression)
到目前為止你們學(xué)到的對(duì)象檢測(cè)中的一個(gè)問(wèn)題是种冬,你的算法可能對(duì)同一個(gè)對(duì)象做出多次檢測(cè)镣丑,所以算法不是對(duì)某個(gè)對(duì)象檢測(cè)出一次,而是檢測(cè)出多次娱两。非極大值抑制這個(gè)方法可以確保你的算法對(duì)每個(gè)對(duì)象只檢測(cè)一次
3.8 Anchor Boxes
而anchor box的思路是莺匠,這樣子,預(yù)先定義兩個(gè)不同形狀的anchor box十兢,或者anchor box形狀趣竣,你要做的是把預(yù)測(cè)結(jié)果和這兩個(gè)anchor box關(guān)聯(lián)起來(lái)摇庙。一般來(lái)說(shuō),你可能會(huì)用更多的anchor box遥缕,可能要5個(gè)甚至更多卫袒,但對(duì)于這個(gè)視頻,我們就用兩個(gè)anchor box单匣,這樣介紹起來(lái)簡(jiǎn)單一些夕凝。
3.9 YOLO 算法(Putting it together: YOLO algorithm)
開(kāi)始看不懂了
3.10 候選區(qū)域(選修)(Region proposals (Optional))
第四周 特殊應(yīng)用:人臉識(shí)別和神經(jīng)風(fēng)格轉(zhuǎn)換(Special applications: Face recognition &Neural style transfer)
4.1 什么是人臉識(shí)別?(What is face recognition?)
所謂的人臉識(shí)別就是通過(guò)識(shí)別人臉來(lái)判斷不同的人封孙,比如現(xiàn)在運(yùn)用在了門(mén)禁以及手機(jī)解鎖等迹冤。
4.2 One-Shot學(xué)習(xí)(One-shot learning)
臉識(shí)別所面臨的一個(gè)挑戰(zhàn)就是你需要解決一次學(xué)習(xí)問(wèn)題,
所以要讓人臉識(shí)別能夠做到一次學(xué)習(xí)虎忌,為了能有更好的效果泡徙,你現(xiàn)在要做的應(yīng)該是學(xué)習(xí)Similarity函數(shù)。詳細(xì)地說(shuō)膜蠢,你想要神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)這樣一個(gè)用d表示的函數(shù)堪藐,,它以兩張圖片作為輸入挑围,然后輸出這兩張圖片的差異值礁竞。
4.3 Siamese 網(wǎng)絡(luò)(Siamese network)
4.4 Triplet 損失(Triplet 損失)
4.5 人臉驗(yàn)證與二分類(Face verification and binary classification)
總結(jié)一下,把人臉驗(yàn)證當(dāng)作一個(gè)監(jiān)督學(xué)習(xí)杉辙,創(chuàng)建一個(gè)只有成對(duì)圖片的訓(xùn)練集模捂,不是三個(gè)一組,而是成對(duì)的圖片蜘矢,目標(biāo)標(biāo)簽是1表示一對(duì)圖片是一個(gè)人狂男,目標(biāo)標(biāo)簽是0表示圖片中是不同的人。利用不同的成對(duì)圖片品腹,使用反向傳播算法去訓(xùn)練神經(jīng)網(wǎng)絡(luò)岖食,訓(xùn)練Siamese神經(jīng)網(wǎng)絡(luò)。
4.6 什么是神經(jīng)風(fēng)格遷移舞吭?(What is neural style transfer?)
就是通過(guò)利用卷積神經(jīng)網(wǎng)絡(luò)來(lái)在一張圖片上運(yùn)用另外一張照片的風(fēng)格泡垃。
4.7 CNN特征可視化(What are deep ConvNets learning?)
4.8 代價(jià)函數(shù)(Cost function)
4.9 內(nèi)容代價(jià)函數(shù)(Content cost function)
4.10 風(fēng)格代價(jià)函數(shù)(Style cost function)
4.11 一維到三維推廣(1D and 3D generalizations of models)
參考鏈接:
網(wǎng)易云課堂
斯坦福參考資料