@[toc]
1.1 計(jì)算機(jī)視覺
1.2 邊緣檢測(cè)示例
卷積的乘法(對(duì)應(yīng)元素相乘,不同于矩陣乘法)fliter過濾器
1.3 更多的邊緣檢測(cè)內(nèi)容
還有將filter過濾器設(shè)置成參數(shù)握侧,通過反向傳播進(jìn)行學(xué)習(xí)品擎。
1.4 padding
之前的卷積操作會(huì)降低圖片的維度备徐,可能會(huì)使圖片維度越來越低,同時(shí)邊緣的像素只被過濾器利用一次秀菱。
習(xí)慣上用0來填充,維度變成(n+2p-f+1)*(n+2p-f+1)
valid convolutions:no padding
same convolutions: padding so that output size is the same as the input size.
所以f一般為奇數(shù)赶么,此時(shí)首先能保證p是整數(shù)脊串,其次奇數(shù)的卷積核(kernel)有中心,便于指出過濾器的位置放闺。
1.5 卷積步長 strided convolution
1.6 三維卷積
通過設(shè)置立體過濾器(卷積核)的不同通道的數(shù)值怖侦,可以提取不同層的特征础钠。
1.7 單層神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò):避免過擬合叉谜。無論應(yīng)用到大小圖片中停局,參數(shù)數(shù)量不變
if you have 10 filters that are 3x3x3 in one layer of a neural network, how many parameters does that layers have?
(3x3x3+1) x 10 = 280
1.8 簡單卷積網(wǎng)絡(luò)示例
卷積核是特征提取器董栽,卷積核越多企孩,提取的信息越多。
Types of layers in a convolutional network?
- Convolution (CONV)
- Pooling (POOL)
- Fully connected (FC)
1.9 池化層
池化層:縮減模型的大小擒抛,提高計(jì)算速度补疑,同時(shí)提高所提取特征的魯棒性。
目前來說诊胞,最大池化比平均池化更常用锹杈,但也有例外迈着,就是深度很深的神經(jīng)網(wǎng)絡(luò)邪码。
summary of pooling
hyperparameters:
f: filter size
s: stride
Max(f=2,s=2) or average(f=3,s=2) pooling
1.10 卷積神經(jīng)網(wǎng)絡(luò)示例
隨著層數(shù)的增加,高度和寬度都會(huì)減小糕韧,而通道數(shù)量會(huì)增加喻圃。
1.11 為什么使用卷積斧拍?
卷積神經(jīng)網(wǎng)絡(luò)可以用兩種方式減少參數(shù),以便于我們用更小的訓(xùn)練集訓(xùn)練它愚墓,從而預(yù)防過度擬合昂勉。
為什么使用卷積:參數(shù)共享和稀疏連接
2.1 為什么要進(jìn)行實(shí)例研究岗照?
classic networks:LeNet-5、AlexNet攒至、VGG
ResNet、Inception.
2.2 經(jīng)典網(wǎng)絡(luò)
2.3 殘差網(wǎng)絡(luò)
skip connect(遠(yuǎn)跳連接):跳過一層或好幾層,從而將信息傳遞到神經(jīng)網(wǎng)絡(luò)的更深層志膀。
residual network 能夠達(dá)到網(wǎng)絡(luò)的更深層,這種方式確實(shí)有助于解決梯度消失和梯度爆炸問題奇颠。讓我們?cè)谟?xùn)練更深網(wǎng)絡(luò)的同時(shí)放航,又能保證良好的性能。
2.4 殘差網(wǎng)絡(luò)為什么有用?
網(wǎng)絡(luò)深度越深吓妆,它在訓(xùn)練集上訓(xùn)練網(wǎng)絡(luò)的效率會(huì)有所減弱吨铸,這也是有時(shí)候我們不希望加深網(wǎng)絡(luò)的原因。
殘差網(wǎng)絡(luò)有用的主要原因是這些殘差層學(xué)習(xí)恒等函數(shù)很容易舟奠,至少網(wǎng)絡(luò)性能不會(huì)受到影響房维,很多時(shí)候甚至可以提高效率,或者說至少不會(huì)降低效率咙俩。
2.5 網(wǎng)絡(luò)中的網(wǎng)絡(luò)以及1x1卷積
1x1卷積可以在保證高度寬度不變的情況下壓縮信道數(shù)量并減少計(jì)算脖阵。
2.6 谷歌inception網(wǎng)絡(luò)簡介
2.7 inception網(wǎng)絡(luò)
2.8 使用開源的實(shí)現(xiàn)方案
2.9 遷移學(xué)習(xí)
凍結(jié)前面所有的層命黔,只把softmax層改動(dòng)以適應(yīng)自己的實(shí)現(xiàn)。
2.10 數(shù)據(jù)擴(kuò)充
mirroring鏡像對(duì)稱、random cropping隨機(jī)修剪战转、rotation、shearing啄踊、local warping
color shifting(rgb通道)
2.11 計(jì)算機(jī)視覺現(xiàn)狀
3.1 目標(biāo)定位object localization
Need to output ,class label (1,-4)
3.2 特征點(diǎn)檢測(cè)landmark detection
129
3.3 目標(biāo)檢測(cè)object detection
3.4 卷積的滑動(dòng)窗口實(shí)現(xiàn)
convolution implementation of sliding windows
3.5 Bounding Box預(yù)測(cè)
YOLO:you only look once
YOLO計(jì)算速度非车蟊辏快,可以達(dá)到實(shí)時(shí)識(shí)別顿锰,
3.6 交并化intersection over union(IOU)
Evaluating object localization 交并比函數(shù)
計(jì)算兩個(gè)邊框交集與并集之比
“correct” if IoU > 0.5
3.7 非極大值抑制Non-max suppression
3.8 Ancher Boxes
ancher boxes:為了處理兩個(gè)對(duì)象出現(xiàn)在同一個(gè)格子里的情況硼控,可以使你的訓(xùn)練集更有針對(duì)性(很高很瘦的行人和很長很低的車子)
3.9 YOLO算法
3.10 候選區(qū)域region proposal
R-CNN:帶區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)
首先得到候選區(qū)域牢撼,然后再分類,所以速度較慢熏版。
4.1 什么是人臉識(shí)別?
face verification人臉驗(yàn)證
- input image再膳,name/ID
- output whether the input image is that of the claimed person.
face recognition人臉識(shí)別
- has a database of K persons
- get an input image
- output ID if the image is any of the K persons (or "not recognized")
4.2 One-Shot學(xué)習(xí)
d(img1,img2) = degree of difference between images
if d(img1,img2)
4.3 Siamese網(wǎng)絡(luò)
4.4 Triplet損失(三元組)
Anchor饵史、Positive、Negative
4.5 面部驗(yàn)證和二分類
把人臉驗(yàn)證當(dāng)做一個(gè)監(jiān)督學(xué)習(xí)胳喷,創(chuàng)建一個(gè)成對(duì)圖片的訓(xùn)練集(不再是三個(gè)一組)吭露,目標(biāo)標(biāo)簽是1表示兩張圖片是同一個(gè)人