第三課的第二部分红碑,介紹了如何用cnn來(lái)進(jìn)行回歸預(yù)測(cè)的方法赶站,其中采用了一個(gè)頭部姿勢(shì)的數(shù)據(jù)集〔恚回歸問(wèn)題的處理和分類有一些不同捂掰,主要體現(xiàn)在預(yù)測(cè)的結(jié)果是一個(gè)連續(xù)的坐標(biāo)值敢会。下面對(duì)代碼進(jìn)行解讀:
數(shù)據(jù)集簡(jiǎn)介可以參考:https://blog.csdn.net/LEE18254290736/article/details/89371932
課程內(nèi)容:https://www.kaggle.com/hortonhearsafoo/fast-ai-v3-lesson-3-head-pose
%reload_ext autoreload
%autoreload 2
%matplotlib inline
from fastai.vision import *
#下載并且解壓BiWi數(shù)據(jù)集
path = untar_data(URLs.BIWI_HEAD_POSE, './data/biwi_head_pose.tgz', './data')
#從文件中讀取數(shù)據(jù)并且處理缺失值,并且忽略最后的6行數(shù)據(jù)
#注意這里讀取的是校準(zhǔn)rgb攝像頭的文件这嚣,包含了平移和旋轉(zhuǎn)的矩陣
#由于同時(shí)采集了深度信息和rgb圖像鸥昏,兩個(gè)攝像頭的位置不同,因此需要校準(zhǔn)兩張圖片的坐標(biāo)姐帚,使得坐標(biāo)對(duì)齊
cal = np.genfromtxt(path/'01'/'rgb.cal', skip_footer=6); cal
array([[517.679, 0. , 320. ],
[ 0. , 517.679, 240.5 ],
[ 0. , 0. , 1. ]])
#圖片路徑
fname = path/'09/frame_00667_rgb.jpg'
#定義函數(shù)吏垮,根據(jù)圖片路徑返回對(duì)應(yīng)的標(biāo)記文件路徑
#這里做了一些修改,因?yàn)橄旅娅@取數(shù)據(jù)集的時(shí)候罐旗,處理的文件路徑的相對(duì)路徑已經(jīng)包含了path膳汪,因此不需要在加上path
def img2txt_name(f): return f'{str(f)[:-7]}pose.txt'
#打開(kāi)圖片文件并顯示
img = open_image(fname)
img.show()
#通過(guò)上面的函數(shù)獲取圖片標(biāo)記文件,并且讀取標(biāo)記的坐標(biāo)九秀,坐標(biāo)為三維
ctr = np.genfromtxt(img2txt_name(fname), skip_header=3); ctr
array([187.332 , 40.3892, 893.135 ])
#坐標(biāo)偏移校準(zhǔn)遗嗽,將深度信息的坐標(biāo)校準(zhǔn)到rgb圖片(由于兩臺(tái)相機(jī)的坐標(biāo)信息不同導(dǎo)致需要相互轉(zhuǎn)換)
def convert_biwi(coords):
c1 = coords[0] * cal[0][0]/coords[2] + cal[0][2]
c2 = coords[1] * cal[1][1]/coords[2] + cal[1][2]
return tensor([c2,c1])
#獲取圖片的標(biāo)記點(diǎn),并且對(duì)坐標(biāo)校準(zhǔn)
def get_ctr(f):
ctr = np.genfromtxt(img2txt_name(f), skip_header=3)
return convert_biwi(ctr)
#根據(jù)圖片坐標(biāo)生成光流鼓蜒,并轉(zhuǎn)換成ImagePoints對(duì)象
#ImagePoints包含了一系列的點(diǎn)媳谁,坐標(biāo)都是從-1到1,表示的是點(diǎn)在圖像范圍內(nèi)的位置比例友酱,以中心點(diǎn)為0點(diǎn)
def get_ip(img,pts): return ImagePoints(FlowField(img.size, pts), scale=True)
#獲取上述圖片的標(biāo)記點(diǎn)
get_ctr(fname)
tensor([263.9104, 428.5814])
#獲取標(biāo)記點(diǎn)
ctr = get_ctr(fname)
#將標(biāo)記點(diǎn)轉(zhuǎn)換為ImagePoints對(duì)象并在原始圖像中顯示
img.show(y=get_ip(img, ctr), figsize=(6, 6))
#創(chuàng)建數(shù)據(jù)集
data = (PointsItemList.from_folder(path)
#根據(jù)函數(shù)結(jié)果將數(shù)據(jù)集分成測(cè)試和驗(yàn)證集晴音,如果條件為true,則分到驗(yàn)證集缔杉,
#這里是把文件夾13的數(shù)據(jù)分到了驗(yàn)證集
.split_by_valid_func(lambda o: o.parent.name=='13')
#使用函數(shù)對(duì)數(shù)據(jù)集進(jìn)行標(biāo)記锤躁,對(duì)輸入的每個(gè)數(shù)據(jù)使用函數(shù),將獲得的結(jié)果作為這個(gè)數(shù)據(jù)的標(biāo)簽或详,
#這里獲得的標(biāo)簽是一個(gè)tensor系羞,內(nèi)容是對(duì)應(yīng)的坐標(biāo)點(diǎn)
.label_from_func(get_ctr)
#變換圖片擴(kuò)充訓(xùn)練集,同時(shí)對(duì)標(biāo)簽坐標(biāo)變換霸琴,尺度則變換為120*160
.transform(get_transforms(), tfm_y=True, size=(120,160))
#生成數(shù)據(jù)集椒振,并歸一化
.databunch(num_workers=0).normalize(imagenet_stats)
)
#顯示數(shù)據(jù)集中的圖片
data.show_batch(3, figsize=(9,6))
# 訓(xùn)練模型,創(chuàng)建resnet34模型
learn = create_cnn(data, models.resnet34)
#尋找合適的學(xué)習(xí)率
learn.lr_find()
learn.recorder.plot()
#采用合適的學(xué)習(xí)率學(xué)習(xí)5輪
lr = 2e-2
learn.fit_one_cycle(5, slice(lr))
#保存模型梧乘,并且讀取后展示預(yù)測(cè)結(jié)果
learn.save('stage-1')
learn.load('stage-1');
learn.show_results()
#這里展示的get_transforms的各種參數(shù)澎迎,包括選擇角度,縮放尺度选调,明度夹供,對(duì)稱變化系數(shù),仿射變換概率系數(shù)仁堪,照明變化概率系數(shù)
tfms = get_transforms(max_rotate=20, max_zoom=1.5, max_lighting=0.5, max_warp=0.4, p_affine=1., p_lighting=1.)
#這里重新設(shè)置了數(shù)據(jù)集哮洽,猜測(cè)其中的get_transforms應(yīng)該用tfms來(lái)替換
data = (PointsItemList.from_folder(path)
.split_by_valid_func(lambda o: o.parent.name=='13')
.label_from_func(get_ctr)
.transform(get_transforms(), tfm_y=True, size=(120,160))
.databunch(num_workers=0).normalize(imagenet_stats)
)
#定向展示單條訓(xùn)練集預(yù)測(cè)數(shù)據(jù)的方法
def _plot(i,j,ax):
x,y = data.train_ds[0]
x.show(ax, y=y)
#用于顯示多條帶預(yù)測(cè)標(biāo)記的訓(xùn)練集數(shù)據(jù)
plot_multi(_plot, 3, 3, figsize=(8,6))