使用Pytorch進(jìn)行深度學(xué)習(xí)铐伴,60分鐘閃電戰(zhàn)
本次課程的目標(biāo):
- 從更高水平理解Pytorch的Tensor(張量)和神經(jīng)網(wǎng)絡(luò)
- 訓(xùn)練一個(gè)小的圖像分類神經(jīng)網(wǎng)絡(luò)
注意確定已經(jīng)安裝了torch和torchvision
構(gòu)建神經(jīng)網(wǎng)絡(luò)
可以使用torch.nn包來做神經(jīng)網(wǎng)絡(luò)瘤睹。
之前對autograd有了一點(diǎn)點(diǎn)認(rèn)識(shí)朱灿,而nn是基于autograd來定義模型并進(jìn)行區(qū)分续扔。一個(gè)nn.Module包括了層和一個(gè)forward(input)這樣可以返回output攻臀。
教程以數(shù)字圖片分類網(wǎng)絡(luò)為例。
這是一個(gè)簡單的feed-forward前饋網(wǎng)絡(luò)测砂,它接受輸入茵烈,一個(gè)接一個(gè)地通過幾個(gè)層輸入,然后最終給出輸出砌些。
神經(jīng)網(wǎng)絡(luò)的典型訓(xùn)練程序如下:
- 定義神經(jīng)網(wǎng)絡(luò)呜投,該網(wǎng)絡(luò)包括了一些學(xué)習(xí)參數(shù)(或是權(quán)重)
- 迭代輸入數(shù)據(jù)集
- 通過網(wǎng)絡(luò)處理輸入數(shù)據(jù)集
- 計(jì)算損失函數(shù)
- 反饋
- 更新神經(jīng)網(wǎng)絡(luò)權(quán)重加匈,使用一個(gè)簡單的更新規(guī)則
定義神經(jīng)網(wǎng)絡(luò)
先來試試定義一個(gè)神經(jīng)網(wǎng)絡(luò)
from __future__ import print_function
import torch
import torch.nn as nn
import torch.nn.functional as F
class Net(nn.Module):
def __init__(self):
super(Net, self).__init__()
self.conv1 = nn.Conv2d(1, 6, 5)
self.conv2 = nn.Conv2d(6, 16, 5)
self.fc1 = nn.Linear(16 * 5 * 5, 120)
self.fc2 = nn.Linear(120, 84)
self.fc3 = nn.Linear(84, 10)
def forward(self,x):
x=F.max_pool2d(F.relu(self.conv1(x)),(2,2))
x=F.max_pool2d(F.relu(self.conv2(x)),2)
x=x.view(-1,self.num_flat_features(x))
x=F.relu(self.fc1(x))
x=F.relu(self.fc2(x))
x=self.fc3(x)
return x
def num_flat_features(self,x):
size=x.size()[1:]
num_feature=1
for s in size:
num_feature*=s
return num_feature
if __name__ == '__main__':
net = Net()
print(net)
用戶只需定義forward函數(shù),并使用自動(dòng)編程自動(dòng)為用戶定義backward函數(shù)(計(jì)算梯度的位置)仑荐。您可以在轉(zhuǎn)發(fā)功能中使用任何Tensor操作雕拼。
模型中的參數(shù)可以通過net.parameters()
if __name__ == '__main__':
params=list(net.parameters())
print(len(params))
print(params[0].size())
input=torch.randn(1,1,32,32)
out=net(input)
print(out)
10
torch.Size([6, 1, 5, 5])
tensor([[-0.0054, -0.0305, 0.0345, 0.0430, 0.0299, -0.0436, 0.0299,
-0.1239, -0.0808, 0.0694]])
注意: torch.nn 只接受小批量的數(shù)據(jù)
整個(gè)torch.nn包只接受那種小批量樣本的數(shù)據(jù),而非單個(gè)樣本粘招。 例如啥寇,nn.Conv2d能夠結(jié)構(gòu)一個(gè)四維的TensornSamples x nChannels x Height x Width。
如果你拿的是單個(gè)樣本洒扎,使用input.unsqueeze(0)來加一個(gè)假維度就可以了辑甜。
扼要重述
- torch.Tensor是一個(gè)多維度排列,它支持autograd操作(backward())袍冷,同時(shí)包含著和張量相關(guān)的梯度磷醋。
- nn.Module是一個(gè)神經(jīng)網(wǎng)絡(luò)模塊,封裝了多個(gè)參數(shù)胡诗,同時(shí)能夠移植GPU邓线,導(dǎo)出,重載煌恢。
- nn.Parameter是一種Tensor骇陈,當(dāng)給Module賦值時(shí)能夠自動(dòng)注冊為一個(gè)參數(shù)。
- autograd.Function能夠使用自動(dòng)求導(dǎo)實(shí)現(xiàn)forward和backward瑰抵。每個(gè)Variable的操作都會(huì)生成至少一個(gè)獨(dú)立的Function節(jié)點(diǎn)你雌,與生成了Variable的函數(shù)相連之后記錄下操作歷史。
OK二汛,到這里掌握的有
- 如何定義神經(jīng)網(wǎng)絡(luò)
- 處理輸入和調(diào)用backward
還剩下
- 計(jì)算損失函數(shù)
- 更新網(wǎng)絡(luò)中的權(quán)重
計(jì)算損失函數(shù)
一個(gè)損失函數(shù)將(output, target)作為輸入匪蝙,計(jì)算數(shù)值并評估之前的輸出output距離target目標(biāo)值有多少距離。
有多種損失函數(shù)公式习贫,在這里使用nn.MSELoss來計(jì)算輸入和目標(biāo)之間的均方誤差。
舉個(gè)栗子
if __name__ == '__main__':
net = Net()
input=torch.randn(1,1,32,32)
output=net(input)
print(output)
target=torch.randn(10)
target=target.view(1,-1)
criterion=nn.MSELoss()
loss=criterion(output,target)
print(loss)
tensor([[ 0.0923, 0.0274, 0.1043, -0.0715, -0.0499, 0.0079, 0.0866,
-0.0800, -0.0133, -0.1014]])
tensor(0.9399)
此時(shí)千元,如果用戶想查看整個(gè)計(jì)算流程苫昌,可以使用.grad_fn查看。
print(loss.grad_fn)
print(loss.grad_fn.next_functions[0][0]) # Linear
print(loss.grad_fn.next_functions[0][0].next_functions[0][0]) # ReLU
Backprop反向傳遞
要完成反向傳播幸海,我們所要做的就是loss.backward()祟身。用戶要清空現(xiàn)有的梯度值,否則梯度將被計(jì)算為已有梯度物独。
現(xiàn)在我們將調(diào)用loss.backward()袜硫,并查看conv1在backward之前和之后的偏置梯度。
net.zero_grad() #歸零操作
print('conv1.bias.grad before backward',net.conv1.bias.grad)
loss.backward()
print('conv1.bias.grad after backward')
print(net.conv1.bias.grad)
conv1.bias.grad before backward
None
conv1.bias.grad after backward
tensor(1.00000e-02 *
[-0.2610, -0.2729, 1.6355, 0.9463, -0.0689, -1.1425])
更新權(quán)重
最簡單的更新的規(guī)則是隨機(jī)梯度下降法(SGD):
learning_rate = 0.01
for f in net.parameters():
f.data.sub_(f.grad.data * learning_rate)
然而在你使用神經(jīng)網(wǎng)絡(luò)的時(shí)候你想要使用不同種類的方法諸如:SGD, Nesterov-SGD, Adam, RMSProp, etc.
我們構(gòu)建了一個(gè)小的包torch.optim來實(shí)現(xiàn)這個(gè)功能挡篓,其中包含著所有的這些方法婉陷。 用起來也非常簡單:
import torch.optim as optim
# 創(chuàng)建自己的優(yōu)化
optimizer = optim.SGD(net.parameters(), lr=0.01)
# 在訓(xùn)練循環(huán)中
optimizer.zero_grad() # zero the gradient buffers
output = net(input)
loss = criterion(output, target)
loss.backward()
optimizer.step() # Does the update