《動(dòng)手學(xué)》筆記2 softmax與分類模型

softmax和分類模型

內(nèi)容包含:

????softmax回歸的基本概念

????使用pytorch重新實(shí)現(xiàn)softmax回歸模型

1.1 softmax的基本概念

1.1.1 分類問題

一個(gè)簡(jiǎn)單的圖像分類問題,輸入圖像的高和寬均為2像素,色彩為灰度垃环。

圖像中的4像素分別記為x1,x2,x3,x4x1,x2,x3,x4钮蛛。

假設(shè)真實(shí)標(biāo)簽為狗念颈、貓或者雞谤草,這些標(biāo)簽對(duì)應(yīng)的離散值為y1,y2,y3y1,y2,y3犹褒。

我們通常使用離散的數(shù)值來表示類別梢为,例如y1=1,y2=2,y3=3y1=1,y2=2,y3=3渐行。

1.1.2 權(quán)重矢量

o1=x1w11+x2w21+x3w31+x4w41+b1o1=x1w11+x2w21+x3w31+x4w41+b1

o2=x1w12+x2w22+x3w32+x4w42+b2o2=x1w12+x2w22+x3w32+x4w42+b2

o3=x1w13+x2w23+x3w33+x4w43+b3o3=x1w13+x2w23+x3w33+x4w43+b3

1.1.3 神經(jīng)網(wǎng)絡(luò)圖

下圖用神經(jīng)網(wǎng)絡(luò)圖描繪了上面的計(jì)算。softmax回歸同線性回歸一樣铸董,也是一個(gè)單層神經(jīng)網(wǎng)絡(luò)祟印。由于每個(gè)輸出o1,o2,o3o1,o2,o3的計(jì)算都要依賴于所有的輸入x1,x2,x3,x4x1,x2,x3,x4,softmax回歸的輸出層也是一個(gè)全連接層粟害。

softmax回歸是一個(gè)單層神經(jīng)網(wǎng)絡(luò)softmax回歸是一個(gè)單層神經(jīng)網(wǎng)絡(luò)

既然分類問題需要得到離散的預(yù)測(cè)輸出蕴忆,一個(gè)簡(jiǎn)單的辦法是將輸出值oioi當(dāng)作預(yù)測(cè)類別是ii的置信度,并將值最大的輸出所對(duì)應(yīng)的類作為預(yù)測(cè)輸出悲幅,即輸出?argmaxioiarg?maxioi套鹅。例如,如果o1,o2,o3o1,o2,o3分別為0.1,10,0.10.1,10,0.1汰具,由于o2o2最大卓鹿,那么預(yù)測(cè)類別為2,其代表貓留荔。

1.1.4 輸出問題

直接使用輸出層的輸出有兩個(gè)問題:

一方面吟孙,由于輸出層的輸出值的范圍不確定,我們難以直觀上判斷這些值的意義聚蝶。例如杰妓,剛才舉的例子中的輸出值10表示“很置信”圖像類別為貓,因?yàn)樵撦敵鲋凳瞧渌麅深惖妮敵鲋档?00倍碘勉。但如果o1=o3=103o1=o3=103稚失,那么輸出值10卻又表示圖像類別為貓的概率很低。

另一方面恰聘,由于真實(shí)標(biāo)簽是離散值,這些離散值與不確定范圍的輸出值之間的誤差難以衡量吸占。

softmax運(yùn)算符(softmax operator)解決了以上兩個(gè)問題晴叨。它通過下式將輸出值變換成值為正且和為1的概率分布:

y^1,y^2,y^3=softmax(o1,o2,o3)y^1,y^2,y^3=softmax(o1,o2,o3)

其中

y^1=exp(o1)∑3i=1exp(oi),y^2=exp(o2)∑3i=1exp(oi),y^3=exp(o3)∑3i=1exp(oi).y^1=exp?(o1)∑i=13exp?(oi),y^2=exp?(o2)∑i=13exp?(oi),y^3=exp?(o3)∑i=13exp?(oi).

容易看出y^1+y^2+y^3=1y^1+y^2+y^3=1且0≤y^1,y^2,y^3≤10≤y^1,y^2,y^3≤1,因此y^1,y^2,y^3y^1,y^2,y^3是一個(gè)合法的概率分布矾屯。這時(shí)候兼蕊,如果y^2=0.8y^2=0.8,不管y^1y^1和y^3y^3的值是多少件蚕,我們都知道圖像類別為貓的概率是80%孙技。此外产禾,我們注意到

argmaxioi=argmaxiy^iarg?maxioi=arg?maxiy^i

因此softmax運(yùn)算不改變預(yù)測(cè)類別輸出。

1.1.5 交叉熵?fù)p失函數(shù)

對(duì)于樣本ii牵啦,我們構(gòu)造向量y(i)∈Rqy(i)∈Rq?亚情,使其第y(i)y(i)(樣本ii類別的離散數(shù)值)個(gè)元素為1,其余為0哈雏。這樣我們的訓(xùn)練目標(biāo)可以設(shè)為使預(yù)測(cè)概率分布y^(i)y^(i)盡可能接近真實(shí)的標(biāo)簽概率分布y(i)y(i)楞件。

平方損失估計(jì)

Loss=|y^(i)?y(i)|2/2Loss=|y^(i)?y(i)|2/2

然而,想要預(yù)測(cè)分類結(jié)果正確裳瘪,我們其實(shí)并不需要預(yù)測(cè)概率完全等于標(biāo)簽概率土浸。例如,在圖像分類的例子里彭羹,如果y(i)=3y(i)=3黄伊,那么我們只需要y^(i)3y^3(i)比其他兩個(gè)預(yù)測(cè)值y^(i)1y^1(i)和y^(i)2y^2(i)大就行了。即使y^(i)3y^3(i)值為0.6派殷,不管其他兩個(gè)預(yù)測(cè)值為多少还最,類別預(yù)測(cè)均正確。而平方損失則過于嚴(yán)格愈腾,例如y^(i)1=y^(i)2=0.2y^1(i)=y^2(i)=0.2比y^(i)1=0,y^(i)2=0.4y^1(i)=0,y^2(i)=0.4的損失要小很多憋活,雖然兩者都有同樣正確的分類預(yù)測(cè)結(jié)果。

改善上述問題的一個(gè)方法是使用更適合衡量?jī)蓚€(gè)概率分布差異的測(cè)量函數(shù)虱黄。其中悦即,交叉熵(cross entropy)是一個(gè)常用的衡量方法:

H(y(i),y^(i))=?∑j=1qy(i)jlogy^(i)j,H(y(i),y^(i))=?∑j=1qyj(i)log?y^j(i),

其中帶下標(biāo)的y(i)jyj(i)是向量y(i)y(i)中非0即1的元素,需要注意將它與樣本ii類別的離散數(shù)值橱乱,即不帶下標(biāo)的y(i)y(i)區(qū)分辜梳。在上式中,我們知道向量y(i)y(i)中只有第y(i)y(i)個(gè)元素y(i)y(i)y(i)y(i)為1泳叠,其余全為0作瞄,于是H(y(i),y^(i))=?logy^y(i)(i)H(y(i),y^(i))=?log?y^y(i)(i)。也就是說危纫,交叉熵只關(guān)心對(duì)正確類別的預(yù)測(cè)概率宗挥,因?yàn)橹灰渲底銐虼螅涂梢源_保分類結(jié)果正確种蝶。當(dāng)然契耿,遇到一個(gè)樣本有多個(gè)標(biāo)簽時(shí),例如圖像里含有不止一個(gè)物體時(shí)螃征,我們并不能做這一步簡(jiǎn)化搪桂。但即便對(duì)于這種情況,交叉熵同樣只關(guān)心對(duì)圖像中出現(xiàn)的物體類別的預(yù)測(cè)概率盯滚。

假設(shè)訓(xùn)練數(shù)據(jù)集的樣本數(shù)為nn踢械,交叉熵?fù)p失函數(shù)定義為

?(Θ)=1n∑i=1nH(y(i),y^(i)),?(Θ)=1n∑i=1nH(y(i),y^(i)),

其中ΘΘ代表模型參數(shù)酗电。同樣地,如果每個(gè)樣本只有一個(gè)標(biāo)簽内列,那么交叉熵?fù)p失可以簡(jiǎn)寫成?(Θ)=?(1/n)∑ni=1logy^(i)y(i)?(Θ)=?(1/n)∑i=1nlog?y^y(i)(i)撵术。從另一個(gè)角度來看,我們知道最小化?(Θ)?(Θ)等價(jià)于最大化exp(?n?(Θ))=∏ni=1y^(i)y(i)exp?(?n?(Θ))=∏i=1ny^y(i)(i)德绿,即最小化交叉熵?fù)p失函數(shù)等價(jià)于最大化訓(xùn)練數(shù)據(jù)集所有標(biāo)簽類別的聯(lián)合預(yù)測(cè)概率荷荤。

1.1.6 模型訓(xùn)練和預(yù)測(cè)

在訓(xùn)練好softmax回歸模型后,給定任一樣本特征移稳,就可以預(yù)測(cè)每個(gè)輸出類別的概率蕴纳。通常,我們把預(yù)測(cè)概率最大的類別作為輸出類別个粱。如果它與真實(shí)類別(標(biāo)簽)一致古毛,說明這次預(yù)測(cè)是正確的。在實(shí)驗(yàn)中都许,我們將使用準(zhǔn)確率(accuracy)來評(píng)價(jià)模型的表現(xiàn)稻薇。它等于正確預(yù)測(cè)數(shù)量與總預(yù)測(cè)數(shù)量之比。

2. 1? 使用pytorch重新實(shí)現(xiàn)softmax回歸模型

代碼1
#softmax 回歸的簡(jiǎn)單實(shí)現(xiàn)

import torch

import sys

import numpyas np

from torchimport nn

from torch.nnimport init

import d2lzh_pytorchas d2l

from collectionsimport OrderedDict

if __name__ =='__main__':

batch_size =256

? ? train_iter,test_iter = load_data_fashion_mnist(batch_size)

num_inputs =28*28

? ? num_outputs =10

? ? #構(gòu)建網(wǎng)絡(luò)

? ? net = nn.Sequential(

OrderedDict([

("flatten",d2l.FlattenLayer()),

("linear",nn.Linear(num_inputs,num_outputs))

]))

# print(net)

? ? #均值為0,標(biāo)準(zhǔn)差為0.01的正太分布隨機(jī)初始化模型的權(quán)重參數(shù)

? ? init.normal_(net.linear.weight,mean=0,std=0.01)

init.constant_(net.linear.bias,val=0)

#定義損失函數(shù)以及梯度優(yōu)化算法

? ? loss = nn.CrossEntropyLoss()

optimizer = torch.optim.SGD(net.parameters(),lr=0.1)

num_epochs =5

? ? train_ch3(net,train_iter,test_iter,loss,num_epochs,batch_size,None,None,optimizer)



def load_data_fashion_mnist(batch_size):

mnist_train = torchvision.datasets.FashionMNIST(root="./Dataset/FashionMnist",train=True,download=True,

transform=transfroms.ToTensor())

mnist_test = torchvision.datasets.FashionMNIST(root="./Dataset/FashionMnist",train=False,download=True,

transform=transfroms.ToTensor())

# 讀取小批量數(shù)據(jù),使用多進(jìn)程來加速數(shù)據(jù)讀取

? ? if sys.platform.startswith('Win'):

num_workers =0? # 0表示不需要額外的進(jìn)程來加速讀取數(shù)據(jù)

? ? else:

num_workers =2? # 四個(gè)進(jìn)程加速 超過3會(huì)出現(xiàn)頁面文件太小,無法操作

? ? train_iter = Data.DataLoader(mnist_train,batch_size=batch_size,shuffle=True,num_workers=num_workers)

test_iter = Data.DataLoader(mnist_test,batch_size=batch_size,shuffle=False,num_workers=num_workers)

return train_iter,test_iter




def train_ch3(net,train_iter,test_iter,loss,num_epochs,batch_size,params=None,lr=None,optimizer =None):

for epochin range(num_epochs):

train_l_sum,train_acc_sum,n =0.0,0.0,0

? ? ? ? for x,yin train_iter:

y_hat = net(x)

l = loss(y_hat,y).sum()

#梯度清零

? ? ? ? ? ? if optimizeris not None:

optimizer.zero_grad()

elif paramsis not None and params[0].gradis not None:

for paramin params:

param.grad.data.zero_()

l.backward()

#梯度優(yōu)化

? ? ? ? ? ? if optimizeris None:

sgd(params,lr,batch_size)

else:

optimizer.step()

train_l_sum += l.item()

train_acc_sum += (y_hat.argmax(dim=1)==y).sum().item()

n += y.shape[0]

test_acc = evaluate_accuracy(test_iter,net)

print('epoch:{} ,loss:{:.4f}, train_acc:{:.3f}, test_acc:{:.3f}'.format(epoch+1,train_l_sum/n , train_acc_sum/n,test_acc))

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末胶征,一起剝皮案震驚了整個(gè)濱河市塞椎,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌睛低,老刑警劉巖案狠,帶你破解...
    沈念sama閱讀 212,884評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異钱雷,居然都是意外死亡骂铁,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,755評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門罩抗,熙熙樓的掌柜王于貴愁眉苦臉地迎上來拉庵,“玉大人,你說我怎么就攤上這事套蒂〕В” “怎么了?”我有些...
    開封第一講書人閱讀 158,369評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵操刀,是天一觀的道長伸辟。 經(jīng)常有香客問我,道長馍刮,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,799評(píng)論 1 285
  • 正文 為了忘掉前任窃蹋,我火速辦了婚禮卡啰,結(jié)果婚禮上静稻,老公的妹妹穿的比我還像新娘。我一直安慰自己匈辱,他們只是感情好振湾,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,910評(píng)論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著亡脸,像睡著了一般押搪。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上浅碾,一...
    開封第一講書人閱讀 50,096評(píng)論 1 291
  • 那天大州,我揣著相機(jī)與錄音,去河邊找鬼垂谢。 笑死厦画,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的滥朱。 我是一名探鬼主播根暑,決...
    沈念sama閱讀 39,159評(píng)論 3 411
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼徙邻!你這毒婦竟也來了排嫌?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,917評(píng)論 0 268
  • 序言:老撾萬榮一對(duì)情侶失蹤缰犁,失蹤者是張志新(化名)和其女友劉穎淳地,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體民鼓,經(jīng)...
    沈念sama閱讀 44,360評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡薇芝,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,673評(píng)論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了丰嘉。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片夯到。...
    茶點(diǎn)故事閱讀 38,814評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖饮亏,靈堂內(nèi)的尸體忽然破棺而出耍贾,到底是詐尸還是另有隱情,我是刑警寧澤路幸,帶...
    沈念sama閱讀 34,509評(píng)論 4 334
  • 正文 年R本政府宣布荐开,位于F島的核電站,受9級(jí)特大地震影響简肴,放射性物質(zhì)發(fā)生泄漏晃听。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,156評(píng)論 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望能扒。 院中可真熱鬧佣渴,春花似錦、人聲如沸初斑。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽见秤。三九已至砂竖,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間鹃答,已是汗流浹背乎澄。 一陣腳步聲響...
    開封第一講書人閱讀 32,123評(píng)論 1 267
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留挣跋,地道東北人三圆。 一個(gè)月前我還...
    沈念sama閱讀 46,641評(píng)論 2 362
  • 正文 我出身青樓,卻偏偏與公主長得像避咆,于是被迫代替她去往敵國和親舟肉。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,728評(píng)論 2 351

推薦閱讀更多精彩內(nèi)容