--------------------------------
Author : ShawnDong
updateDate :2018.9.28
Blog : ShawnDong98.github.io
--------------------------------
Softmax回歸
-
是什么喇聊?
Softmax回歸是一個線性的多類分類模型,Softmax函數(shù)的功能是將各個類別的“打分”轉(zhuǎn)化為合理的概率值
-
為什么攘残?
假設(shè)一個樣本可能有三個類別:第一類打分為a寝受,第二類打分為b歇攻,第三類打分為c。打分越高代表屬于這個類別的概率越高,但是打分本身不代表概率赡磅,打分的值可以是負數(shù),也可以很大宝与,但概率要求在0到1之間焚廊,并且三類加起來的概率等于1. Softmax函數(shù)就可以用來解決這個問題。
-
怎么用习劫?
如何將上述的(a咆瘟,b,c)轉(zhuǎn)換成合理的概率值诽里,這里對他們使用softmax函數(shù)后袒餐,相應(yīng)的值會
(,這三個數(shù)加起來正好等于1。假設(shè)x代表輸入圖片(假設(shè)為784維向量),W代表權(quán)重(假設(shè)為形狀為[784,10]的矩陣)灸眼,b代表偏差(假設(shè)是一個10維的向量)卧檐,Logit就是上述各個類別打分:
???
用softmax將其轉(zhuǎn)換成各個類別的概率值:
???
交叉熵
-
是什么?
首先什么是熵幢炸,化學(xué)中我們學(xué)過熵表示一種物質(zhì)的不穩(wěn)定程度泄隔,熵越大越不穩(wěn)定。
在信息論中宛徊,熵表示不確定度佛嬉,熵越小,不確定度越小闸天。以下內(nèi)容來自百度百科:
在信息論中暖呕,交叉熵是表示兩個概率分布p,q,其中p表示真實分布苞氮,q表示非真實分布湾揽,在相同的一組事件中,其中笼吟,用非真實分布q來表示某個事件發(fā)生所需要的平均比特數(shù)库物。
假設(shè)現(xiàn)在有一個樣本集中兩個概率分布p,q,其中p為真實分布贷帮,q為非真實分布戚揭。假如,按照真實分布p來衡量識別一個樣本所需要的編碼長度的期望為:
???但是撵枢,如果采用錯誤的分布q來表示來自真實分布p的平均編碼長度民晒,則應(yīng)該是:
???
此時就將稱為交叉熵
-
為什么?
在softmax回歸模型中锄禽,通常使用“交叉熵”損失來衡量相似性潜必。
-
怎么用?
交叉熵損失越小沃但,模型的輸出與和實際標(biāo)簽越接近磁滚,模型的預(yù)測也就越準。
梯度下降
-
是什么宵晚?
梯度下降我們可以理解機器學(xué)習(xí)中為向目標(biāo)值靠近的方法恨旱。
其中有兩個基礎(chǔ)算法:最小二乘法和隨機梯度下降。 -
為什么坝疼?
最小二乘法通過最小化誤差的平方和尋求數(shù)據(jù)的最佳函數(shù)匹配搜贤。(如果不熟悉的話,可以查閱高等數(shù)學(xué)(同濟大學(xué)第七版)第九章第十節(jié))
舉個例子钝凶,若干個點分布在向量空間中仪芒,如果希望找出一條直線和這些點達到最佳匹配唁影,那么最簡單的一個方法就是希望這些點到直線的值最小。
隨機梯度下降算法掂名,通過不停判斷和選擇當(dāng)下目標(biāo)的最優(yōu)路徑谆级,使得能夠在最短路徑下達到最優(yōu)的結(jié)果梯嗽。
舉個例子遗淳,假設(shè)我們在山上秋麸,想要以最快的速度下山,那么就要選擇最陡峭的地方往下走猾警,但是由于不熟悉道路孔祸,每走過一段路程就要重新選擇一遍最陡峭的路徑,這樣一路走下來发皿,可以在最短時間走到底崔慧。
-
怎么用?
用數(shù)學(xué)來講的話穴墅,可以把下山想象成一個函數(shù)惶室,而每次想要以最快的速度下降就要對求導(dǎo),這樣就會以最快的方向減小玄货,從而推斷出的最優(yōu)解皇钞。
x y y_的意義,tf.argmax的作用
x表示輸入松捉,y表示預(yù)測夹界,y_表示實際特征。
在說tf.argmax之前惩坑,先講講獨熱的概念:
?所謂獨熱掉盅,就是“一位有效編碼“也拜。我們用N維向量表示N個類別以舒,每個類別占據(jù)獨立的一位,任何時候獨熱表示中只有一位是1其他都為0慢哈。
原始表示 | 獨熱表示 |
---|---|
0 | [1,0,0,0,0] |
1 | [0,1,0,0,0] |
2 | [0,0,1,0,0] |
3 | [0,0,0,1,0] |
4 | [0,0,0,0,1] |
而tf.argmax的功能是取出數(shù)組中最大值的下標(biāo)蔓钟,因此可以通過tf.argmax得出預(yù)測中概率最大的類別。
tf.reshape(x, [-1, 28, 28 , 1])中 -1 的作用
將輸入x還原為28x28的圖片形式卵贱,[-1, 28, 28, 1]中的-1表示形狀的第一維的大小是根據(jù)x自動確定的滥沫。