在實驗中通常會自己設(shè)計損失函數(shù)、優(yōu)化函數(shù)等从媚,通常會用到對數(shù)逞泄、分數(shù)、梯度等拜效,不明白函數(shù)的實際意義在設(shè)計的時候就一臉懵喷众,因此本文就幾種常見的函數(shù)進行實際意義的解釋,方便后期自身學(xué)習(xí)和使用紧憾。
1 對數(shù)
1.1 對數(shù)的基本屬性
- 在定義域范圍內(nèi)單調(diào)遞增
- X 必須大于0
- X 值越小越敏感
- log圖如圖所示
1.2 對數(shù)的各個屬性意義
- 對數(shù)的單調(diào)遞增屬性到千,X越大對數(shù)值越大。對數(shù)的單調(diào)遞增屬性保證了原始數(shù)據(jù)的差異性赴穗,比如原始數(shù)據(jù)a = 500,b = 200,a > b ,取對數(shù)之后ln a = 6.2146憔四,ln b = 5.2983,ln a > ln b ,原數(shù)據(jù)大的在取對數(shù)后仍然大般眉,保持了原始數(shù)據(jù)的差異性了赵。
- 擴大了倍數(shù)但是差距沒有變化。例如ln 50 - ln 20 = 0.917, 而ln 5000- ln 2000 = 0.917, 差距幾乎一致甸赃。所以在實驗中如果遇到數(shù)據(jù)較大的情況可以不用縮小相同倍數(shù)柿汛,直接取對數(shù)值也不影響,這也說明了第一個中保證了數(shù)據(jù)之間的差異性埠对。
- 值越小越敏感苛茂。舉個例子已烤,a=50,b=20,a-b=30; ln a -ln b= 0.917,而ln1000 - ln 700 = 0.42, 反而ln 50 - ln 20 > ln 1000 -ln 700,所以值越小越敏感妓羊。在實際例子中當(dāng)你消費買了10塊的東西胯究,多收了你2,3塊你會在意躁绸,但是在幾十百萬的東西就不會在意一兩千的差額了裕循,就是這個意思。
- 取對數(shù)后會讓數(shù)據(jù)更加平穩(wěn)净刮,保證數(shù)據(jù)差異的同時減小了數(shù)據(jù)的倍數(shù)剥哑,減小了模型的計算量,在深度學(xué)習(xí)模型中使用較多淹父。
1.3 總結(jié)
實驗中需要取對數(shù)的情況很多株婴,一般什么情況下取呢?這要取決于數(shù)據(jù)的屬性暑认,如果數(shù)據(jù)都是大于0的困介,數(shù)值較大,用到后期計算量大蘸际,影響模型效率的情況座哩,可以考慮采用取對數(shù)。
2 梯度
2.1 梯度的屬性
(蠻佩服發(fā)明出梯度這個概念的人粮彤,是怎么想到的)
梯度這部分用的比較多根穷,實際意義就是:
- 沿著梯度方向能找到函數(shù)的極值點
- 梯度方向找到極值的速度最快
在機器學(xué)習(xí)中通常用梯度來優(yōu)化權(quán)重,因為權(quán)重都是f(x,seta)的公式导坟,對每個seta求偏導(dǎo)后屿良,再將梯度值反饋,優(yōu)化seta惫周,x是input不變的管引,從而可以得到seta向量值的方向,從這個方向可以得到loss函數(shù)的極小值闯两,完成模型的訓(xùn)練褥伴。
3 entropy 熵
熵在實際意義中就是預(yù)測事物的不準確性,不可靠性漾狼。
熵越大重慢,說明不確定性越強。
比如在預(yù)測中逊躁,假設(shè)分類器1預(yù)測分類似踱,1,2,3,預(yù)測類1 的概率是0.56,2的概率是0.34,3的概率是0.1闷沥,分類器2預(yù)測分類的類1概率是0.98坛猪,2的概率是0.01沸柔,3的概率是0.01,那么分類器2的效果更好,因為2的不確定性小,0.9的概率比0.56的概率更值得信任拳芙,所以2的熵更小,值更穩(wěn)定皮璧。
(其他意義慢慢更新中舟扎。。悴务。