作者:hooly
微信公號(hào):一口袋星光
我們都知道應(yīng)該用Cross Entropy的方法求解Logistic Regression的問(wèn)題财骨,今天我們解釋一下為什么用Square error解Logistic regression是有問(wèn)題的背捌。
首先:
fw,b(x)是一個(gè)關(guān)于z的sigmod函數(shù)而z是和參數(shù)w以及b有關(guān)的對(duì)于x的線(xiàn)性函數(shù)良拼。
所以有如下公式:
我們使用Linear Regression求解時(shí)候的求Square error的Loss function如下:
對(duì)w求偏導(dǎo):
假設(shè):
則有:
當(dāng)fw,b(x) = 1,有L對(duì)w的偏導(dǎo)數(shù) = 0肮塞;close to target
當(dāng)fw,b(x) = 0 技扼,有L對(duì)w的偏導(dǎo)數(shù) = 0分飞;far from target
以上說(shuō)明:無(wú)論我們和結(jié)果接近還是遠(yuǎn)離千康,我們這一點(diǎn)的偏導(dǎo)數(shù)都是0享幽。這就和我們想要的“和結(jié)果相近時(shí)導(dǎo)數(shù)->0;和結(jié)果遠(yuǎn)離時(shí)拾弃,導(dǎo)數(shù)>0”這個(gè)觀(guān)點(diǎn)不一致值桩。這是為什么呢?
我們把參數(shù)的變化對(duì)total loss的影響做圖如下:
在Cross entropy圖中:在距離目標(biāo)很近的地方豪椿,微分值是很小的奔坟;距離目標(biāo)很遠(yuǎn)的地方,微分值是大的搭盾。
在Square error圖中:距離目標(biāo)很近的地方也就是最低點(diǎn)蛀蜜,微分值是小的;但是當(dāng)你距離目標(biāo)遠(yuǎn)的時(shí)候增蹭,你的微分值也是很小的。
因?yàn)槟阍谟肧quare error方法中做gradient descent 的時(shí)候磅摹,如果你的微分值很小滋迈,你不知道你是距離目標(biāo)很近還是很遠(yuǎn),這時(shí)候你的update的速度是非常慢的户誓,特別卡饼灿。
作者:hooly
微信公號(hào):一口袋星光
我會(huì)在微信公號(hào)上持續(xù)更新我的文章,你來(lái)討論我很歡迎帝美。