假設(shè)有個(gè)樣本為
皇忿,其中
為第
個(gè)樣本的特征葡幸,
為第
個(gè)樣本的標(biāo)簽。
logistic regression的hypothesis為:
從上式的logistic函數(shù)可知的取值在
之間朗恳,對(duì)于二分類任務(wù)而言湿颅,
,因此可以假設(shè)
為
取某個(gè)值時(shí)的概率分布粥诫,即:
即:
個(gè)樣本的似然函數(shù)為:
對(duì)似然函數(shù)取對(duì)數(shù)可得:
最大化對(duì)數(shù)似然函數(shù)油航,求對(duì)數(shù)似然函數(shù)對(duì)
的導(dǎo)數(shù),即求
怀浆。
對(duì)于一般的logistic函數(shù)對(duì)其求導(dǎo)可得:
因此:
對(duì)進(jìn)行梯度更新谊囚,可得:
注意:因?yàn)槭亲畲蠡迫缓瘮?shù),所以使用梯度更新的時(shí)候是相加而非相減执赡。為學(xué)習(xí)率镰踏。對(duì)比一下最小二乘擬合,可以發(fā)現(xiàn)沙合,兩者的梯度更新非常相像奠伪,不同點(diǎn)在于logistic regression是要最大化似然函數(shù),所以采用了梯度上升的策略首懈,而最小二乘采用的是最小化均方誤差損失函數(shù)绊率,所以采用了梯度下降的策略進(jìn)行梯度更新。
references:
http://cs229.stanford.edu/notes/cs229-notes1.pdf