假設我們有一個線性分類器:
我們要求得合適的 W ,使 0-1 loss 的期望值最小晾蜘,即下面這個期望最辛诰臁:
一對 x y 的 0-1 loss 為:
在數據集上的 0-1 loss 期望值為:
由 鏈式法則 將概率p變換如下:
為了最小化 R(h),只需要對每個 x 最小化它的 conditional risk:
由 0-1 loss 的定義剔交,當 h(x)不等于 c 時肆饶,loss 為 1,否則為 0岖常,所以上面變?yōu)椋?/p>
又因為
所以:
為了使 條件風險 最小驯镊,就需要 p 最大,也就是需要 h 為:
上面的問題等價于 找到 c*竭鞍,使右面的部分成立:
取 log :
在二分類問題中板惑,上面則為:
即,我們得到了 log-odds ratio 偎快!
接下來就是對 log-odds ratio 進行建模洒放,最簡單的就是想到線性模型:
則:
于是得到 sigmoid 函數:
由此可見,log-odds 是個很自然的選擇滨砍,sigmoid 是對 log-odds 的線性建模。
學習資料:
https://onionesquereality.wordpress.com/2016/05/18/where-does-the-sigmoid-in-logistic-regression-come-from/
https://stats.stackexchange.com/questions/162988/why-sigmoid-function-instead-of-anything-else