邏輯回歸

簡書不支持公式,原文見
https://www.yinxiang.com/everhub/note/86471059-2eac-4b64-8781-6dbd859c98ef

1. 為什么有邏輯回歸

線性模型對分類問題表達欠缺。

2. 邏輯回歸是什么

在線性回歸上增加一個sigmod函數(shù),實現(xiàn)非線性函數(shù)映射。

y = \frac{1} {1 + e^{-(w^Tx+b)}}

為了對分類問題擬合更好,要在線性回歸上增加一個單位階躍函數(shù)。

單位階躍函數(shù)

\theta(t) = 
\left\{
    \begin{array}{} 
    1,& t>0, &  \\  
    0,& t<0, &  \\  
    0.5,& t=0
    \end{array}  
\right.

但單位階躍函數(shù)不可導晴裹,引入sigmod函數(shù), sigmod函數(shù)任意階可導,有很好的數(shù)學特性救赐。

\rm sigmoid(x) = \frac{1} {1 + e^{-x}}

為什么叫邏輯回歸涧团,不叫分類

其數(shù)學原理使其有回歸性質(zhì)

  1. 對數(shù)幾率其實與x是線性關(guān)系
In(y/(1-y)) = w^Tx + b
  1. 邏輯回歸還是對函數(shù)曲線的一個擬合, 回歸到原來的線上

3. 公式推導

1. 推導損失函數(shù)

使用最大似然估計法

最大似然估計

使用已有數(shù)據(jù)去推測參數(shù), 找到那個最大可能的參數(shù)经磅。
類似拋硬幣問題泌绣,拋10次硬幣,6次正面朝上预厌,計算正面概率P阿迈。
要最大化下面這個式子(損失函數(shù))

L(\theta) = f(x1|\theta) * f(x2|\theta) * ... *f(xm|\theta)
\begin{aligned}
L(\theta=0.5)=0.5^6*(1-0.5)^4=0.21 \\
L(\theta=0.6)=0.6^6*(1-0.6)^4 = 0.25
\end{aligned}

一般通過梯度下降估計theta值。

推導過程

現(xiàn)在我們使用最大似然法轧叽,通過用m個樣本數(shù)據(jù)去估計w
令擬合函數(shù)等于

P(y=1|x) = \frac{1} {1 + e^{-(w^Tx+b)}} = \pi(x)

損失函數(shù)為

L = \prod_{i=1}^m{[\pi(x^i)]^{y^i}*[1-\pi(x^i)]^{1-y^i}}

分類問題(y=1,0)苗沧,上式兩項會消掉一項
對損失函數(shù)去對數(shù)似然(對上式取對數(shù))
因為對數(shù)函數(shù)單調(diào)遞增刊棕,當偏導

\frac{\partial(log(L))}{\partial(x)} = 0

為0,L(x)就最大待逞。

\begin{aligned}
L(w) = \sum_{i=1}^m{[y^i*log(\pi(x^i))+(1-y^i)*log(1-\pi(x^i))]} \\

L(w) = \sum_{i=1}^m{y^iwx^i - log(1+e^{wx^i})}
\end{aligned}

使用梯度下降法使L最大甥角,求得w

4. 特點

優(yōu)點

  1. 直接對分類可能性建模,無事先假設(shè)數(shù)據(jù)分布
  2. 近似概率預(yù)測识樱,結(jié)果是概率可用作排序模型
  3. 容易使用和解釋
  4. 時間內(nèi)存高效
  5. 可分布式嗤无,且工程化已經(jīng)成熟
  6. 最數(shù)據(jù)中小噪聲魯棒性好(離散化使得異常值影響小)

缺點

  1. 容易欠擬合牺荠,分類精度不高
  2. 數(shù)據(jù)特征有缺失或特征空間很大時效果不好

使用注意點

1.過擬合

  1. 減少特征數(shù)量翁巍,降維
  2. 正則化
  3. 逐漸減小學習率

2.線性不可分數(shù)據(jù)

  1. 使用核函數(shù)
  2. 正則化

3.輸入向量稀疏原因

  1. 分類特征one-hot
  2. 連續(xù)特征離散化

4.為什么要離散化

  1. 離散特征的增加減少容易 (快速迭代)
  2. 稀疏向量內(nèi)積乘法快
  3. 離散化對異常值有魯棒性(300歲->大于50歲)
  4. 增加表達能力(單獨權(quán)重驴一,特征交叉)
  5. 簡化模型休雌,降低過擬合風險

5.應(yīng)用場景

  1. CTR預(yù)估
  2. 病理診斷
  3. 信用評估
  4. 垃圾郵件分類
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市肝断,隨后出現(xiàn)的幾起案子杈曲,更是在濱河造成了極大的恐慌,老刑警劉巖胸懈,帶你破解...
    沈念sama閱讀 211,194評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件担扑,死亡現(xiàn)場離奇詭異,居然都是意外死亡趣钱,警方通過查閱死者的電腦和手機涌献,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,058評論 2 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來首有,“玉大人燕垃,你說我怎么就攤上這事【” “怎么了卜壕?”我有些...
    開封第一講書人閱讀 156,780評論 0 346
  • 文/不壞的土叔 我叫張陵,是天一觀的道長烙常。 經(jīng)常有香客問我轴捎,道長,這世上最難降的妖魔是什么蚕脏? 我笑而不...
    開封第一講書人閱讀 56,388評論 1 283
  • 正文 為了忘掉前任侦副,我火速辦了婚禮,結(jié)果婚禮上驼鞭,老公的妹妹穿的比我還像新娘跃洛。我一直安慰自己,他們只是感情好终议,可當我...
    茶點故事閱讀 65,430評論 5 384
  • 文/花漫 我一把揭開白布汇竭。 她就那樣靜靜地躺著葱蝗,像睡著了一般。 火紅的嫁衣襯著肌膚如雪细燎。 梳的紋絲不亂的頭發(fā)上两曼,一...
    開封第一講書人閱讀 49,764評論 1 290
  • 那天,我揣著相機與錄音玻驻,去河邊找鬼悼凑。 笑死,一個胖子當著我的面吹牛璧瞬,可吹牛的內(nèi)容都是我干的户辫。 我是一名探鬼主播,決...
    沈念sama閱讀 38,907評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼嗤锉,長吁一口氣:“原來是場噩夢啊……” “哼渔欢!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起瘟忱,我...
    開封第一講書人閱讀 37,679評論 0 266
  • 序言:老撾萬榮一對情侶失蹤奥额,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后访诱,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體垫挨,經(jīng)...
    沈念sama閱讀 44,122評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,459評論 2 325
  • 正文 我和宋清朗相戀三年触菜,在試婚紗的時候發(fā)現(xiàn)自己被綠了九榔。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,605評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡涡相,死狀恐怖哲泊,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情漾峡,我是刑警寧澤攻旦,帶...
    沈念sama閱讀 34,270評論 4 329
  • 正文 年R本政府宣布,位于F島的核電站生逸,受9級特大地震影響牢屋,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜槽袄,卻給世界環(huán)境...
    茶點故事閱讀 39,867評論 3 312
  • 文/蒙蒙 一烙无、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧遍尺,春花似錦截酷、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,734評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽三热。三九已至,卻和暖如春三幻,著一層夾襖步出監(jiān)牢的瞬間就漾,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,961評論 1 265
  • 我被黑心中介騙來泰國打工念搬, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留抑堡,地道東北人。 一個月前我還...
    沈念sama閱讀 46,297評論 2 360
  • 正文 我出身青樓朗徊,卻偏偏與公主長得像首妖,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子爷恳,可洞房花燭夜當晚...
    茶點故事閱讀 43,472評論 2 348

推薦閱讀更多精彩內(nèi)容

  • 以西瓜書為主線有缆,以其他書籍作為參考進行補充,例如《統(tǒng)計學習方法》舌仍,《PRML》等 第一章 緒論 1.2 基本術(shù)語 ...
    danielAck閱讀 4,500評論 0 6
  • leetcode 括號問題:數(shù)字 n 代表生成括號的對數(shù)妒貌,請你設(shè)計一個函數(shù)通危,用于能夠生成所有可能的并且 有效的 括...
    三元一只十元三只閱讀 95評論 0 0
  • 長詞榜 第一 滿庭芳 舊印象 / 裴濤(蘇無名) 山外歌遙铸豁,籬邊影淡,杏花橋上斜陽菊碟。燕飛微雨节芥,深巷碧遮窗。多少槐陰...
    張成昱閱讀 621評論 0 6
  • 資陽相艇,鳳嶺公園,西部車城資陽的著名地標纯陨。 上世紀50年代初坛芽,成渝鐵路修建。鳳嶺公園附近數(shù)百米翼抠,出土了距今1至3萬年...
    康虎好看點閱讀 295評論 0 1
  • 今天最開始的計劃是跟小伙伴好朋友一起吃飯玩耍的咙轩,然后他們兩個起床比較晚,我可以早點起床去公司把昨天沒有完成的任務(wù)完...
    鐵小盒閱讀 177評論 0 0