Logistic回歸

介紹

  • 邏輯回歸:Logistic Regression胯努,Logit Regression,是一種分類算法阶祭,常用于處理二分類圆仔,用來表示某件事情發(fā)生的可能性。任務是盡可能地擬合決策邊界甩十。
  • 應用:銀行信用卡欺詐可能性(是欺詐消費船庇、不是欺詐消費)、下雨的可能性(下雨侣监、不下雨)鸭轮,購買一件商品的可能性(買、不買)橄霉,廣告被點擊的可能性(點窃爷、不點)

線性回歸與邏輯回歸

  • 線性回歸:y=ax+b,在已知幾組數據(x,y的歷史數據情況下姓蜂,如何預測給定一個新的自變量x時y的值呢按厘?顯然需要先計算出兩個位置參數a,b的值,然后才可以進行預測钱慢。
  • 但是在實際生活中逮京,因變量yy的會受到很多X=(x_0,x_1,\dots,x_n)的影響,兩個之間的關系也非線性關系那么簡單直接束莫±撩蓿可能是線性的草描、可能是多項式曲線型的、還有可能是多維空間的平面……
  • y=ax+b輸出的是連續(xù)值策严,但因變量也有可能是離散值
  • 線性回歸的分類問題與邏輯回歸分類:


    .png

階躍函數

如果某個函數可以用半開區(qū)間的指示函數的有限次線性組合來表示穗慕,那么這個函數就是階躍函數。階躍函數是有限段分段常數函數的組合妻导。

\begin{equation} F(x)=\left\{ \begin{array}{rcl} 0 & & {x<0}\\ 1 & & {x\geq 0}\\ \end{array} \right. \end{equation}

[圖片上傳失敗...(image-cb2e92-1618128584134)]

Sigmoid函數

然而邏輯回歸是一個概率模型揍诽,我們需要的輸出結果在(0,1)之間,所以需要一個“映射函數”:邏輯回歸中常用的映射函數就是Sigmoid函數
S(x)=\frac{1}{1+e^{-x}}

但是栗竖,邏輯回歸的目標是解決二分類問題暑脆,在得到了一個概率值之后還需要對這個概率值進行“分類”。當概率值大于0.5時把樣本歸為正類狐肢、當概率值小于0.5時把樣本歸為負類添吗。
\begin{equation} g(x)=\left\{ \begin{array}{rcl} 0 & & {f(x) < 0.5}\\ 1 & & {f(x)\geq 0.5}\\ \end{array} \right. \end{equation}

Logistic分布

累計分布函數:
F(x)=P(X\leq x)=\frac{1}{1+e^{-(x-\mu)/s}}

概率密度函數:
f(x)=F^{'}(X\leq x)=\frac{e^{-(x-\mu)/s}}{s(1+e^{-(x-\mu)/s})^2}

其中μ表示位置參數,s表示形狀參數份名。形狀類似正態(tài)分布碟联、但峰度更高、尾部更長僵腺。

二項Logistic回歸模型

二項Logistic回歸模型是一種由條件概率分布P(Y|X)表示的分類模型鲤孵,以nn維隨機變量XX為輸入,Y∈{0,1}為輸出:
P(Y=1|x)=\frac{exp(w\cdot x+b)}{1+exp(w\cdot x+b)}
P(Y=0|x)=\frac{1}{1+exp(w\cdot x+b)}

其中w也是一個n維的權值向量辰如,b為偏置普监。Logistic回歸只需要比較這兩個條件概率值的大小,選擇概率較大的那一類即可琉兜。
但是凯正,上述式子仍顯累贅。若令w=(w^{(1)},w^{(2)},\dots,w^{(n)},b)^{T}, x=(x^{(1)},x^{(2)},\dots,x^{(n)},1)^{T}豌蟋,那么上面兩式可以轉化為:
P(Y=1|x)=\frac{exp(w\cdot x)}{1+exp(w\cdot x)}
P(Y=0|x)=\frac{1}{1+exp(w\cdot x)}

幾率(Odds)

統(tǒng)計學中廊散,幾率表示事件發(fā)生的概率p與事件不發(fā)生的概率1?p的比值\frac{p}{1-p}
在Logistic回歸模型中梧疲,幾率取對數后表示為:
log\frac{P(Y=1|x)}{1-P(Y=1|x)}=log\big(exp(w\cdot x)\big)=w\cdot x

也就是說允睹,在Logistic回歸模型中,輸出Y=1的對數幾率是輸入xx的線性函數幌氮。

  • 若線性函數趨近正無窮缭受,概率值P(Y=1|x)就越接近1,
  • 若線性函數趨近負無窮浩销,概率值P(Y=1|x)就越接近0贯涎。邏輯回歸的主要思想就是:先擬合決策邊界、然后由映射函數建立邊界與分類概率的聯系慢洋。
何為最優(yōu)塘雳?
極大似然估計

已知一些樣本陆盘,需要尋找一組參數使得現有樣本出現概率最大化。
因為邏輯回歸假設之一是樣本服從伯努利分布败明,若令:
P(y=1|X)=p(x)
P(y=0|X)=1-p(x)

則似然函數可表示為:
L(w)=\prod_{i=1}^n\big[\big(1-p(X_i)\big)^{1-y_i}p(X_i)^{y_i} \big]

對數似然:
logL(w)=\sum_{i=1}^N\bigg((1-y_i)log\big(1-p(X_i)\big)+y_ilog\big(p(X_i)\big)\bigg)
logL(w)=\sum_{i=1}^n\bigg[(1-y_i)log \bigg (1-\frac{1}{1+e^{-\theta^TX_i}}\bigg)+y_ilog \bigg(\frac{1}{1+e^{-\theta^TX_i}}\bigg)\bigg]
logL(w)=\sum_{i=1}^n\bigg[y_i(\theta^TX_i) + log(1+e^{-\theta^TX_i})\bigg]

損失函數(Loss/Cost Function)

用于衡量預測值與實際值的偏離程度隘马,損失函數的值越小表示分類器越精準∑薅ィ“最優(yōu)參數”就是使得損失函數取最小值酸员。

  1. 0-1損失函數:預測值與實際值不相等為1,相等為0.直接判斷錯分的個數讳嘱。
  2. 平方損失函數:誤差平方和幔嗦,常用于線性回歸。
  3. 對數損失函數:常用于模型輸出時每一類概率的分類器沥潭,例如邏輯回歸邀泉。
  4. Hinge損失函數:分類正確損失為0,否則損失為1-yf(x), y=1或-1, f(x)\in (-1,1)钝鸽,SVM汇恤。

對數損失函數也叫交叉熵損失函數。熵代表某個事件的不確定性拔恰,交叉熵代表兩個概率分布(預測與真實)之間的差異性因谎。通過最小化交叉熵損失函數就可以最大化邏輯回歸分類器的精度。(補充:交叉熵損失的選取與最大熵模型有關)

表達式
Loss=-\frac{1}{N}\sum_{i=1}^N[y_ilog(\hat{y}_i)+(1-y_i)log(1-\hat{y}_i)]

其中y_i表示第ii個真實值颜懊,y^_i是第i個預測值财岔,y_i,\hat{y}_i \in \{0,1\}

損失函數解釋一下:

當真實值y_i=1時饭冬,Loss = -\frac{1}{N}\sum_{i=1}^Nlog(\hat{y}_i);
當真實值y_i=0時使鹅,Loss = -\frac{1}{N}\sum_{i=1}^Nlog(1-\hat{y}_i)

.png

\hat{y}=f(X)=\frac{1}{1+e^{-\theta^TX}}代入上式:
Loss=-\frac{1}{N}\sum_{i=1}^N\bigg[y_ilog \bigg(\frac{1}{1+e^{-\theta^TX_i}}\bigg)+(1-y_i)log \bigg (1-\frac{1}{1+e^{-\theta^TX_i}}\bigg) \bigg]
Loss=-\frac{1}{N}\sum_{i=1}^n\bigg[y_i(\theta^TX_i) - log(1+e^{-\theta^TX_i})\bigg]

對數似然與對數損失函數的關系:
Loss = -\frac{1}{N}logL(w)

求解參數方法
梯度下降法

通過損失函數Loss對參數w求一階偏導來確定方向昌抠,并且確定步長α,來更新w:
w_i^{k+1}=w_i^k -\alpha \frac{\partial Loss}{\partial w_i}

直到||Loss(w^{k+1})-Loss(w^k)|小于某個閾值或達到最大迭代次數停止鲁僚。

牛頓法

在現有極小點估計值的附近對Loss做二階泰勒展開炊苫,進而找到極小點的一個估計值,設w^k為當前極小值估計值冰沙,那么有:
\phi(w) = Loss(w^k)+Loss'(w^k)(w-w^k)+\frac{1}{2}Loss''(w^k)(w-w^k)^2

然后令\phi'(w) =0侨艾,可以得到w^{k+1}=w^k-\frac{\partial Loss'(w^k)}{\partial Loss''(w^k)}

訓練模型:輸入數據集為(X_i, y_i), i = 1,2,\dots,n上式中只有θ這個向量是未知的。只要能夠找到一個參數向量θ使得L最小拓挥,那么這個θ就是最優(yōu)的參數向量唠梨。
使用模型:將得到的最優(yōu)θ帶入f(X)=\frac{1}{1+e^{-\theta^TX}},然后根據一個閾值調整到0或1侥啤,就得到了樣本的所屬分類当叭。

?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末茬故,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子蚁鳖,更是在濱河造成了極大的恐慌磺芭,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,183評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件醉箕,死亡現場離奇詭異钾腺,居然都是意外死亡,警方通過查閱死者的電腦和手機讥裤,發(fā)現死者居然都...
    沈念sama閱讀 94,850評論 3 399
  • 文/潘曉璐 我一進店門放棒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人己英,你說我怎么就攤上這事哨查。” “怎么了剧辐?”我有些...
    開封第一講書人閱讀 168,766評論 0 361
  • 文/不壞的土叔 我叫張陵寒亥,是天一觀的道長。 經常有香客問我荧关,道長溉奕,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,854評論 1 299
  • 正文 為了忘掉前任忍啤,我火速辦了婚禮加勤,結果婚禮上,老公的妹妹穿的比我還像新娘同波。我一直安慰自己鳄梅,他們只是感情好,可當我...
    茶點故事閱讀 68,871評論 6 398
  • 文/花漫 我一把揭開白布未檩。 她就那樣靜靜地躺著戴尸,像睡著了一般。 火紅的嫁衣襯著肌膚如雪冤狡。 梳的紋絲不亂的頭發(fā)上孙蒙,一...
    開封第一講書人閱讀 52,457評論 1 311
  • 那天,我揣著相機與錄音悲雳,去河邊找鬼挎峦。 笑死,一個胖子當著我的面吹牛合瓢,可吹牛的內容都是我干的坦胶。 我是一名探鬼主播,決...
    沈念sama閱讀 40,999評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼顿苇!你這毒婦竟也來了峭咒?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 39,914評論 0 277
  • 序言:老撾萬榮一對情侶失蹤岖圈,失蹤者是張志新(化名)和其女友劉穎讹语,沒想到半個月后,有當地人在樹林里發(fā)現了一具尸體蜂科,經...
    沈念sama閱讀 46,465評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡顽决,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,543評論 3 342
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現自己被綠了导匣。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片才菠。...
    茶點故事閱讀 40,675評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖贡定,靈堂內的尸體忽然破棺而出赋访,到底是詐尸還是另有隱情,我是刑警寧澤缓待,帶...
    沈念sama閱讀 36,354評論 5 351
  • 正文 年R本政府宣布蚓耽,位于F島的核電站,受9級特大地震影響旋炒,放射性物質發(fā)生泄漏步悠。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 42,029評論 3 335
  • 文/蒙蒙 一瘫镇、第九天 我趴在偏房一處隱蔽的房頂上張望鼎兽。 院中可真熱鬧,春花似錦铣除、人聲如沸谚咬。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,514評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽择卦。三九已至,卻和暖如春背苦,著一層夾襖步出監(jiān)牢的瞬間互捌,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,616評論 1 274
  • 我被黑心中介騙來泰國打工行剂, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人钳降。 一個月前我還...
    沈念sama閱讀 49,091評論 3 378
  • 正文 我出身青樓厚宰,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子铲觉,可洞房花燭夜當晚...
    茶點故事閱讀 45,685評論 2 360

推薦閱讀更多精彩內容