1.邏輯回歸與梯度下降
邏輯回歸:y_pred = sigmoid(w0 + w1*x1 + ... + wn * xn)
輸出目標(biāo):(0,1)之間的數(shù)值
sigmoid函數(shù):
函數(shù)性質(zhì):
1、 將任意 input壓縮到(0,1)之間
2殿漠、 1/2 處的導(dǎo)數(shù)最大
3、 導(dǎo)函數(shù)為 f(x)(1-f(x))
4披蕉、 兩邊梯度趨于飽和榛臼,容易梯度消失
5峻厚、不以原點(diǎn)為中心霞玄,梯度更新慢
6骤铃、 單調(diào)性,使得在激活函數(shù)處的梯度方向不會(huì)經(jīng)常改變坷剧,從而讓訓(xùn)練更容易收斂
連續(xù)特征最好先離散化惰爬,例如分桶,再進(jìn)入LR惫企,會(huì)有較好魯棒性
將連續(xù)特征離散化為一系列0撕瞧、1特征交給邏輯回歸模型,優(yōu)點(diǎn)如下:
1狞尔、稀疏向量?jī)?nèi)積乘法運(yùn)算速度快丛版,計(jì)算結(jié)果方便存儲(chǔ),容易scalable(擴(kuò)展)偏序。
2硼婿、離散化后的特征對(duì)異常數(shù)據(jù)有很強(qiáng)的魯棒性
3、邏輯回歸屬于廣義線(xiàn)性模型禽车,表達(dá)能力受限寇漫;單變量離散化為N個(gè)后,每個(gè)變量有單獨(dú)的權(quán)重殉摔,相當(dāng)于為模型引入了非線(xiàn)性州胳,能夠提升模型表達(dá)能力,加大擬合逸月。
4栓撞、離散化后可以進(jìn)行特征交叉,由M+N個(gè)變量變?yōu)镸*N個(gè)變量碗硬,進(jìn)一步引入非線(xiàn)性瓤湘,提升表達(dá)能力。
5恩尾、特征離散化后弛说,模型會(huì)更穩(wěn)定
損失函數(shù):交叉熵
樣本分布:0-1分布/ 伯努利分布。
損失函數(shù)的由來(lái):伯努利分布的極大似然估計(jì)
梯度法:
推導(dǎo)過(guò)程:
LR參數(shù)更新:
KL散度
1翰意、衡量?jī)蓚€(gè)概率分布的相似性
2.正則化
目的:減小模型參數(shù)大小或者參數(shù)數(shù)量,緩解過(guò)擬合
L2和L1分別形成非稀疏和稀疏解的原因
黃色區(qū)域表示正則項(xiàng)限制冀偶,藍(lán)色區(qū)域表示優(yōu)化項(xiàng)的等高線(xiàn)醒第,交點(diǎn)為最優(yōu)解w*
優(yōu)化算法
常見(jiàn):梯度下降法、牛頓法进鸠、擬牛頓法稠曼、共軛梯度法等
牛頓法
向量
內(nèi)積:兩個(gè)向量的相似度
余弦相似度:內(nèi)積/向量模的乘積
哈達(dá)瑪積:對(duì)應(yīng)位置相乘,長(zhǎng)度不變
3. kernel函數(shù)
核函數(shù):是映射關(guān)系的內(nèi)積客年,映射函數(shù)本身僅僅是一種映射關(guān)系霞幅,并沒(méi)有增加維度的特性,不過(guò)可以利用核函數(shù)的特性搀罢,構(gòu)造可以增加維度的核函數(shù)蝗岖,這通常是我們希望的。
作用:直接求高維空間下的內(nèi)積
二維映射到三維榔至,區(qū)分就更容易了抵赢,這是聚類(lèi)、分類(lèi)常用核函數(shù)的原因唧取。
4.sigmoid函數(shù)的數(shù)學(xué)公式推導(dǎo)
滿(mǎn)足指數(shù)分布族的概率分布:
伯努利分布(Bernoulli):0-1分布
二項(xiàng)分布(Multinomial):重復(fù)n次伯努利實(shí)驗(yàn)
泊松分布(Poisson):描述單位時(shí)間內(nèi)隨機(jī)事件發(fā)生的次數(shù)铅鲤。對(duì)計(jì)數(shù)過(guò)程進(jìn)行建模,比如網(wǎng)站訪問(wèn)量的計(jì)數(shù)問(wèn)題
指數(shù)分布(Exponential):要等到一個(gè)隨機(jī)事件發(fā)生枫弟,需要經(jīng)歷多久時(shí)間
伽馬分布(Gamma):要等到n個(gè)隨機(jī)事件都發(fā)生邢享,需要經(jīng)歷多久時(shí)間
高斯分布(Gaussian):即正態(tài)分布
5. 廣義線(xiàn)性模型
對(duì)于回歸或是分類(lèi)問(wèn)題,我們的目標(biāo)是若其分布屬于指數(shù)分布族的某種分布淡诗,那么可以求出擬合函數(shù)h(x)骇塘。