各個(gè)算法的步驟都是差不多的:
建模==> 目標(biāo)函數(shù)==>采用最優(yōu)化方法優(yōu)化目標(biāo)函數(shù),求得參數(shù)
其中涩盾,前兩步中一定要明確倚搬,此問(wèn)題需要求得是什么參數(shù)
監(jiān)督式學(xué)習(xí)
一、線性回歸
1.1 線性回歸能解決什么問(wèn)題
- 用來(lái)預(yù)測(cè)事物的發(fā)展蚀之,有一個(gè)具體的值。比如择克,根據(jù)已有的數(shù)據(jù)恬总,學(xué)習(xí)參數(shù),預(yù)測(cè)房?jī)r(jià)等等肚邢。
- 找出重要的特征壹堰。(比如前向逐步線性回歸,可以找到對(duì)因變量影響比較大的特征骡湖,停止對(duì)不重要特征的收集)贱纠。
1.2 線性回歸的優(yōu)缺點(diǎn)
- 優(yōu)點(diǎn):
簡(jiǎn)單方便,易于理解响蕴;
可以得到具體的結(jié)果谆焊。 - 缺點(diǎn):
哪種特征對(duì)結(jié)果影響比較大,以及該特征應(yīng)該采用什么樣的表達(dá)式浦夷,都只不確定辖试,尤其是對(duì)于非線性的數(shù)據(jù)擬合不好。結(jié)果準(zhǔn)確性不高劈狐。
1.3 線性回歸的理論推導(dǎo)
1.3.1線性回歸算法的三個(gè)步驟
-
一罐孝、建模
預(yù)測(cè)值 y ,是特征的線性函數(shù)肥缔,模型h(x)如下莲兢,參數(shù)為θ向量。
- 二续膳、定義目標(biāo)函數(shù)
-
三改艇、最優(yōu)化方法學(xué)習(xí)參數(shù)
利用梯度下降法訓(xùn)練數(shù)據(jù),學(xué)習(xí)到參數(shù)坟岔。
1.3.2 理論依據(jù)
(為什么用‘二次’的誤差來(lái)衡量預(yù)測(cè)接近真實(shí)值的程度源梭,而不是用絕對(duì)值或四次来庭?)
不采用絕對(duì)值之和容易理解焰雕,誤差會(huì)正負(fù)抵消。
采用二次的理論依據(jù):
-- 假設(shè)誤差 符合獨(dú)立同分布酣溃,均值為零,方差是σ2 的高斯分布纪隙,于是可以表示出誤差的概率密度P赊豌。
-- 用真實(shí)值與預(yù)測(cè)值之差代替誤差,得到了給定x得到預(yù)測(cè)值y的概率密度绵咱。
-- 把整個(gè)數(shù)據(jù)集X作為輸入碘饼,Y作為輸出,可以得到極大似然函數(shù)悲伶。
我們想要做的艾恼,就是找到一個(gè)最好的θ,使得極大自然函數(shù)值最大麸锉,也就是钠绍,這個(gè)θ能夠預(yù)測(cè)出最準(zhǔn)確的y值。
--利用求極大似然的思想花沉,先log柳爽,那么化簡(jiǎn)之后,最大化似然函數(shù)碱屁,也就是極小化 真實(shí)值與預(yù)測(cè)值之差的平方和了磷脯。
1.4 回歸的其他算法
局部加權(quán)線性回歸:
(并不是使用的特征越多越好,容易過(guò)擬合娩脾。反之容易欠擬合赵誓。)LWLR是一個(gè)非參數(shù)模型(沒(méi)有需要利用優(yōu)化算法學(xué)習(xí)的 參數(shù))),因?yàn)槊看芜M(jìn)行回歸計(jì)算都要遍歷訓(xùn)練樣本至少一次柿赊。
所以應(yīng)該根據(jù)數(shù)據(jù)的特點(diǎn)俩功,設(shè)計(jì)學(xué)習(xí)算法,采用局部加權(quán)線性回歸碰声。只學(xué)習(xí)當(dāng)前輸入X周?chē)木植繑?shù)據(jù)集绑雄。
權(quán)值的計(jì)算公式不唯一,但是思想就是奥邮,當(dāng)樣例越接近要預(yù)測(cè)的點(diǎn)x那么權(quán)值就會(huì)越大。前向逐步回歸(每次增大或減小一個(gè)特征的權(quán)值罗珍,若誤差減小就替換當(dāng)前權(quán)值洽腺。)
嶺回歸,增加正則項(xiàng)覆旱,縮減不必要的特征參數(shù)蘸朋,在數(shù)據(jù)特征特別多的情況下,可以指出那些是那些是不重要的扣唱。
加正則項(xiàng):不會(huì)過(guò)擬合藕坯。矩陣會(huì)滿(mǎn)秩团南,正規(guī)方程會(huì)有解。
二炼彪、邏輯回歸 與 分類(lèi)
2.1邏輯回歸適用的問(wèn)題
- 預(yù)測(cè)在不同的自變量的情況下吐根,發(fā)生某種疾病,或者某種情況的概率有多大
- 判別辐马,分類(lèi)拷橘,類(lèi)似于預(yù)測(cè),判斷是否發(fā)生某種情況
- 重要特征分析喜爷,可以通過(guò)考察某特征是否為影響結(jié)果的特征冗疮,找出主要得特征
2.2邏輯回歸的優(yōu)缺點(diǎn)
優(yōu)點(diǎn):
- 利用邏輯回歸函數(shù),將值域限制在了0到1之間檩帐;
- 便于理解
缺點(diǎn):
- 只能處理二分類(lèi)問(wèn)題术幔,且必須線性可分
- 預(yù)測(cè)結(jié)果呈“S”型,概率在兩端變化很小湃密,坡度太小诅挑,會(huì)導(dǎo)致一些區(qū)間的變量變化對(duì)目標(biāo)概率沒(méi)有影響。導(dǎo)致一些數(shù)據(jù)利用不充分勾缭。
2.3 邏輯回歸的理論推導(dǎo)
2.3.1 建模知識(shí)背景
想要用0-1之間的值表示輸入X屬于哪一類(lèi)(0/1)的概率揍障,首先需要選定一個(gè)合適的目標(biāo)函數(shù),使得不論輸入什么X俩由,都會(huì)輸出0-1之間的值毒嫡。
排除線性回歸,單位階躍函數(shù)(雖然值域滿(mǎn)足要求幻梯,但是不連續(xù)兜畸,不適用優(yōu)化算法)。于是采用邏輯回歸函數(shù)碘梢。
邏輯回歸的公式說(shuō)明咬摇,自變量θx的值越大,預(yù)測(cè)值越接近1.并且煞躬,g(z)有一個(gè)性質(zhì)
2.3.2 邏輯回歸算法的三個(gè) 步驟
- 一肛鹏、建模
對(duì)于單個(gè)樣例來(lái)說(shuō)說(shuō),作為判別模型恩沛,就是求條件概率在扰。于是得到模型:在樣例x的情況下,y的概率為
這個(gè)模型的參數(shù)是θ
- 二雷客、建立目標(biāo)函數(shù)
對(duì)于所有的樣例芒珠,采用極大似然方法,要使預(yù)測(cè)的 準(zhǔn)確率最高搅裙,就是找到最好的參數(shù)θ皱卓,使這個(gè)函數(shù)能夠最大化
log一下:
- 三裹芝、最優(yōu)化方法得到參數(shù)
采用梯度下降方法:目標(biāo)函數(shù)對(duì)θ進(jìn)行求導(dǎo)(利用了知識(shí)背景中邏輯回歸函數(shù)的性質(zhì)),再進(jìn)行更新
- 四娜汁、進(jìn)行預(yù)測(cè)
學(xué)習(xí)完參數(shù)以后嫂易,把需要進(jìn)行的樣例Xi輸入到模型中,看y的大小就能預(yù)測(cè)了存炮。
一般線性模型:
已知標(biāo)簽y的分布炬搭,服從指數(shù)族分布 ,那么可以利用假設(shè)的三個(gè)條件來(lái)得到需要預(yù)測(cè)的y值的模型穆桂。
三宫盔、Softmax Regression
是邏輯回歸的泛化,適用于多分類(lèi)的問(wèn)題享完。
Softmax Regression算法的四個(gè)步驟:
一灼芭、建模
- 利用 一般線性模型中的三個(gè)假設(shè)條件,可以得到 輸入x情況下
y是第i類(lèi)的概率
- 利用 一般線性模型中的三個(gè)假設(shè)條件,可以得到 輸入x情況下
- 那么預(yù)測(cè)值(每類(lèi)的概率)的模型
也就是說(shuō)般又,我們的假設(shè)彼绷,就是輸出對(duì)每個(gè)結(jié)果預(yù)測(cè)的概率。
這就是softmax regression中的假設(shè)模型了茴迁。
多分類(lèi)問(wèn)題中寄悯,若標(biāo)簽y服從多項(xiàng)式分布,用GLM來(lái)建模(如上所說(shuō))堕义,得到假設(shè)的模型猜旬,模型輸出的結(jié)果是y作為每一類(lèi)的概率(是一個(gè)向量)。
二倦卖、其余幾個(gè)步驟洒擦。。怕膛。
采用極大似然熟嫩,再用log作為目標(biāo)函數(shù),再通過(guò)優(yōu)化方法褐捻,得到最終需要學(xué)習(xí)的參數(shù)掸茅。
生成模型(GDA和NB)
這兩個(gè)模型最后的求解都是極大似然函數(shù)對(duì)參數(shù)求導(dǎo)。
生成模型的優(yōu)缺點(diǎn)
主要特點(diǎn):
一般主要是對(duì)后驗(yàn)概率建模優(yōu)點(diǎn):
實(shí)際上帶的信息要比判別模型豐富柠逞,
研究單類(lèi)問(wèn)題比判別模型靈活性強(qiáng)
數(shù)據(jù)量少也可以使用缺點(diǎn):
學(xué)習(xí)和計(jì)算過(guò)程比較復(fù)雜常見(jiàn)的主要有:
Gaussians
Naive Bayes
Markov random fields主要應(yīng)用:
NLP等
四倦蚪、高斯判別模型(GDA)
4.1高斯判別模型適用的問(wèn)題
因?yàn)楦咚古袆e模型屬于生成模型,所以其數(shù)據(jù)中的特征向量要符合GDA的假設(shè) 即:特征向量边苹,符合多值正態(tài)分布。
4.2 高斯判別模型方法的幾個(gè)步驟
- 一裁僧、建模
生成模型个束,需要知道每一類(lèi)的后驗(yàn)概率慕购,對(duì)此進(jìn)行建模(x|y=0,x|y=1),還要知道先驗(yàn)概率y的分布。所以這個(gè)山羊問(wèn)題共有三個(gè)公式茬底。
所以高斯判別分析模型如下:
此模型預(yù)測(cè)結(jié)果需要由參數(shù)μ0沪悲,μ1,Σ阱表,以及φ決定殿如。
- 二、定義目標(biāo)函數(shù)
想要學(xué)習(xí)到參數(shù)使得預(yù)測(cè)的準(zhǔn)確率最高最爬,想到用最大似然估計(jì)法涉馁,于是可以得到目標(biāo)函數(shù)
再根據(jù)上面的求‘’利用生成模型求得參數(shù)使p(x|y)p(y)最大‘’也就是求得參數(shù)使聯(lián)合分布最大,于是得到最大似然估計(jì):
有兩個(gè)不同的特征均值爱致,但假設(shè)協(xié)方差相同烤送,反映在圖上就是不同模型中心位置不同,但形狀相同糠悯。這樣就可以用直線來(lái)進(jìn)行分隔判別帮坚。
- 三、利用優(yōu)化方法求得參數(shù)值
求導(dǎo)得到參數(shù)估計(jì)公式互艾。于是學(xué)到了參數(shù)试和,可以用于預(yù)測(cè)了。
五纫普、樸素貝葉斯模型(NB)
5.1樸素貝葉斯模型適用的問(wèn)題
因?yàn)闃闼刎惾~斯模型屬于生成模型阅悍,所以其數(shù)據(jù)中的特征向量要符合NB的假設(shè) 即:特征向量,符合條件獨(dú)立局嘁。
5.2 高斯判別模型方法的幾個(gè)步驟
- 一溉箕、建模
后驗(yàn)概率的模型:
先驗(yàn)概率的模型:
因?yàn)榧僭O(shè)了是條件獨(dú)立的,所以直接選擇上面三個(gè) φ作為參數(shù)悦昵,是可以直求得的肴茄。
- 二 建立目標(biāo)函數(shù)
選擇以上三個(gè)作為參數(shù),想要學(xué)得參數(shù)再訓(xùn)練數(shù)據(jù)上概率積最大但指, 得到最大似然估計(jì)
上式中寡痰,右側(cè)
p(x,y)
=p(x,y|φi|y=0,φi|y=1,φy)
=p(x|y;φi|y=0,φi|y=1)p(y;φy)
可知,這三個(gè)參數(shù)能夠限制棋凳,也能夠求出p(x,y)拦坠。就相當(dāng)于線性回歸中的θ,也相當(dāng)于高斯判別分析(GDA)中的均值和方差剩岳。
比如p(x=1,y=1)可由φi|y=1,φy求出贞滨。
- 三、求導(dǎo),可得
最后一個(gè)式子是表示y=1的樣本數(shù)占全部樣本數(shù)的比例晓铆,前兩個(gè)表示在y=1或0的樣本中勺良,特征Xj=1的比例。
5.3 樸素貝葉斯模型的優(yōu)缺點(diǎn)
- 優(yōu)點(diǎn):
對(duì)小規(guī)模的數(shù)據(jù)表現(xiàn)很好骄噪,能處理多分類(lèi)任務(wù)
算法也比較簡(jiǎn)單尚困,常用于文本分類(lèi)。 - 缺點(diǎn):
需要計(jì)算先驗(yàn)概率链蕊;
對(duì)輸入數(shù)據(jù)的表達(dá)形式很敏感事甜。