機(jī)器學(xué)習(xí)中各個(gè)算法小結(jié)1

各個(gè)算法的步驟都是差不多的:

建模==> 目標(biāo)函數(shù)==>采用最優(yōu)化方法優(yōu)化目標(biāo)函數(shù),求得參數(shù)

其中涩盾,前兩步中一定要明確倚搬,此問(wèn)題需要求得是什么參數(shù)

監(jiān)督式學(xué)習(xí)

一、線性回歸

1.1 線性回歸能解決什么問(wèn)題

  • 用來(lái)預(yù)測(cè)事物的發(fā)展蚀之,有一個(gè)具體的值。比如择克,根據(jù)已有的數(shù)據(jù)恬总,學(xué)習(xí)參數(shù),預(yù)測(cè)房?jī)r(jià)等等肚邢。
  • 找出重要的特征壹堰。(比如前向逐步線性回歸,可以找到對(duì)因變量影響比較大的特征骡湖,停止對(duì)不重要特征的收集)贱纠。

1.2 線性回歸的優(yōu)缺點(diǎn)

  • 優(yōu)點(diǎn):
    簡(jiǎn)單方便,易于理解响蕴;
    可以得到具體的結(jié)果谆焊。
  • 缺點(diǎn):
    哪種特征對(duì)結(jié)果影響比較大,以及該特征應(yīng)該采用什么樣的表達(dá)式浦夷,都只不確定辖试,尤其是對(duì)于非線性的數(shù)據(jù)擬合不好。結(jié)果準(zhǔn)確性不高劈狐。

1.3 線性回歸的理論推導(dǎo)

1.3.1線性回歸算法的三個(gè)步驟
  • 一罐孝、建模
    預(yù)測(cè)值 y ,是特征的線性函數(shù)肥缔,模型h(x)如下莲兢,參數(shù)為θ向量。
  • 二续膳、定義目標(biāo)函數(shù)
  • 三改艇、最優(yōu)化方法學(xué)習(xí)參數(shù)
    利用梯度下降法訓(xùn)練數(shù)據(jù),學(xué)習(xí)到參數(shù)坟岔。
1.3.2 理論依據(jù)

(為什么用‘二次’的誤差來(lái)衡量預(yù)測(cè)接近真實(shí)值的程度源梭,而不是用絕對(duì)值或四次来庭?)

不采用絕對(duì)值之和容易理解焰雕,誤差會(huì)正負(fù)抵消。

采用二次的理論依據(jù):
-- 假設(shè)誤差 符合獨(dú)立同分布酣溃,均值為零,方差是σ2 的高斯分布纪隙,于是可以表示出誤差的概率密度P赊豌。
-- 用真實(shí)值與預(yù)測(cè)值之差代替誤差,得到了給定x得到預(yù)測(cè)值y的概率密度绵咱。
-- 把整個(gè)數(shù)據(jù)集X作為輸入碘饼,Y作為輸出,可以得到極大似然函數(shù)悲伶。

我們想要做的艾恼,就是找到一個(gè)最好的θ,使得極大自然函數(shù)值最大麸锉,也就是钠绍,這個(gè)θ能夠預(yù)測(cè)出最準(zhǔn)確的y值。

--利用求極大似然的思想花沉,先log柳爽,那么化簡(jiǎn)之后,最大化似然函數(shù)碱屁,也就是極小化 真實(shí)值與預(yù)測(cè)值之差的平方和了磷脯。

1.4 回歸的其他算法

  • 局部加權(quán)線性回歸:
    (并不是使用的特征越多越好,容易過(guò)擬合娩脾。反之容易欠擬合赵誓。)LWLR是一個(gè)非參數(shù)模型(沒(méi)有需要利用優(yōu)化算法學(xué)習(xí)的 參數(shù))),因?yàn)槊看芜M(jìn)行回歸計(jì)算都要遍歷訓(xùn)練樣本至少一次柿赊。
    所以應(yīng)該根據(jù)數(shù)據(jù)的特點(diǎn)俩功,設(shè)計(jì)學(xué)習(xí)算法,采用局部加權(quán)線性回歸碰声。只學(xué)習(xí)當(dāng)前輸入X周?chē)木植繑?shù)據(jù)集绑雄。
    權(quán)值的計(jì)算公式不唯一,但是思想就是奥邮,當(dāng)樣例越接近要預(yù)測(cè)的點(diǎn)x那么權(quán)值就會(huì)越大。

  • 前向逐步回歸(每次增大或減小一個(gè)特征的權(quán)值罗珍,若誤差減小就替換當(dāng)前權(quán)值洽腺。)

  • 嶺回歸,增加正則項(xiàng)覆旱,縮減不必要的特征參數(shù)蘸朋,在數(shù)據(jù)特征特別多的情況下,可以指出那些是那些是不重要的扣唱。
    加正則項(xiàng):不會(huì)過(guò)擬合藕坯。矩陣會(huì)滿(mǎn)秩团南,正規(guī)方程會(huì)有解。

二炼彪、邏輯回歸 與 分類(lèi)

2.1邏輯回歸適用的問(wèn)題

  • 預(yù)測(cè)在不同的自變量的情況下吐根,發(fā)生某種疾病,或者某種情況的概率有多大
  • 判別辐马,分類(lèi)拷橘,類(lèi)似于預(yù)測(cè),判斷是否發(fā)生某種情況
  • 重要特征分析喜爷,可以通過(guò)考察某特征是否為影響結(jié)果的特征冗疮,找出主要得特征

2.2邏輯回歸的優(yōu)缺點(diǎn)

優(yōu)點(diǎn):

  • 利用邏輯回歸函數(shù),將值域限制在了0到1之間檩帐;
  • 便于理解

缺點(diǎn):

  • 只能處理二分類(lèi)問(wèn)題术幔,且必須線性可分
  • 預(yù)測(cè)結(jié)果呈“S”型,概率在兩端變化很小湃密,坡度太小诅挑,會(huì)導(dǎo)致一些區(qū)間的變量變化對(duì)目標(biāo)概率沒(méi)有影響。導(dǎo)致一些數(shù)據(jù)利用不充分勾缭。

2.3 邏輯回歸的理論推導(dǎo)

2.3.1 建模知識(shí)背景
  • 想要用0-1之間的值表示輸入X屬于哪一類(lèi)(0/1)的概率揍障,首先需要選定一個(gè)合適的目標(biāo)函數(shù),使得不論輸入什么X俩由,都會(huì)輸出0-1之間的值毒嫡。

  • 排除線性回歸,單位階躍函數(shù)(雖然值域滿(mǎn)足要求幻梯,但是不連續(xù)兜畸,不適用優(yōu)化算法)。于是采用邏輯回歸函數(shù)碘梢。

  • 邏輯回歸的公式說(shuō)明咬摇,自變量θx的值越大,預(yù)測(cè)值越接近1.并且煞躬,g(z)有一個(gè)性質(zhì)

2.3.2 邏輯回歸算法的三個(gè) 步驟
  • 一肛鹏、建模

對(duì)于單個(gè)樣例來(lái)說(shuō)說(shuō),作為判別模型恩沛,就是求條件概率在扰。于是得到模型:在樣例x的情況下,y的概率為

這個(gè)模型的參數(shù)是θ

  • 二雷客、建立目標(biāo)函數(shù)

對(duì)于所有的樣例芒珠,采用極大似然方法,要使預(yù)測(cè)的 準(zhǔn)確率最高搅裙,就是找到最好的參數(shù)θ皱卓,使這個(gè)函數(shù)能夠最大化

log一下:

  • 三裹芝、最優(yōu)化方法得到參數(shù)

采用梯度下降方法:目標(biāo)函數(shù)對(duì)θ進(jìn)行求導(dǎo)(利用了知識(shí)背景中邏輯回歸函數(shù)的性質(zhì)),再進(jìn)行更新

  • 四娜汁、進(jìn)行預(yù)測(cè)

學(xué)習(xí)完參數(shù)以后嫂易,把需要進(jìn)行的樣例Xi輸入到模型中,看y的大小就能預(yù)測(cè)了存炮。



一般線性模型:
已知標(biāo)簽y的分布炬搭,服從指數(shù)族分布 ,那么可以利用假設(shè)的三個(gè)條件來(lái)得到需要預(yù)測(cè)的y值的模型穆桂。



三宫盔、Softmax Regression

是邏輯回歸的泛化,適用于多分類(lèi)的問(wèn)題享完。

Softmax Regression算法的四個(gè)步驟:

一灼芭、建模
    1. 利用 一般線性模型中的三個(gè)假設(shè)條件,可以得到 輸入x情況下
      y是第i類(lèi)的概率
    1. 那么預(yù)測(cè)值(每類(lèi)的概率)的模型

也就是說(shuō)般又,我們的假設(shè)彼绷,就是輸出對(duì)每個(gè)結(jié)果預(yù)測(cè)的概率。
這就是softmax regression中的假設(shè)模型了茴迁。

多分類(lèi)問(wèn)題中寄悯,若標(biāo)簽y服從多項(xiàng)式分布,用GLM來(lái)建模(如上所說(shuō))堕义,得到假設(shè)的模型猜旬,模型輸出的結(jié)果是y作為每一類(lèi)的概率(是一個(gè)向量)。

二倦卖、其余幾個(gè)步驟洒擦。。怕膛。

采用極大似然熟嫩,再用log作為目標(biāo)函數(shù),再通過(guò)優(yōu)化方法褐捻,得到最終需要學(xué)習(xí)的參數(shù)掸茅。

生成模型(GDA和NB)

這兩個(gè)模型最后的求解都是極大似然函數(shù)對(duì)參數(shù)求導(dǎo)。

生成模型的優(yōu)缺點(diǎn)

  • 主要特點(diǎn):
    一般主要是對(duì)后驗(yàn)概率建模

  • 優(yōu)點(diǎn):
    實(shí)際上帶的信息要比判別模型豐富柠逞,
    研究單類(lèi)問(wèn)題比判別模型靈活性強(qiáng)
    數(shù)據(jù)量少也可以使用

  • 缺點(diǎn):
    學(xué)習(xí)和計(jì)算過(guò)程比較復(fù)雜

  • 常見(jiàn)的主要有:
    Gaussians
    Naive Bayes
    Markov random fields

  • 主要應(yīng)用:
    NLP等

四倦蚪、高斯判別模型(GDA)

4.1高斯判別模型適用的問(wèn)題

因?yàn)楦咚古袆e模型屬于生成模型,所以其數(shù)據(jù)中的特征向量要符合GDA的假設(shè) 即:特征向量边苹,符合多值正態(tài)分布。

4.2 高斯判別模型方法的幾個(gè)步驟

  • 一裁僧、建模

生成模型个束,需要知道每一類(lèi)的后驗(yàn)概率慕购,對(duì)此進(jìn)行建模(x|y=0,x|y=1),還要知道先驗(yàn)概率y的分布。所以這個(gè)山羊問(wèn)題共有三個(gè)公式茬底。

所以高斯判別分析模型如下:

此模型預(yù)測(cè)結(jié)果需要由參數(shù)μ0沪悲,μ1,Σ阱表,以及φ決定殿如。

  • 二、定義目標(biāo)函數(shù)

想要學(xué)習(xí)到參數(shù)使得預(yù)測(cè)的準(zhǔn)確率最高最爬,想到用最大似然估計(jì)法涉馁,于是可以得到目標(biāo)函數(shù)
再根據(jù)上面的求‘’利用生成模型求得參數(shù)使p(x|y)p(y)最大‘’也就是求得參數(shù)使聯(lián)合分布最大,于是得到最大似然估計(jì):

有兩個(gè)不同的特征均值爱致,但假設(shè)協(xié)方差相同烤送,反映在圖上就是不同模型中心位置不同,但形狀相同糠悯。這樣就可以用直線來(lái)進(jìn)行分隔判別帮坚。

  • 三、利用優(yōu)化方法求得參數(shù)值

求導(dǎo)得到參數(shù)估計(jì)公式互艾。于是學(xué)到了參數(shù)试和,可以用于預(yù)測(cè)了。

五纫普、樸素貝葉斯模型(NB)

5.1樸素貝葉斯模型適用的問(wèn)題

因?yàn)闃闼刎惾~斯模型屬于生成模型阅悍,所以其數(shù)據(jù)中的特征向量要符合NB的假設(shè) 即:特征向量,符合條件獨(dú)立局嘁。

5.2 高斯判別模型方法的幾個(gè)步驟

  • 一溉箕、建模

后驗(yàn)概率的模型:

先驗(yàn)概率的模型:

因?yàn)榧僭O(shè)了是條件獨(dú)立的,所以直接選擇上面三個(gè) φ作為參數(shù)悦昵,是可以直求得的肴茄。

  • 二 建立目標(biāo)函數(shù)

選擇以上三個(gè)作為參數(shù),想要學(xué)得參數(shù)再訓(xùn)練數(shù)據(jù)上概率積最大但指, 得到最大似然估計(jì)

上式中寡痰,右側(cè)
p(x,y)
=p(x,y|φi|y=0i|y=1y)
=p(x|y;φi|y=0i|y=1)p(y;φy)

可知,這三個(gè)參數(shù)能夠限制棋凳,也能夠求出p(x,y)拦坠。就相當(dāng)于線性回歸中的θ,也相當(dāng)于高斯判別分析(GDA)中的均值和方差剩岳。
比如p(x=1,y=1)可由φi|y=1y求出贞滨。

  • 三、求導(dǎo),可得

最后一個(gè)式子是表示y=1的樣本數(shù)占全部樣本數(shù)的比例晓铆,前兩個(gè)表示在y=1或0的樣本中勺良,特征Xj=1的比例。

5.3 樸素貝葉斯模型的優(yōu)缺點(diǎn)

  • 優(yōu)點(diǎn):
    對(duì)小規(guī)模的數(shù)據(jù)表現(xiàn)很好骄噪,能處理多分類(lèi)任務(wù)
    算法也比較簡(jiǎn)單尚困,常用于文本分類(lèi)。
  • 缺點(diǎn):
    需要計(jì)算先驗(yàn)概率链蕊;
    對(duì)輸入數(shù)據(jù)的表達(dá)形式很敏感事甜。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市滔韵,隨后出現(xiàn)的幾起案子逻谦,更是在濱河造成了極大的恐慌,老刑警劉巖奏属,帶你破解...
    沈念sama閱讀 221,635評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件跨跨,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡囱皿,警方通過(guò)查閱死者的電腦和手機(jī)勇婴,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,543評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)嘱腥,“玉大人耕渴,你說(shuō)我怎么就攤上這事〕萃茫” “怎么了橱脸?”我有些...
    開(kāi)封第一講書(shū)人閱讀 168,083評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)分苇。 經(jīng)常有香客問(wèn)我添诉,道長(zhǎng),這世上最難降的妖魔是什么医寿? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,640評(píng)論 1 296
  • 正文 為了忘掉前任栏赴,我火速辦了婚禮,結(jié)果婚禮上靖秩,老公的妹妹穿的比我還像新娘须眷。我一直安慰自己,他們只是感情好沟突,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,640評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布花颗。 她就那樣靜靜地躺著,像睡著了一般惠拭。 火紅的嫁衣襯著肌膚如雪扩劝。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 52,262評(píng)論 1 308
  • 那天,我揣著相機(jī)與錄音棒呛,去河邊找鬼葡公。 笑死,一個(gè)胖子當(dāng)著我的面吹牛条霜,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播涵亏,決...
    沈念sama閱讀 40,833評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼宰睡,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了气筋?” 一聲冷哼從身側(cè)響起拆内,我...
    開(kāi)封第一講書(shū)人閱讀 39,736評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎宠默,沒(méi)想到半個(gè)月后麸恍,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,280評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡搀矫,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,369評(píng)論 3 340
  • 正文 我和宋清朗相戀三年抹沪,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片瓤球。...
    茶點(diǎn)故事閱讀 40,503評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡融欧,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出卦羡,到底是詐尸還是另有隱情噪馏,我是刑警寧澤,帶...
    沈念sama閱讀 36,185評(píng)論 5 350
  • 正文 年R本政府宣布绿饵,位于F島的核電站欠肾,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏拟赊。R本人自食惡果不足惜刺桃,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,870評(píng)論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望要门。 院中可真熱鬧虏肾,春花似錦、人聲如沸欢搜。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,340評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)炒瘟。三九已至吹埠,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背缘琅。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,460評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工粘都, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人刷袍。 一個(gè)月前我還...
    沈念sama閱讀 48,909評(píng)論 3 376
  • 正文 我出身青樓翩隧,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親呻纹。 傳聞我的和親對(duì)象是個(gè)殘疾皇子堆生,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,512評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容