第三章 線性模型

3.1 基本形式

對于由d個屬性描述的示例=(x_{1} 瘸爽;x_{2} 您访;...;x_cs82mka) 我們試圖通過學(xué)習(xí)獲得一個通過屬性的線性組合來進(jìn)行預(yù)測的函數(shù)剪决,即:

f(x)=\omega ^Tx+b? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (3.2)

其中\omega=(\omega_{1} ;\omega_{2} ;...;\omega_siyciwo  ).\omegab確定以后灵汪,模型得以確定。

線性模型的優(yōu)勢:

①形式簡單?

②易于建模?

③蘊(yùn)含著機(jī)器學(xué)習(xí)中的一些重要的基本思想?

④非線性模型可在線性模型的基礎(chǔ)上通過引入層級結(jié)構(gòu)或高維映射而得?

⑤具有很好的可解釋性


3.2 線性回歸

3.2.1.1輸入屬性的數(shù)目只有一個:

????對離散屬性:

????????①若屬性值之間存在“序”關(guān)系柑潦,轉(zhuǎn)化為某個標(biāo)量享言,如:

????????????屬性身高的值分別為高渗鬼、矮览露,則可轉(zhuǎn)化為{1.0,0.0}譬胎,若為高差牛、中、低堰乔,則轉(zhuǎn)化為{1.0偏化,0.5,0.0}

????????②若屬性值之間不存在“序關(guān)系镐侯,則通常轉(zhuǎn)化為k維向量侦讨,如:

????????????西瓜,南瓜苟翻,黃瓜=(0,0,1), (0,1,0), (1,0,0)

? ??此時(shí)如何確定\omegab——使均方誤差最性下薄:即使用最小二乘法

????幾何意義——?dú)W氏距離,最小二乘法就是試圖找到一條直線崇猫,使所有樣本到直線上的歐氏距離之和最小沈条。

? ??這個過程叫做最小二乘“參數(shù)估計(jì)”


3.2.1.2樣本由d個屬性描述:

同樣使用最小二乘法,只不過將\omegab吸收入向量形式\hat{\omega}=(\omega;b) ,相應(yīng)地把數(shù)據(jù)集D表示為一個m×(d+1)大小的矩陣X诅炉,其中每行對應(yīng)于一個示例拍鲤,該行前d 個元素對應(yīng)于示例的d 個屬性值贴谎,最后一個元素恒置為1


特例:當(dāng)X^TX為滿秩矩陣(full-rank matrix)或正走矩陣(positive definite matrix)時(shí),可求得最 終的多元線性回歸模型為:

f(\hat{x} _{i} )=\hat{x} _{i}^T(X^TX)^-1X^Ty

但是現(xiàn)實(shí)中X^TX往往不是滿秩矩陣.例如在許多任務(wù)中我們會遇到大量的變量季稳,其數(shù)目甚至超過樣例數(shù)擅这,此時(shí)可以解出多個\hat{\omega} ——引入正則化項(xiàng)


3.2.2線性模型的變形

對數(shù)線性回歸:\ln y=\omega^T x+b

實(shí)際上是在試圖讓e^(\omega^Tx+b)逼近y,這在形式上仍是線性回歸景鼠,但實(shí)質(zhì)上已是在求取輸入空間到輸出空間的非線性函數(shù)映射仲翎,這里的對數(shù)函數(shù)起到了將線性回歸模型的預(yù)測值與真實(shí)標(biāo)記聯(lián)系起來的作用。

廣義線性模型:

(3.15)

其中g(·)稱為“聯(lián)系函數(shù)”铛漓,顯然溯香,對數(shù)線性回歸是廣義線性模型在g(·)=ln(·)時(shí)的特例。


3.3 對數(shù)幾率回歸

對數(shù)幾率函數(shù):

對數(shù)幾率函數(shù)是一種"Sigmoid 函數(shù)"浓恶,它將z 值轉(zhuǎn)化為一個接近0 或1 的y 值并且其輸出值在z =0 附近變化很陡

作為g^-(·)代入(3.15)可得:

(3.18)

變換得

若將u 視為樣本z 作為正例的可能性玫坛,則1-y 是其反例可能性,兩者的比值

稱為"幾率" (odds) 包晰,反映了m 作為正例的相對可能性.對幾率取對數(shù)則得到"對數(shù)幾率" (log odds 湿镀,亦稱logit)

由此可看出,式(3.18)實(shí)際上是在用線性回歸模型的預(yù)測結(jié)果去逼近真實(shí)標(biāo)記的對數(shù)幾率伐憾,因此勉痴,其對應(yīng)的模型稱為"對數(shù)幾率回歸" (logisticregression,亦稱logit regression) .特別需注意到树肃,雖然它的名字是"回歸"蒸矛,但實(shí)際卻是一種分類學(xué)習(xí)方法.這種方法有很多優(yōu)點(diǎn),例如它是直接對分類可能性進(jìn)行建模胸嘴,無需事先假設(shè)數(shù)據(jù)分布雏掠,這樣就避免了假設(shè)分布不準(zhǔn)確所帶來的問題;它不是僅預(yù)測出"類別",而是可得到近似概率預(yù)測劣像,這對許多需利用概率輔助決策的任務(wù)很有用;此外磁玉,對率函數(shù)是任意階可導(dǎo)的凸函數(shù),有很好的數(shù)學(xué)性質(zhì)驾讲,現(xiàn)有的許多數(shù)值優(yōu)化算法都可直接用于求取最優(yōu)解.

如何確定(3.18)式中的\omega
b:極大似然法,“對數(shù)似然”

3.4 線性判別分析

????線性判別分析(LDA)設(shè)法將樣例投影到一條直線上席赂,使得同類樣例的投影點(diǎn)盡可能接近吮铭、異類樣例的投影點(diǎn)盡可能遠(yuǎn)離;在對新樣本進(jìn)行分類時(shí),將其投影到同樣的這條直線上颅停,再根據(jù)投影點(diǎn)的位置來確定新樣本的類別.

欲使同類樣例的投影點(diǎn)盡可能接近谓晌,可以讓同類樣例投影點(diǎn)的協(xié)方差盡可能小,而欲使異類樣例的投影點(diǎn)盡可能遠(yuǎn)離癞揉,可以讓類中心之間的距離盡可能大纸肉,同時(shí)考慮二者溺欧,則可得到欲最大化的目標(biāo)

如果定義了“類內(nèi)散度矩陣”以及“類間散度矩陣”則可重寫為:

如何確定\omega

3.4.2 將LDA推廣到多分類任務(wù)

假定存在N個類,且第i類示例數(shù)為m_{i} ,定義“全局散度矩陣”

其中\mu是所有示例的均值向量柏肪,將類內(nèi)散度矩陣S_{w} 重定義為每個類別的散度矩陣之和姐刁,即

其中

經(jīng)推理可得

實(shí)際運(yùn)用中S_ S_{w} S_{t} 三者中任何兩個即可烦味,另有一種常見的實(shí)現(xiàn)是采用優(yōu)化目標(biāo)

若將W 視為一個投影矩陣聂使,則多分類LDA 將樣本投影到N-1 維空間,N-1 通常遠(yuǎn)小子數(shù)據(jù)原有的屬性數(shù).于是谬俄,可通過這個投影來減小樣本點(diǎn)的維數(shù)柏靶,且投影過程中使用了類別信息?因此LDA也常被視為一種經(jīng)典的監(jiān)督降維技術(shù)。

3.5 多分類學(xué)習(xí)

多分類學(xué)習(xí)的基本思路是“拆解法”溃论,即將多分類任務(wù)拆解為若干個二分類任務(wù)求解屎蜓。

經(jīng)典的拆分策略:“一對一”(“OvO”)、“一對其余”(“OvR”)钥勋、“多對多”(“MvM”)

一對一(“OvO”):對給定N個類別的數(shù)據(jù)兩兩配對炬转,從而產(chǎn)生N(N-1)/2個二分類任務(wù),

一對其余(“OvR”):每次將一個類的樣例作為正例笔诵、所有其他類的樣例作為反例來訓(xùn)練N 個分類器.

OvR 只需訓(xùn)練N 個分類器返吻, 而OvO 需訓(xùn)練N(N - 1)/2 個分類器, 因此乎婿, OvO的存儲開銷和測試時(shí)間開銷通常比OvR 更大. 但在訓(xùn)練時(shí)测僵,OvR 的每個分類器均使用全部訓(xùn)練樣例,而OvO 的每個分類器僅用到兩個類的樣例谢翎,因此捍靠,在類別很多時(shí),OvO 的訓(xùn)練時(shí)間開銷通常比OvR 更小. 至于預(yù)測性能森逮, 則取決于具體的數(shù)據(jù)分布榨婆, 在多數(shù)情形下兩者差不多.

多對多(“MvM"):MvM 是每次將若干個類作為正類,若干個其他類作為反類.顯然褒侧, OvO 和OvR 是MvM 的特例. MvM 的正良风、反類構(gòu)造必須有特殊的設(shè)計(jì),不能隨意選取闷供。

3.6類別不平衡問題

類別不平衡(class-imbalance)就是指分類任務(wù)中不同類別的訓(xùn)練樣例數(shù)目差別很大的情況

類別不平衡學(xué)習(xí)的一個基本策略一"再縮放" (rescaling)烟央。(亦稱“再平衡”)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者歪脏。
  • 序言:七十年代末疑俭,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子婿失,更是在濱河造成了極大的恐慌钞艇,老刑警劉巖啄寡,帶你破解...
    沈念sama閱讀 216,544評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異哩照,居然都是意外死亡挺物,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,430評論 3 392
  • 文/潘曉璐 我一進(jìn)店門葡秒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來姻乓,“玉大人,你說我怎么就攤上這事眯牧√Q遥” “怎么了?”我有些...
    開封第一講書人閱讀 162,764評論 0 353
  • 文/不壞的土叔 我叫張陵学少,是天一觀的道長剪个。 經(jīng)常有香客問我,道長版确,這世上最難降的妖魔是什么扣囊? 我笑而不...
    開封第一講書人閱讀 58,193評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮绒疗,結(jié)果婚禮上侵歇,老公的妹妹穿的比我還像新娘。我一直安慰自己吓蘑,他們只是感情好惕虑,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,216評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著磨镶,像睡著了一般溃蔫。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上琳猫,一...
    開封第一講書人閱讀 51,182評論 1 299
  • 那天伟叛,我揣著相機(jī)與錄音,去河邊找鬼脐嫂。 笑死统刮,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的账千。 我是一名探鬼主播侥蒙,決...
    沈念sama閱讀 40,063評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼蕊爵!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起桦山,我...
    開封第一講書人閱讀 38,917評論 0 274
  • 序言:老撾萬榮一對情侶失蹤攒射,失蹤者是張志新(化名)和其女友劉穎醋旦,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體会放,經(jīng)...
    沈念sama閱讀 45,329評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡饲齐,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,543評論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了咧最。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片捂人。...
    茶點(diǎn)故事閱讀 39,722評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖矢沿,靈堂內(nèi)的尸體忽然破棺而出滥搭,到底是詐尸還是另有隱情,我是刑警寧澤捣鲸,帶...
    沈念sama閱讀 35,425評論 5 343
  • 正文 年R本政府宣布瑟匆,位于F島的核電站,受9級特大地震影響栽惶,放射性物質(zhì)發(fā)生泄漏愁溜。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,019評論 3 326
  • 文/蒙蒙 一外厂、第九天 我趴在偏房一處隱蔽的房頂上張望冕象。 院中可真熱鬧,春花似錦汁蝶、人聲如沸渐扮。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,671評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽席爽。三九已至,卻和暖如春啊片,著一層夾襖步出監(jiān)牢的瞬間只锻,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,825評論 1 269
  • 我被黑心中介騙來泰國打工紫谷, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留齐饮,地道東北人。 一個月前我還...
    沈念sama閱讀 47,729評論 2 368
  • 正文 我出身青樓笤昨,卻偏偏與公主長得像祖驱,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子瞒窒,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,614評論 2 353

推薦閱讀更多精彩內(nèi)容