3.1 基本形式
對于由個屬性描述的示例=我們試圖通過學(xué)習(xí)獲得一個通過屬性的線性組合來進(jìn)行預(yù)測的函數(shù)剪决,即:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (3.2)
其中.和確定以后灵汪,模型得以確定。
線性模型的優(yōu)勢:
①形式簡單?
②易于建模?
③蘊(yùn)含著機(jī)器學(xué)習(xí)中的一些重要的基本思想?
④非線性模型可在線性模型的基礎(chǔ)上通過引入層級結(jié)構(gòu)或高維映射而得?
⑤具有很好的可解釋性
3.2 線性回歸
3.2.1.1輸入屬性的數(shù)目只有一個:
????對離散屬性:
????????①若屬性值之間存在“序”關(guān)系柑潦,轉(zhuǎn)化為某個標(biāo)量享言,如:
????????????屬性身高的值分別為高渗鬼、矮览露,則可轉(zhuǎn)化為{1.0,0.0}譬胎,若為高差牛、中、低堰乔,則轉(zhuǎn)化為{1.0偏化,0.5,0.0}
????????②若屬性值之間不存在“序關(guān)系镐侯,則通常轉(zhuǎn)化為維向量侦讨,如:
????????????西瓜,南瓜苟翻,黃瓜=(0,0,1), (0,1,0), (1,0,0)
? ??此時(shí)如何確定和——使均方誤差最性下薄:即使用最小二乘法
????幾何意義——?dú)W氏距離,最小二乘法就是試圖找到一條直線崇猫,使所有樣本到直線上的歐氏距離之和最小沈条。
? ??這個過程叫做最小二乘“參數(shù)估計(jì)”
3.2.1.2樣本由d個屬性描述:
同樣使用最小二乘法,只不過將和吸收入向量形式,相應(yīng)地把數(shù)據(jù)集D表示為一個m×(d+1)大小的矩陣X诅炉,其中每行對應(yīng)于一個示例拍鲤,該行前d 個元素對應(yīng)于示例的d 個屬性值贴谎,最后一個元素恒置為1
特例:當(dāng)為滿秩矩陣(full-rank matrix)或正走矩陣(positive definite matrix)時(shí),可求得最 終的多元線性回歸模型為:
但是現(xiàn)實(shí)中往往不是滿秩矩陣.例如在許多任務(wù)中我們會遇到大量的變量季稳,其數(shù)目甚至超過樣例數(shù)擅这,此時(shí)可以解出多個——引入正則化項(xiàng)
3.2.2線性模型的變形
對數(shù)線性回歸:
實(shí)際上是在試圖讓e^(^Tx+b)逼近y,這在形式上仍是線性回歸景鼠,但實(shí)質(zhì)上已是在求取輸入空間到輸出空間的非線性函數(shù)映射仲翎,這里的對數(shù)函數(shù)起到了將線性回歸模型的預(yù)測值與真實(shí)標(biāo)記聯(lián)系起來的作用。
廣義線性模型:
其中稱為“聯(lián)系函數(shù)”铛漓,顯然溯香,對數(shù)線性回歸是廣義線性模型在時(shí)的特例。
3.3 對數(shù)幾率回歸
對數(shù)幾率函數(shù):
對數(shù)幾率函數(shù)是一種"Sigmoid 函數(shù)"浓恶,它將z 值轉(zhuǎn)化為一個接近0 或1 的y 值并且其輸出值在z =0 附近變化很陡
作為代入(3.15)可得:
變換得
若將u 視為樣本z 作為正例的可能性玫坛,則1-y 是其反例可能性,兩者的比值
稱為"幾率" (odds) 包晰,反映了m 作為正例的相對可能性.對幾率取對數(shù)則得到"對數(shù)幾率" (log odds 湿镀,亦稱logit)
由此可看出,式(3.18)實(shí)際上是在用線性回歸模型的預(yù)測結(jié)果去逼近真實(shí)標(biāo)記的對數(shù)幾率伐憾,因此勉痴,其對應(yīng)的模型稱為"對數(shù)幾率回歸" (logisticregression,亦稱logit regression) .特別需注意到树肃,雖然它的名字是"回歸"蒸矛,但實(shí)際卻是一種分類學(xué)習(xí)方法.這種方法有很多優(yōu)點(diǎn),例如它是直接對分類可能性進(jìn)行建模胸嘴,無需事先假設(shè)數(shù)據(jù)分布雏掠,這樣就避免了假設(shè)分布不準(zhǔn)確所帶來的問題;它不是僅預(yù)測出"類別",而是可得到近似概率預(yù)測劣像,這對許多需利用概率輔助決策的任務(wù)很有用;此外磁玉,對率函數(shù)是任意階可導(dǎo)的凸函數(shù),有很好的數(shù)學(xué)性質(zhì)驾讲,現(xiàn)有的許多數(shù)值優(yōu)化算法都可直接用于求取最優(yōu)解.
如何確定(3.18)式中的和:極大似然法,“對數(shù)似然”
3.4 線性判別分析
????線性判別分析(LDA)設(shè)法將樣例投影到一條直線上席赂,使得同類樣例的投影點(diǎn)盡可能接近吮铭、異類樣例的投影點(diǎn)盡可能遠(yuǎn)離;在對新樣本進(jìn)行分類時(shí),將其投影到同樣的這條直線上颅停,再根據(jù)投影點(diǎn)的位置來確定新樣本的類別.
欲使同類樣例的投影點(diǎn)盡可能接近谓晌,可以讓同類樣例投影點(diǎn)的協(xié)方差盡可能小,而欲使異類樣例的投影點(diǎn)盡可能遠(yuǎn)離癞揉,可以讓類中心之間的距離盡可能大纸肉,同時(shí)考慮二者溺欧,則可得到欲最大化的目標(biāo)
如果定義了“類內(nèi)散度矩陣”以及“類間散度矩陣”則可重寫為:
如何確定:
3.4.2 將LDA推廣到多分類任務(wù)
假定存在個類,且第i類示例數(shù)為,定義“全局散度矩陣”
其中是所有示例的均值向量柏肪,將類內(nèi)散度矩陣重定義為每個類別的散度矩陣之和姐刁,即
其中
經(jīng)推理可得
實(shí)際運(yùn)用中三者中任何兩個即可烦味,另有一種常見的實(shí)現(xiàn)是采用優(yōu)化目標(biāo)
若將W 視為一個投影矩陣聂使,則多分類LDA 將樣本投影到N-1 維空間,N-1 通常遠(yuǎn)小子數(shù)據(jù)原有的屬性數(shù).于是谬俄,可通過這個投影來減小樣本點(diǎn)的維數(shù)柏靶,且投影過程中使用了類別信息?因此LDA也常被視為一種經(jīng)典的監(jiān)督降維技術(shù)。
3.5 多分類學(xué)習(xí)
多分類學(xué)習(xí)的基本思路是“拆解法”溃论,即將多分類任務(wù)拆解為若干個二分類任務(wù)求解屎蜓。
經(jīng)典的拆分策略:“一對一”(“OvO”)、“一對其余”(“OvR”)钥勋、“多對多”(“MvM”)
一對一(“OvO”):對給定N個類別的數(shù)據(jù)兩兩配對炬转,從而產(chǎn)生個二分類任務(wù),
一對其余(“OvR”):每次將一個類的樣例作為正例笔诵、所有其他類的樣例作為反例來訓(xùn)練N 個分類器.
OvR 只需訓(xùn)練N 個分類器返吻, 而OvO 需訓(xùn)練N(N - 1)/2 個分類器, 因此乎婿, OvO的存儲開銷和測試時(shí)間開銷通常比OvR 更大. 但在訓(xùn)練時(shí)测僵,OvR 的每個分類器均使用全部訓(xùn)練樣例,而OvO 的每個分類器僅用到兩個類的樣例谢翎,因此捍靠,在類別很多時(shí),OvO 的訓(xùn)練時(shí)間開銷通常比OvR 更小. 至于預(yù)測性能森逮, 則取決于具體的數(shù)據(jù)分布榨婆, 在多數(shù)情形下兩者差不多.
多對多(“MvM"):MvM 是每次將若干個類作為正類,若干個其他類作為反類.顯然褒侧, OvO 和OvR 是MvM 的特例. MvM 的正良风、反類構(gòu)造必須有特殊的設(shè)計(jì),不能隨意選取闷供。
3.6類別不平衡問題
類別不平衡(class-imbalance)就是指分類任務(wù)中不同類別的訓(xùn)練樣例數(shù)目差別很大的情況
類別不平衡學(xué)習(xí)的一個基本策略一"再縮放" (rescaling)烟央。(亦稱“再平衡”)