3.1基本形式
線性模型形式簡單、易于建模雇庙,但卻蘊(yùn)涵著機(jī)器學(xué)習(xí)中一些重要的基本思想.許多功能更為強(qiáng)大的非線性模型( nonlinear model)可在線性模型的基礎(chǔ)上通過引入層級結(jié)構(gòu)或高維映射而得.此外披蕉,由于w直觀表達(dá)了各屬性在預(yù)測中的重要性悯周,因此線性模型有很好的可解釋性( comprehensibility).例如若在西瓜問題中學(xué)得“f好瓜(x)=0.2?x色澤+05?x根蒂+0.3?x敲聲+1”改含,則意味著可通過綜合考慮色澤绝页、根蒂和敲聲來判斷瓜好不好晃虫,其中根蒂最要緊皆撩,而敲聲比色澤更重要。
3.2線性回歸
給定數(shù)據(jù)集D,其中xi=(xi1;xi2;...xid),yi屬于R哲银】竿蹋“線性回歸”試圖學(xué)得一個線性模型以盡可能準(zhǔn)確地預(yù)測實(shí)值輸出標(biāo)記。
基于均方誤差最小化來進(jìn)行模型求解的方法稱為“最小二乘法”( least square method)荆责。在線性回歸中滥比,最小二乘法就是試圖找到一條直線,使所有樣本到直線上的歐氏距離之和最小做院。
現(xiàn)實(shí)任務(wù)中XTX往往不是滿秩矩陣盲泛,例如在許多任務(wù)中我們會遇到大量的變量濒持,其數(shù)目甚至超過樣例數(shù),導(dǎo)致X的列數(shù)多于行數(shù)寺滚,XTX顯然不滿秩柑营,此時可解出多個w預(yù)測值,它們都能使均方誤差最小化.選擇哪一個解作為輸出村视,將由學(xué)習(xí)算法的歸納偏好決定由境,常見的做法是引入正則化項。
3.3對數(shù)幾率回歸
考慮二分類任務(wù)蓖议,其輸出標(biāo)記y屬于{0,1}讥蟆,而線性回歸模型產(chǎn)生的預(yù)測值z=wTx+b是實(shí)值勒虾,于是我們需將實(shí)值z轉(zhuǎn)換為0/1值.最理想的是“單位階躍函數(shù)”(unit- step function)。
單位階躍函數(shù)不連續(xù)瘸彤,因此不能直接用作式(3.15)中的g-(.)修然。于是我們希望找到能在一定程度上近似單位階躍函數(shù)的“替代函數(shù)”,并希望它單調(diào)可微.對數(shù)幾率函數(shù)(ogsefunction)正是這樣一個常用的替代函數(shù)质况。
這種方法有很多優(yōu)點(diǎn)愕宋,例如它是直接對分類可能性進(jìn)行建模,無需事先假設(shè)數(shù)據(jù)分布结榄,這樣就避免了假設(shè)分布不準(zhǔn)確所帶來的問題:它不是僅預(yù)測出“類別”中贝,而是可得到近似概率預(yù)測,這對許多需利用概率輔助決策的任務(wù)很有用;此外臼朗,下面我們會看到邻寿,對率回歸求解的目標(biāo)函數(shù)是任意階可導(dǎo)的凸函數(shù),有很好的數(shù)學(xué)性質(zhì)视哑,現(xiàn)有的許多數(shù)值優(yōu)化算法都可直接用于求取最優(yōu)解绣否。
3.4線性判別分析
LDA的思想非常樸素:給定訓(xùn)練樣例集,設(shè)法將樣例投影到一條直線上使得同類樣例的投影點(diǎn)盡可能接近挡毅、異類樣例的投影點(diǎn)盡可能遠(yuǎn)離;在對新樣本進(jìn)行分類時蒜撮,將其投影到同樣的這條直線上,再根據(jù)投影點(diǎn)的位置來確定新樣本的類別跪呈。
3.5多分類學(xué)習(xí)
不失一般性段磨,考慮N個類別C1、C2耗绿、C3...CN薇溃,多分類學(xué)習(xí)的基本思路是拆解法,即將多分類任務(wù)拆為若干個二分類任務(wù)求解缭乘。先對問題進(jìn)行拆分沐序,然后為拆出的每個二分類任務(wù)訓(xùn)練一個分類器:在測試時琉用,對這些分類器的預(yù)測結(jié)果進(jìn)行集成以獲得最終的多分類結(jié)果。
OvR則是每次將一個類的樣例作為正例策幼、所有其他類的樣例作為反例來訓(xùn)練N個分類器邑时。
MvM是每次將若干個類作為正類,若干個其他類作為反類特姐。MvM的正晶丘、反類構(gòu)造必須有特殊的設(shè)計,不能隨意選取.這里我們介紹一種最常用的MvM技術(shù):“糾錯輸出碼”( Error Correcting Output Codes唐含,簡稱ECOC)
ECOC[ Dietterich and Bakir浅浮,1995]是將編碼的思想引入類別拆分,并盡可能在解碼過程中具有容錯性捷枯,ECOC工作過程主要分為兩步:
1.編碼:對N個類別做M次劃分滚秩,每次劃分將一部分類別劃為正類,一部分劃為反類淮捆,從而形成一個二分類訓(xùn)練集;這樣一共產(chǎn)生M個訓(xùn)練集郁油,可訓(xùn)練出M個分類器.
2.解碼:M個分類器分別對測試樣本進(jìn)行預(yù)測,這些預(yù)測標(biāo)記組成一個編碼.將這個預(yù)測編碼與每個類別各自的編碼進(jìn)行比較攀痊,返回其中距離最小的類別作為最終預(yù)測結(jié)果.
3.6類別不平衡問題
類別不平衡就是指分類任務(wù)中不同類別的訓(xùn)練例數(shù)目差別很大的情況主慰。