線性回歸試圖學得一個線性模型以盡可能準確地預(yù)測實值輸出標記.
線性模型的基本形式為f(x) = ω1 X 1 + ω2 X 2 十 ...+ωdXd + b? 各屬性的取值加權(quán)后的總和(一維补疑,某一屬性取值有序關(guān)系(可比較谨胞,如高度鸽疾,體積))
向量形式為f(x) = ωTx+b x為代表各屬性向量構(gòu)成的矩陣(二維及以上巫湘,某一屬性取值無序關(guān)系(不可比較忘蟹,如顏色))(描述某一屬性需要的數(shù)值不止一個,其加權(quán)值也由向量組構(gòu)成)
回歸學習
以訓練集的屬性值和標志值為x和y 通過最小二乘法(求解w和b使真實值和預(yù)測值的方差最小化的過程)(試圖 找到一條直線谒所,使所有樣本到直線上的歐氏距離之和最小.))確定線性回歸的參數(shù)荆永。
令模型預(yù)測值逼近y的衍生物lny得到對數(shù)線性回歸模型。假設(shè)我們 認為 示例所對應(yīng)的輸 出標記是在指數(shù)尺度上變化般渡,那就可將輸出標記的對數(shù)作為線性模型逼近的目 標懒豹。(如果屬性對示例的影響是使示例在指數(shù)尺度上變化,我們可以構(gòu)造一個逼近標記對數(shù)的線性模型)
分類學習
二分類學習
對數(shù)幾率回歸
將輸出標記的范圍確定在0到1之間驯用,用一個函數(shù)使預(yù)測值變成0到1之間的輸出標志脸秽。
若將 u 視為樣本 z 作為正例的可能性,則 1-y 是其反例可能性
由此可看出蝴乔,實際上是在用線性回歸模型的預(yù)測結(jié)果去逼近 真實標記的對數(shù)幾率记餐,因此,其對應(yīng)的模型稱為"對數(shù)幾率回歸"
將y視為類驗后概率估計薇正,可得到關(guān)于線性模型的等價表達式片酝,再用極大似然法變形表達式,最終得到最優(yōu)解
β= (ω; b)X = (x; 1) 挖腰, 則 wTx +b 可簡寫為 βTx
線性判別分析
分析連續(xù)自變量和類別因變量
給定訓練樣例 集雕沿,設(shè) 法找到一個投影矩陣將樣例投影到 一條直 線 上, 使得同類樣例的投影點盡可能接近猴仑、 異類樣例 的投影點盡可能遠離;在對新樣本進行分類時审轮,將其投影到 同樣的這條直線上,再根據(jù)投影點的位置來確定新 樣本的類別
J為類內(nèi)樣例投影點的協(xié)方差和異類樣例投影點的均值的比值辽俗,投影矩陣w使該比值最大時疾渣,可達到最優(yōu)分類。
解得
W 為分類器需要的投影矩陣
多分類學習
拆解法崖飘,即將多分類任務(wù)拆為若干個二分類任務(wù)求解.
為拆出的每個二分類任務(wù)訓練一個分類器;
關(guān)鍵是如何對多分 類任務(wù)進行拆分
OvO :對要分成的n個類別進行兩兩配對榴捡,從而產(chǎn)生n(n-1)/2個二分類任務(wù),每個任務(wù)擁有一個分類器朱浴,依次對一個新樣本進行分類吊圾,將最終得到的結(jié)果統(tǒng)計达椰,得到次數(shù)最多則為最終分類結(jié)果
OvR :對要分成的n個類別,每次劃分為一個類別 和 打包其余所有類別 兩個類別街夭,從而產(chǎn)生n個任務(wù)砰碴,預(yù)測結(jié)果表示為是正類和不是正類躏筏,若所有結(jié)果中只有一個是是正類板丽,則對應(yīng)的類別為最終分類結(jié)果。
OvO 兩個兩個判斷是哪個 分類任務(wù)是是兩類中的那一類
OvR 依次判斷是不是 分類任務(wù)是是這一類還是其他類
開銷:OvO由于測試時要進行的分類任務(wù)多 所以測試時間開銷大 趁尼,但訓練每個分類器僅用兩個樣例(OvR每次都要用到所有樣例)所以訓練時間開銷小
MvM 是每次將若干個類作為正類埃碱,若干個其他類作為反類.顯然, OvO 和 OvR 是 MvM 的特例. MvM 的正酥泞、反類構(gòu)造必須有特殊的設(shè)計砚殿,不能隨意選 取.
最常用的MvM 技術(shù):糾錯輸出碼(由于該編碼對分類器的錯誤有一定容忍和修正力而得名)
每個類別有各自的編碼 ,將所有分類任務(wù)的結(jié)果組成一個編碼芝囤,再與每個類別的編碼比較似炎,距離最小的類別為最終預(yù)測結(jié)果。
類別不平衡問題(數(shù)量不平衡)
如果正反例的訓練樣本差別很大悯姊,則如果學習器永遠將新樣本預(yù)測為樣本書數(shù)大的那一類羡藐,就能達到高精度,但只能預(yù)測一類的學習器沒有價值悯许。
即使原始問題中不同類別的訓練樣例數(shù)目相當 仆嗦,在使 用 OvR、 MvM策略后產(chǎn)生的二分類任務(wù)仍可能出現(xiàn)類別不平衡現(xiàn)象先壕。
解決類別不平衡問題的方法
1瘩扼、欠采樣(去除 一些反倒使得正、反例數(shù)日接近)代表性算法為利用集成學習機制垃僚,將反例劃分為若干個集合供不同的學習器使用集绰,這樣總體來看并沒有丟失重要信息。
2谆棺、過采樣(增加一些正例使得正栽燕、反例數(shù)目接近)代表性算法是通過對訓練集里的正例進行插值來產(chǎn)生額外的正例.
3、閾值移動 將再縮放嵌入到?jīng)Q策過程中
總結(jié)
基于線性模型的基本形式用最小二乘法估計參數(shù)
分類相比回歸更復(fù)雜包券,回歸只需用線性模型得到預(yù)測值纫谅,而分類還需得到確定的類別
分類方法有兩種
? 一種由回歸模型得到一定范圍(0-1)內(nèi)的輸出標志,用以憑借特定數(shù)值(0.5)分類
? 一種用一個投影矩陣投影得到一條直線上的兩個區(qū)域以分類
把普通線性模型變?yōu)楸平?b>對數(shù)幾率的線性模型溅固,就得到二分類的線性模型
線性判別分析可以進行二分類學習付秕,也可以進行多分類學習
多分類就是把分類任務(wù)變成多個二分類任務(wù),分別有一對一侍郭,一對多询吴,多對多三種方法
而這樣的分類方法存在類別不平衡問題掠河,可以通過過采樣欠采樣和閾值移動進行修正