機器學習第三章線性模型學習筆記

線性回歸試圖學得一個線性模型以盡可能準確地預(yù)測實值輸出標記.

線性模型的基本形式為f(x) = ω1 X 1 + ω2 X 2 十 ...+ωdXd + b? 各屬性的取值加權(quán)后的總和(一維补疑,某一屬性取值有序關(guān)系(可比較谨胞,如高度鸽疾,體積))

向量形式為f(x) = ωTx+b x為代表各屬性向量構(gòu)成的矩陣(二維及以上巫湘,某一屬性取值無序關(guān)系(不可比較忘蟹,如顏色))(描述某一屬性需要的數(shù)值不止一個,其加權(quán)值也由向量組構(gòu)成)

回歸學習

以訓練集的屬性值和標志值為x和y 通過最小二乘法(求解w和b使真實值和預(yù)測值的方差最小化的過程)(試圖 找到一條直線谒所,使所有樣本到直線上的歐氏距離之和最小.))確定線性回歸的參數(shù)荆永。

令模型預(yù)測值逼近y的衍生物lny得到對數(shù)線性回歸模型。假設(shè)我們 認為 示例所對應(yīng)的輸 出標記是在指數(shù)尺度上變化般渡,那就可將輸出標記的對數(shù)作為線性模型逼近的目 標懒豹。(如果屬性對示例的影響是使示例在指數(shù)尺度上變化,我們可以構(gòu)造一個逼近標記對數(shù)的線性模型)

分類學習

二分類學習

對數(shù)幾率回歸

將輸出標記的范圍確定在0到1之間驯用,用一個函數(shù)使預(yù)測值變成0到1之間的輸出標志脸秽。


圖片發(fā)自簡書App



圖片發(fā)自簡書App

若將 u 視為樣本 z 作為正例的可能性,則 1-y 是其反例可能性

由此可看出蝴乔,實際上是在用線性回歸模型的預(yù)測結(jié)果去逼近 真實標記的對數(shù)幾率记餐,因此,其對應(yīng)的模型稱為"對數(shù)幾率回歸"

將y視為類驗后概率估計薇正,可得到關(guān)于線性模型的等價表達式片酝,再用極大似然法變形表達式,最終得到最優(yōu)解


圖片發(fā)自簡書App


β= (ω; b)X = (x; 1) 挖腰, 則 wTx +b 可簡寫為 βTx

線性判別分析

分析連續(xù)自變量和類別因變量

給定訓練樣例 集雕沿,設(shè) 法找到一個投影矩陣將樣例投影到 一條直 線 上, 使得同類樣例的投影點盡可能接近猴仑、 異類樣例 的投影點盡可能遠離;在對新樣本進行分類時审轮,將其投影到 同樣的這條直線上,再根據(jù)投影點的位置來確定新 樣本的類別


圖片發(fā)自簡書App



J為類內(nèi)樣例投影點的協(xié)方差異類樣例投影點的均值的比值辽俗,投影矩陣w使該比值最大時疾渣,可達到最優(yōu)分類。

解得

圖片發(fā)自簡書App

W 為分類器需要的投影矩陣

多分類學習

拆解法崖飘,即將多分類任務(wù)拆為若干個二分類任務(wù)求解.

為拆出的每個二分類任務(wù)訓練一個分類器;

關(guān)鍵是如何對多分 類任務(wù)進行拆分

OvO :對要分成的n個類別進行兩兩配對榴捡,從而產(chǎn)生n(n-1)/2個二分類任務(wù),每個任務(wù)擁有一個分類器朱浴,依次對一個新樣本進行分類吊圾,將最終得到的結(jié)果統(tǒng)計达椰,得到次數(shù)最多則為最終分類結(jié)果

OvR :對要分成的n個類別,每次劃分為一個類別 和 打包其余所有類別 兩個類別街夭,從而產(chǎn)生n個任務(wù)砰碴,預(yù)測結(jié)果表示為是正類和不是正類躏筏,若所有結(jié)果中只有一個是是正類板丽,則對應(yīng)的類別為最終分類結(jié)果。

OvO 兩個兩個判斷是哪個 分類任務(wù)是是兩類中的那一類

OvR 依次判斷是不是 分類任務(wù)是是這一類還是其他類

圖片發(fā)自簡書App

開銷:OvO由于測試時要進行的分類任務(wù)多 所以測試時間開銷大 趁尼,但訓練每個分類器僅用兩個樣例(OvR每次都要用到所有樣例)所以訓練時間開銷小

MvM 是每次將若干個類作為正類埃碱,若干個其他類作為反類.顯然, OvO 和 OvR 是 MvM 的特例. MvM 的正酥泞、反類構(gòu)造必須有特殊的設(shè)計砚殿,不能隨意選 取.

最常用的MvM 技術(shù):糾錯輸出碼(由于該編碼對分類器的錯誤有一定容忍和修正力而得名)

圖片發(fā)自簡書App


每個類別有各自的編碼 ,將所有分類任務(wù)的結(jié)果組成一個編碼芝囤,再與每個類別的編碼比較似炎,距離最小的類別為最終預(yù)測結(jié)果。

類別不平衡問題(數(shù)量不平衡)

如果正反例的訓練樣本差別很大悯姊,則如果學習器永遠將新樣本預(yù)測為樣本書數(shù)大的那一類羡藐,就能達到高精度,但只能預(yù)測一類的學習器沒有價值悯许。

即使原始問題中不同類別的訓練樣例數(shù)目相當 仆嗦,在使 用 OvR、 MvM策略后產(chǎn)生的二分類任務(wù)仍可能出現(xiàn)類別不平衡現(xiàn)象先壕。

解決類別不平衡問題的方法

1瘩扼、欠采樣(去除 一些反倒使得正、反例數(shù)日接近)代表性算法為利用集成學習機制垃僚,將反例劃分為若干個集合供不同的學習器使用集绰,這樣總體來看并沒有丟失重要信息。

2谆棺、過采樣(增加一些正例使得正栽燕、反例數(shù)目接近)代表性算法是通過對訓練集里的正例進行插值來產(chǎn)生額外的正例.

3、閾值移動 將再縮放嵌入到?jīng)Q策過程中

總結(jié)

基于線性模型的基本形式用最小二乘法估計參數(shù)

分類相比回歸更復(fù)雜包券,回歸只需用線性模型得到預(yù)測值纫谅,而分類還需得到確定的類別

分類方法有兩種

? 一種由回歸模型得到一定范圍(0-1)內(nèi)的輸出標志,用以憑借特定數(shù)值(0.5)分類

? 一種用一個投影矩陣投影得到一條直線上的兩個區(qū)域以分類

把普通線性模型變?yōu)楸平?b>對數(shù)幾率的線性模型溅固,就得到二分類的線性模型

線性判別分析可以進行二分類學習付秕,也可以進行多分類學習

多分類就是把分類任務(wù)變成多個二分類任務(wù),分別有一對一侍郭,一對多询吴,多對多三種方法

而這樣的分類方法存在類別不平衡問題掠河,可以通過過采樣欠采樣和閾值移動進行修正

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市猛计,隨后出現(xiàn)的幾起案子唠摹,更是在濱河造成了極大的恐慌,老刑警劉巖奉瘤,帶你破解...
    沈念sama閱讀 211,423評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件勾拉,死亡現(xiàn)場離奇詭異,居然都是意外死亡盗温,警方通過查閱死者的電腦和手機藕赞,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,147評論 2 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來卖局,“玉大人斧蜕,你說我怎么就攤上這事⊙馀迹” “怎么了批销?”我有些...
    開封第一講書人閱讀 157,019評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長染坯。 經(jīng)常有香客問我均芽,道長,這世上最難降的妖魔是什么酒请? 我笑而不...
    開封第一講書人閱讀 56,443評論 1 283
  • 正文 為了忘掉前任骡技,我火速辦了婚禮,結(jié)果婚禮上羞反,老公的妹妹穿的比我還像新娘布朦。我一直安慰自己,他們只是感情好昼窗,可當我...
    茶點故事閱讀 65,535評論 6 385
  • 文/花漫 我一把揭開白布是趴。 她就那樣靜靜地躺著,像睡著了一般澄惊。 火紅的嫁衣襯著肌膚如雪唆途。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,798評論 1 290
  • 那天掸驱,我揣著相機與錄音肛搬,去河邊找鬼。 笑死毕贼,一個胖子當著我的面吹牛温赔,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播鬼癣,決...
    沈念sama閱讀 38,941評論 3 407
  • 文/蒼蘭香墨 我猛地睜開眼陶贼,長吁一口氣:“原來是場噩夢啊……” “哼啤贩!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起拜秧,我...
    開封第一講書人閱讀 37,704評論 0 266
  • 序言:老撾萬榮一對情侶失蹤痹屹,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后枉氮,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體志衍,經(jīng)...
    沈念sama閱讀 44,152評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,494評論 2 327
  • 正文 我和宋清朗相戀三年嘲恍,在試婚紗的時候發(fā)現(xiàn)自己被綠了足画。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片雄驹。...
    茶點故事閱讀 38,629評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡佃牛,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出医舆,到底是詐尸還是另有隱情俘侠,我是刑警寧澤,帶...
    沈念sama閱讀 34,295評論 4 329
  • 正文 年R本政府宣布蔬将,位于F島的核電站爷速,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏霞怀。R本人自食惡果不足惜惫东,卻給世界環(huán)境...
    茶點故事閱讀 39,901評論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望毙石。 院中可真熱鬧廉沮,春花似錦、人聲如沸徐矩。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,742評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽滤灯。三九已至坪稽,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間鳞骤,已是汗流浹背窒百。 一陣腳步聲響...
    開封第一講書人閱讀 31,978評論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留豫尽,地道東北人篙梢。 一個月前我還...
    沈念sama閱讀 46,333評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像拂募,于是被迫代替她去往敵國和親庭猩。 傳聞我的和親對象是個殘疾皇子窟她,可洞房花燭夜當晚...
    茶點故事閱讀 43,499評論 2 348

推薦閱讀更多精彩內(nèi)容