線性模型
1.基本形式
給定由d個屬性描述的示例x=(x1;x2;x3....xd)陨瘩,其中xi是x的第i個屬性上的取值腕够,線性模型試圖學得一個通過屬性的線性組合來進行預測函數(shù),即f(x) = w1x1+w2x2+...wdxd+b,
例:西瓜問題中學的“f好瓜(x)=0.2*x色澤+0.5*x根蒂+0.3*x敲聲+1”舌劳,則意味著可通過綜合考慮色澤帚湘、根蒂和敲聲來判斷瓜好不好,其中根蒂最要緊甚淡,而敲聲比色澤更重要大诸。
2.線性回歸
我們先考慮一種最簡單的情形:輸入屬性的數(shù)目只有一個。對離散屬性,若屬性值間存在“序”關系底挫,可通過連續(xù)化將其轉化為連續(xù)值恒傻,例如二值屬性“身高”的取值“高”“矮”可轉化為{1.0,0.0},三值屬性“高度”的取值“高”“中”“低”可轉化為{1.0,0.5,0.0};若屬性值間不存在序關系,假定有個k個屬性值建邓,則通常轉化為k維向量盈厘,例如屬性“瓜類”的取值“西瓜”“南瓜”“黃瓜”可轉化為(0,0,1),(0,1,0),(1,0,0).
如何確定w和b呢?顯然在于如何衡量f(x)與y之間的差別官边。均方誤差是回歸任務中最常用的性能度量沸手,
均方誤差對應了常用的歐幾里得距離或簡稱“歐氏距離”注簿∑跫基于均方誤差最小化來進行模型求救的方法稱為“最小二乘法”。在線性回歸中诡渴,最小二乘法就是試圖找到一條直線捐晶,使所有樣本到直線上的歐氏距離之和最小。
3.對數(shù)幾率回歸
上一節(jié)討論如何使用線性模型進行回歸學習惑灵,但若要做的是分類任務該怎么辦?
答案蘊含在廣義性模型中:只需找一個單調可微函數(shù)將分類任務的真是標記y與線性回歸模型的預測聯(lián)系起來眼耀。
用線性回歸模型的預測結果區(qū)逼近真實標記的對數(shù)幾率英支,因此,其對應的模型稱為“對數(shù)幾率回歸”哮伟。它的名字是“回歸”干花,但實際卻是一種分類學習方法。這種方法的優(yōu)點楞黄,例如它是直接對分類可能性進行建模池凄,無需事先假設數(shù)據(jù)分布,這樣就避免了假設分布不準確所帶來的問題谅辣;它不是僅預測“類別”修赞,而是可得到近似概率預測,這對許多需利用概率輔助決策的任務很有用桑阶;此外柏副,對率函數(shù)是任何階可導的凸函數(shù),有很好的數(shù)學性質蚣录,現(xiàn)有的許多數(shù)值優(yōu)化算法都可直接用于求取最優(yōu)解割择。