- 本文首發(fā)自公眾號(hào):RAIS骤菠,點(diǎn)擊直接關(guān)注。
前言
本系列文章為 《Deep Learning》 讀書(shū)筆記己沛,可以參看原書(shū)一起閱讀,效果更佳距境。由于各平臺(tái) Markdown 解析差異申尼,有些公式顯示效果不好,請(qǐng)到我 個(gè)人維護(hù)網(wǎng)站 查看垫桂。
監(jiān)督學(xué)習(xí)算法
監(jiān)督學(xué)習(xí)算法的定義是师幕,給定一組輸入 x 和輸出 y,學(xué)習(xí)如何將其關(guān)聯(lián)起來(lái)诬滩,現(xiàn)在的大部分情況都是監(jiān)督學(xué)習(xí)算法的范疇霹粥。
邏輯回歸
很多的監(jiān)督學(xué)習(xí)算法是基于估計(jì)概率分 布P(y|x) 的,假設(shè)參數(shù)服從高斯分布疼鸟,我們可以使用最大似然估計(jì)找到對(duì)于有參分布族 P(y|x;θ) 最好的參數(shù)向量 θ后控,即用最大似然估計(jì)得到目標(biāo)函數(shù),優(yōu)化這個(gè)目標(biāo)函數(shù)空镜。線性回歸對(duì)應(yīng)于高斯分布分布族浩淘,通過(guò)定義一族不同的概率分布,可將線性回歸擴(kuò)展到分類情況中吴攒。
具體的做法就是將線性函數(shù)的輸出使用 sigmoid 函數(shù)(就是前文說(shuō)的那個(gè)樣子像 S 型)將其壓縮到 (0, 1) 空間內(nèi)张抄,這就叫做邏輯回歸。注意這個(gè)邏輯回歸不是回歸洼怔,而是用來(lái)解決分類問(wèn)題署惯。當(dāng)然,線性回歸也可以推廣為 Softmax 回歸镣隶,不是這里的重點(diǎn)极谊。
支持向量機(jī)
支持向量機(jī)是監(jiān)督學(xué)習(xí)中關(guān)于分類與回歸問(wèn)題中重要的算法诡右。與邏輯回歸類似,這個(gè)模型也是基于線性函數(shù)的怀酷,不過(guò)輸出有所不同稻爬,不輸出概率,而是輸出類別蜕依,為正正類桅锄,為負(fù)負(fù)類。
核技巧样眠,其實(shí)這是一個(gè)數(shù)學(xué)上的概念友瘤,用來(lái)增加維度區(qū)分不同數(shù)據(jù),如下圖檐束,區(qū)分下圖中左側(cè)的四個(gè)點(diǎn)辫秧,用的方法是增加一個(gè)維度,然后用平面分割被丧,這與用一條曲線去分割沒(méi)什么本質(zhì)的區(qū)別盟戏,來(lái)自 視頻:
上面這樣做也會(huì)有一個(gè)問(wèn)題,在數(shù)據(jù)量大且維數(shù)很多的情況下甥桂,會(huì)導(dǎo)致計(jì)算量急劇增大柿究,這不好。核函數(shù)就是用來(lái)解決這個(gè)問(wèn)題的黄选,核函數(shù)只是用來(lái)計(jì)算映射到高維空間之后的內(nèi)積的一種簡(jiǎn)便方法蝇摸,隱含著也從低緯到高維的映射,但其計(jì)算量可控办陷,降低計(jì)算的復(fù)雜度貌夕,甚至把不可能的計(jì)算變?yōu)榭赡埽梢詫⒌途暱臻g內(nèi)線性不可分的兩類點(diǎn)變成線性可分的民镜。
機(jī)器學(xué)習(xí)中最常用的核函數(shù)是高斯核(也稱徑向基函數(shù))啡专,N(x;μ,∑) 是標(biāo)準(zhǔn)正態(tài)分布,能夠把原始特征映射到無(wú)窮維殃恒,能夠比較 u 和 v 的相似度植旧,映射到 0 和 1:
其他監(jiān)督學(xué)習(xí)算法
臨近回歸:前面介紹過(guò)最近臨近回歸,這也是一種非概率監(jiān)督學(xué)習(xí)算法离唐。K-最近鄰回歸是一種可以用于分類或回歸的算法病附,K-最近鄰算法就是從訓(xùn)練集(根本就沒(méi)訓(xùn)練,感覺(jué)叫訓(xùn)練集都不太準(zhǔn)確亥鬓,應(yīng)該叫樣本集)中找到與測(cè)試輸入的點(diǎn)最近的 K 個(gè)點(diǎn)完沪,然后采用少數(shù)服從多數(shù)的思想,誰(shuí)多就聽(tīng)誰(shuí)的(分類),或者求平均(回歸)覆积,但是這在 K 取值不同的時(shí)候听皿,得到的結(jié)果可能不同,因此 K 的選擇是比較重要的宽档。這個(gè)方法的特點(diǎn)是訓(xùn)練集可以趨近于無(wú)窮大尉姨,在比較好的情況下回收斂到貝葉斯錯(cuò)誤率。這個(gè)方法需要訓(xùn)練集較大吗冤,訓(xùn)練集較少的情況下泛化程度不夠好又厉;且其由于幾乎沒(méi)有訓(xùn)練的過(guò)程,因此也不能學(xué)習(xí)出特征中哪些是更有識(shí)別力的椎瘟,無(wú)法找到關(guān)鍵屬性覆致。
決策樹(shù):決策樹(shù)會(huì)將輸入空間分成不重疊的子區(qū)域,葉節(jié)點(diǎn)和輸出區(qū)域一一對(duì)應(yīng)肺蔚。構(gòu)建決策樹(shù)前需要根據(jù)信息增益的方法進(jìn)行特征選擇煌妈,然后生成決策樹(shù),為防止過(guò)擬合可能還需要進(jìn)行剪枝宣羊。
總結(jié)
本文介紹了幾種最常見(jiàn)的監(jiān)督學(xué)習(xí)算法璧诵。
- 本文首發(fā)自公眾號(hào):RAIS,點(diǎn)擊直接關(guān)注仇冯。