目錄
- 前言
- 概念回顧
- 生成式模型
- 判別式模型
- 線性判別函數(shù)
- Fisher線性判別分析
- 感知機(jī)法則
- 總結(jié)
前言
- 本筆記是筆者課程學(xué)習(xí)中所做筆記(絕對(duì)原創(chuàng)),轉(zhuǎn)載請(qǐng)聯(lián)系作者
- 有問(wèn)題歡迎在交流區(qū)探討學(xué)習(xí),QQ:761322725
- 碼字不易哩簿,好心人隨手點(diǎn)個(gè)贊??
- 前文包括貝葉斯決策,參數(shù)估計(jì)
概念回顧
-
模式分類的目的: 設(shè)法在特征空間中找到兩類/多類之間的分界面兽叮。
生成模型
- 隨機(jī)模式
- 從一定的概率模型出發(fā)累盗,把**模式識(shí)別問(wèn)題轉(zhuǎn)化成概率模型估
計(jì)問(wèn)題 **,如蟆淀,條件概率密度估計(jì) - 分類器設(shè)計(jì)實(shí)是對(duì)概率模型的估計(jì)拯啦。
- 又稱為基于(概率)模型的模式識(shí)別方法。
判別模型
- 確定性簡(jiǎn)單模式
- 從要解決的問(wèn)題和訓(xùn)練樣本出發(fā)熔任,直接求出判別函數(shù)褒链。
- 有些方法可事先確定判別函數(shù)的形式,通過(guò)訓(xùn)練樣本確定其中的參數(shù)疑苔。 如:SVM 甫匹,神經(jīng)網(wǎng)絡(luò)
- 也稱為基于數(shù)據(jù)的模式識(shí)別方法(或統(tǒng)計(jì)模式識(shí)別的幾何方法)
線性判別函數(shù)
基于樣本直接設(shè)計(jì)分類器的三個(gè)基本要素
- 確定分類器即判別函數(shù)的類型
- 確定分類器設(shè)計(jì)的目標(biāo)或準(zhǔn)則
- 設(shè)計(jì)算法利用樣本數(shù)據(jù)尋找最優(yōu)的函數(shù)參數(shù)
形式化定義:
在判別函數(shù)集中,確定待定參數(shù)
惦费,使得目標(biāo)函數(shù)
最小/大:
判別函數(shù)的定義
直接用來(lái)對(duì)樣本進(jìn)行分類判決的函數(shù)
若兩類樣本可以用一個(gè)方程來(lái)劃分兵迅,則
為判別函數(shù)/決策函數(shù)/判決函數(shù),
為決策面
一般形式
線性判別函數(shù)由輸入向量x的各分量的線性組合構(gòu)成
矩陣形式表示為:,
稱為偏置
如果將偏置項(xiàng)也整合到矩陣中的話薪贫,可以表示為:恍箭,稱為增廣表示形式
關(guān)于判別函數(shù)存在以下兩種情況
- 針對(duì)二分類問(wèn)題,即類別有2個(gè)
維的超平面把
維輸入空間中歸為
的點(diǎn)與歸為
的點(diǎn)分開(kāi)。
權(quán)向量的性質(zhì):和決策面正交臀突,確定了決策面的方向勉抓。
,有:
,
,
且
將X代入函數(shù)式中:
其中是
到?jīng)Q策面的垂直距離候学,
是
方向上的單位向量藕筋。
任一點(diǎn)到?jīng)Q策面的垂直距離維
原點(diǎn)到?jīng)Q策面的垂直距離為
-
多類問(wèn)題
給定c(c>2)個(gè)類別的樣本集合,三種劃分方式:
-
,轉(zhuǎn)化為c個(gè)兩分類問(wèn)題
-
梳码,c(c-1)/2個(gè)二元判別函數(shù)
- c類判別函數(shù)
廣義線性判別函數(shù)
線性判別函數(shù):加入更高次的項(xiàng)隐圾,得到多項(xiàng)式判別函數(shù):
將d維空間上的點(diǎn)映射到
維的y空間上的點(diǎn),
導(dǎo)致維度災(zāi)難:掰茶,即向高維空間映射暇藏,
相應(yīng)補(bǔ)救措施:強(qiáng)制加入大的 margin( 或訓(xùn)練樣本之間的“間隔 等措施,如支持向量機(jī)濒蒋。 這樣處理基于假設(shè) :映射到高維空間并不給數(shù)據(jù)附加任何錯(cuò)誤的結(jié)構(gòu)及相關(guān)性)
Fisher線性判別分析
1936年R.A.Fisher提出線性判別分析(Linear Discriminant Analysis,LDA),從降低維度的角度考察線性分類模型盐碱。
對(duì)于二分類問(wèn)題瓮顽,其思想是選擇投影方向县好,使投影后兩類相隔盡可能遠(yuǎn),而同時(shí)每一類內(nèi)部的樣本又盡可能聚集暖混。
在原樣本空間中(二分類)缕贡,兩類的類均值向量:
當(dāng)使用權(quán)重向量投影時(shí),
的最簡(jiǎn)單度量方式是
,最大化該距離即可
表示投影后的類均值向量拣播,
均值投影的問(wèn)題在于沒(méi)有考慮類內(nèi)的數(shù)據(jù)離散度
Fisher提出:通過(guò)最大化一個(gè)函數(shù)晾咪,使投影后的類間分離性最大,同時(shí)又能使每類的類內(nèi)分離性較小贮配。
投影后的類內(nèi)離散度(使用方差表示)如下:
類內(nèi)的總離散度是
將公式轉(zhuǎn)換成為原空間的表示
表示原空間類間離散度矩陣
表示原空間類內(nèi)離散度矩陣
對(duì)于準(zhǔn)則函數(shù)求其最大值,對(duì)W求導(dǎo)并令其等于0:
若
練習(xí)
利用Fisher判別解決二分類感知機(jī)算法
Rosenblatt于1962年提出牧嫉,是一個(gè)二分類的線性模型剂跟,輸入特征向量X,輸出類別[t],分別為+1和-1
非線性激活函數(shù)f():
w 的線性函數(shù)酣藻,而對(duì)于正確分類的樣本曹洽,誤差函數(shù)等于零。總的誤差函數(shù)是分段線性的辽剧。
對(duì)于該誤差函數(shù)使用隨機(jī)梯度下降法進(jìn)行迭代更新:權(quán)向量的迭代公式為:
感知機(jī)準(zhǔn)則總結(jié)
- 優(yōu)點(diǎn):簡(jiǎn)單送淆、便于實(shí)現(xiàn)
- 缺點(diǎn):結(jié)果不唯一,在線性不可分的情況下不收斂
然而感知機(jī)算法是神經(jīng)網(wǎng)絡(luò)怕轿,深度學(xué)習(xí)發(fā)展的基礎(chǔ)偷崩。
總結(jié)
本篇筆記記錄了線性分類器的基本知識(shí),主要介紹了Fisher和感知機(jī)法則撞羽,兩個(gè)算法思路簡(jiǎn)單清晰阐斜,實(shí)現(xiàn)起來(lái)也比較容易,是后續(xù)復(fù)雜算法的基礎(chǔ)诀紊。對(duì)于線性判別函數(shù)谒出,需要掌握其基本的形式和構(gòu)建思想即可。