線性判別分析原理及實(shí)現(xiàn)(Linear Discriminant Analysis)

項(xiàng)目地址:https://github.com/Daya-Jin/ML_for_learner/blob/master/discriminant_analysis/LinearDiscriminantAnalysis.ipynb
原博客:https://daya-jin.github.io/2018/12/05/LinearDiscriminantAnalysis/

LDA

單變量二分類

假設(shè)現(xiàn)在有一個(gè)單變量二分類問(wèn)題询件,并且標(biāo)簽服從二項(xiàng)分布拿撩,特征條件概率服從等方差的高斯分布:

P(y=1)=\phi \\ P(y=0)=1-\phi \\ P(x|y=1)=\frac{1}{\sqrt{2\pi}\sigma}exp[-\frac{(x-\mu_{1})^{2}}{2\sigma^{2}}] \\ P(x|y=0)=\frac{1}{\sqrt{2\pi}\sigma}exp[-\frac{(x-\mu_{0})^{2}}{2\sigma^{2}}] \\

那么在給定樣本的條件下剩愧,這兩個(gè)類別發(fā)生的條件概率分別為:

P(y=1|x)=\frac{P(y=1)P(x|y=1)}{P(y=0)P(x|y=0)+P(y=1)P(x|y=1)} \\ P(y=0|x)=\frac{P(y=0)P(x|y=0)}{P(y=0)P(x|y=0)+P(y=1)P(x|y=1)} \\

兩者之間的對(duì)數(shù)幾率可以寫成:

\begin{aligned} \log\frac{P(y=1|x)}{P(y=0|x)}&=\log\frac{P(y=1)}{P(y=0)}+\log\frac{P(x|y=1)}{P(x|y=0)} \\ &=\log\frac{\phi}{1-\phi}+\log\frac{exp[-\frac{(x-\mu_{1})^{2}}{2\sigma^{2}}]}{exp[-\frac{(x-\mu_{0})^{2}}{2\sigma^{2}}]} \\ &=\log\frac{\phi}{1-\phi}-\frac{(x-\mu_{1})^{2}}{2\sigma^{2}}+\frac{(x-\mu_{0})^{2}}{2\sigma^{2}} \\ &=\frac{\mu_{1}-\mu_{0}}{\sigma^{2}}{\cdot}x-\frac{\mu_{1}^{2}-\mu_{0}^{2}}{2\sigma^{2}}+\log\frac{\phi}{1-\phi} \end{aligned}

由上式可以得到,LDA對(duì)于某一樣本的線性判別函數(shù)可寫成:

\delta_{1}(x)=\frac{\mu_{1}}{\sigma^{2}}{\cdot}x-\frac{\mu_{1}^{2}}{2\sigma^{2}}+\log{\phi} \\ \delta_{0}(x)=\frac{\mu_{0}}{\sigma^{2}}{\cdot}x-\frac{\mu_{0}^{2}}{2\sigma^{2}}+\log{(1-\phi)} \\

單變量多分類

不難得到恐锣,對(duì)于多分類問(wèn)題,LDA模型的預(yù)測(cè)輸出為:

\begin{align*} f(x)&=\arg\max\limits_{k}\delta_{k}(x) \\ &=\arg\max\limits_{k} \ \frac{\mu_{k}}{\sigma^{2}}{\cdot}x-\frac{\mu_{k}^{2}}{2\sigma^{2}}+{\log}p_{k} \end{align*}

其中p_{k}為類分布概率舞痰。

多變量多分類

更一般的土榴,討論多變量的情況下,假如數(shù)據(jù)Xp個(gè)特征响牛,在y=k的條件下玷禽,引入?yún)f(xié)方差矩陣赫段,特征條件概率可以寫成:

P(x|y=k)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}exp(-\frac{1}{2}(x-\mu_{k})^{T}\Sigma^{-1}(x-\mu_{k}))

線性判別函數(shù)為:

\delta_{k}(x)=x^{T}\Sigma^{-1}\mu_{k}-\frac{1}{2}\mu_{k}^{T}\Sigma^{-1}\mu_{k}+{\log}p_{k}

LDA模型的預(yù)測(cè)輸出為:

\begin{aligned} f(x)&=\arg\max\limits_{k}\delta_{k}(x) \\ \end{aligned}

其中各參數(shù)均由觀測(cè)數(shù)據(jù)估計(jì)得到:

  • \hat{p}_{k}=\frac{N_{k}}{N}N_{k}為某個(gè)類別的樣本數(shù)矢赁,N為總樣本數(shù)
  • \hat{\mu}_{k}=\frac{1}{N_{k}}\sum_{x{\in}C_{k}}x_{i}糯笙,C_{k}表示第k個(gè)類別的樣本集合
  • \hat{\Sigma}=\frac{1}{N-K}\sum_{k=1}^{K}\sum_{x{\in}C_{k}}(x_{i}-\hat{\mu}_{k})(x_{i}-\hat{\mu}_{k})^{T}K表示類別數(shù)

所以可以看出LDA就是一個(gè)簡(jiǎn)單的貝葉斯模型撩银,并沒(méi)有用到最大似然策略给涕。

QDA

LDA模型有一個(gè)前提假設(shè):數(shù)據(jù)的特征條件概率服從均值不等、方差相等的高斯分布额获,如果真實(shí)情況下方差不等呢稠炬?下圖展示了方差相等于方差不等的情況:

20180110232856285205.png

同理,可以得到QDA(quadratic discriminant analysis)的判別函數(shù):

\delta_{k}(x)=-\frac{1}{2}\log|\Sigma_{k}|-\frac{1}{2}(x-\mu_{k})^{T}\Sigma_{k}^{-1}(x-\mu_{k})+{\log}p_{k}

QDA模型的預(yù)測(cè)輸出為:

\begin{aligned} f(x)&=\arg\max\limits_{k}\delta_{k}(x) \\ \end{aligned}

其中各參數(shù)均由觀測(cè)數(shù)據(jù)估計(jì)得到:

  • \hat{p}_{k}=\frac{N_{k}}{N}咪啡,N_{k}為某個(gè)類別的樣本數(shù)首启,N為總樣本數(shù)
  • \hat{\mu}_{k}=\frac{1}{N_{k}}\sum_{x{\in}C_{k}}x_{i}C_{k}表示第k個(gè)類別的樣本集合
  • \hat{\Sigma}_{k}=\frac{1}{N_{k}-1}\sum_{x{\in}C_{k}}(x_{i}-\hat{\mu}_{k})(x_{i}-\hat{\mu}_{k})^{T}.

Fisher角度解析LDA

待補(bǔ)充撤摸,這部分沒(méi)太理解

LDA用于降維

對(duì)于K個(gè)類別的數(shù)據(jù)毅桃,假定“物以類聚”的條件成立,那么對(duì)于K個(gè)中心准夷,在不影響分類器性能的條件下钥飞,我們至少可以將其映射到一個(gè)K-1維的空間。如對(duì)于兩個(gè)聚類中心衫嵌,我們可以將其映射到一條直線上并且還能將其分開读宙,對(duì)于K>3的情況,可以找到一個(gè)L<K-1維的映射空間楔绞。所以LDA算法還有一個(gè)用途就是作為有監(jiān)督的降維算法结闸,其核心思想在于將原數(shù)據(jù)映射到一個(gè)新空間,使得在新空間中各類的均值差盡量大酒朵,而每個(gè)類內(nèi)部的方差盡量小桦锄,那么在二分類的情況下很容易給出一個(gè)直觀的優(yōu)化目標(biāo):

\max \frac{(\mu_{1}-\mu_{2})^{2}}{\sigma_{1}^2+\sigma_{2}^{2}}

為了將概念拓展到高維空間,首先給出幾個(gè)概念:

  • 類間(between-class)散度矩陣:S_蔫耽=\sum\limits_{i=k}^{K}N_{k}(\mu_{k}-\mu)(\mu_{k}-\mu)^{T}结耀,其中\mu_{k}為類均值,\mu為數(shù)據(jù)均值
  • 類內(nèi)(within-class)散度矩陣:S_{w}=\sum\limits_{k}^{K}\sum\limits_{x_{i}{\in}C_{k}}(x_{i}-\mu_{k})(x_{i}-\mu_{k})^{T}

在Fisher提出的方法中匙铡,降維過(guò)程可以寫成:

Z=a^{T}X

其中a為映射矩陣图甜,X為原數(shù)據(jù)。那么低維數(shù)據(jù)的類間方差為a^{T}S_鳖眼a黑毅,類內(nèi)方差為a^{T}S_{w}a,降維的優(yōu)化目標(biāo)就等同于最大化一個(gè)瑞利熵:

\max\limits_{a}\frac{a^{T}S_具帮a}{a^{T}S_{w}a}

該優(yōu)化問(wèn)題還等價(jià)于:

\max\limits_{a}a^{T}S_博肋a \qquad s.t. \ a^{T}S_{w}a=K

使用拉格朗日數(shù)乘法解上述問(wèn)題:

L(a)=a^{T}S_低斋a-\lambda(a^{T}S_{w}a-K) \\ \frac{\partial{L(a)}}{\partial{a}}=2S_a-2{\lambda}S_{w}a=0 \\ S_匪凡a={\lambda}S_{w}a \\

假設(shè)S_{w}可逆:

S_{w}^{-1}S_膊畴a-{\lambda}a=0 \\ (S_{w}^{-1}S_-{\lambda}I)a=0 \\

可以看到這就是一個(gè)特征值問(wèn)題病游。

實(shí)現(xiàn)指導(dǎo)

完整代碼

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末唇跨,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子衬衬,更是在濱河造成了極大的恐慌买猖,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,941評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件滋尉,死亡現(xiàn)場(chǎng)離奇詭異玉控,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)狮惜,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門高诺,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人碾篡,你說(shuō)我怎么就攤上這事虱而。” “怎么了开泽?”我有些...
    開封第一講書人閱讀 165,345評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵牡拇,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我穆律,道長(zhǎng)惠呼,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,851評(píng)論 1 295
  • 正文 為了忘掉前任众旗,我火速辦了婚禮罢杉,結(jié)果婚禮上趟畏,老公的妹妹穿的比我還像新娘贡歧。我一直安慰自己,他們只是感情好赋秀,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,868評(píng)論 6 392
  • 文/花漫 我一把揭開白布利朵。 她就那樣靜靜地躺著,像睡著了一般猎莲。 火紅的嫁衣襯著肌膚如雪绍弟。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,688評(píng)論 1 305
  • 那天著洼,我揣著相機(jī)與錄音樟遣,去河邊找鬼而叼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛豹悬,可吹牛的內(nèi)容都是我干的葵陵。 我是一名探鬼主播,決...
    沈念sama閱讀 40,414評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼瞻佛,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼脱篙!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起伤柄,我...
    開封第一講書人閱讀 39,319評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤绊困,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后适刀,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體秤朗,經(jīng)...
    沈念sama閱讀 45,775評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評(píng)論 3 336
  • 正文 我和宋清朗相戀三年笔喉,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了川梅。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,096評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡然遏,死狀恐怖贫途,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情待侵,我是刑警寧澤丢早,帶...
    沈念sama閱讀 35,789評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站秧倾,受9級(jí)特大地震影響怨酝,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜那先,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,437評(píng)論 3 331
  • 文/蒙蒙 一农猬、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧售淡,春花似錦斤葱、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至汤纸,卻和暖如春衩茸,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背贮泞。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評(píng)論 1 271
  • 我被黑心中介騙來(lái)泰國(guó)打工楞慈, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留幔烛,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,308評(píng)論 3 372
  • 正文 我出身青樓囊蓝,卻偏偏與公主長(zhǎng)得像说贝,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子慎颗,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,037評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容