【Scikit-Learn 中文文檔】線性和二次判別分析 - 監(jiān)督學(xué)習(xí) - 用戶指南 | ApacheCN

中文文檔:http://sklearn.apachecn.org/cn/0.19.0/tutorial/basic/tutorial.html

英文文檔:http://sklearn.apachecn.org/en/0.19.0/tutorial/basic/tutorial.html

官方文檔:http://scikit-learn.org/0.19/

GitHub:https://github.com/apachecn/scikit-learn-doc-zh(覺得不錯(cuò)麻煩給個(gè) Star聪轿,我們一直在努力)

貢獻(xiàn)者:https://github.com/apachecn/scikit-learn-doc-zh#貢獻(xiàn)者

1.2. 線性和二次判別分析

Linear Discriminant Analysis(線性判別分析)(discriminant_analysis.LinearDiscriminantAnalysis) 和 Quadratic Discriminant Analysis (二次判別分析)(discriminant_analysis.QuadraticDiscriminantAnalysis) 是兩個(gè)經(jīng)典的分類器耘斩。 正如他們名字所描述的那樣,他們分別代表了線性決策平面和二次決策平面碗短。

這些分類器十分具有魅力,因?yàn)樗麄兛梢院苋菀子?jì)算得到閉式解冬念,其天生的多分類特性你辣,在實(shí)踐中已經(jīng)證明很有效馅巷,并且不需要再次調(diào)參。

以上這些圖像展示了 Linear Discriminant Analysis (線性判別分析)以及 Quadratic Discriminant Analysis (二次判別分析)的決策邊界格粪。其中躏吊,最底行闡述了線性判別分析只能學(xué)習(xí)線性邊界, 而二次判別分析則可以學(xué)習(xí)二次函數(shù)的邊界帐萎,因此它相對(duì)而言更加靈活比伏。

示例:

Linear and Quadratic Discriminant Analysis with covariance ellipsoid: LDA和QDA在特定數(shù)據(jù)上的對(duì)比

1.2.1. 使用線性判別分析來(lái)降維

discriminant_analysis.LinearDiscriminantAnalysis可以通過(guò)給予包含了最大化不同類別間距的方向的線性子空間(subspace)投放輸入數(shù)據(jù), 從而用來(lái)執(zhí)行監(jiān)督下的降維吓肋。輸出的維度必然會(huì)比原來(lái)的類別數(shù)量更少的凳怨。因此它是總體而言十分強(qiáng)大的降維方式,同樣也僅僅在多分類環(huán)境下才會(huì)起作用是鬼。

實(shí)現(xiàn)方式在discriminant_analysis.LinearDiscriminantAnalysis.transform中.關(guān)于維度的數(shù)量可以通過(guò)n_components參數(shù)來(lái)調(diào)節(jié) . 值得注意的是肤舞,這個(gè)參數(shù)不會(huì)對(duì)discriminant_analysis.LinearDiscriminantAnalysis.fit或者discriminant_analysis.LinearDiscriminantAnalysis.predict產(chǎn)生影響.

示例:

Comparison of LDA and PCA 2D projection of Iris dataset: 在 Iris 數(shù)據(jù)集對(duì)比 LDA 和 PCA 之間的降維差異

1.2.2. LDA 和 QDA 分類器的數(shù)學(xué)公式

LDA 和 QDA 都是源于簡(jiǎn)單的概率模型,這些模型對(duì)于每一個(gè)類別

的相關(guān)分布

都可以通過(guò)貝葉斯定理所獲得均蜜。

并且我們選擇能夠最大化條件概率的類別

.

更詳細(xì)地李剖,對(duì)于線性以及二次判別分析,

被塑造成一個(gè)多變量的高斯分布密度:

為了使用該模型作為分類器使用囤耳,我們需要通過(guò)訓(xùn)練集數(shù)據(jù)預(yù)測(cè)更重要的類別

(通過(guò)每個(gè)類

的實(shí)例的概率預(yù)測(cè)) 類別均值

(用經(jīng)驗(yàn)的樣本類別均值)以及協(xié)方差矩陣(過(guò)用經(jīng)驗(yàn)的樣本類別協(xié)方差或者正則化的估計(jì)器estimator: 見下面的 shrinkage章節(jié)).

在 LDA 中篙顺,每個(gè)類別

的高斯分布共享相同的協(xié)方差矩陣:

for all

〕湓瘢可以帶來(lái)線性的 決策平面, 正如所見, 通過(guò)比較log似然比

德玫。

對(duì)于 QDA 而言,沒有關(guān)于高斯協(xié)方差矩陣

的假設(shè)椎麦,因此帶來(lái)二次決策平面. 更多細(xì)節(jié)見[3].

Note

與高斯樸素貝葉斯的關(guān)系

如果在QDA模型中假設(shè)協(xié)方差矩陣是對(duì)角的宰僧,那么在每個(gè)類別中的輸入數(shù)據(jù)則被假定是相關(guān)依賴的。 而且結(jié)果分類器會(huì)和高斯樸素貝葉斯分類器naive_bayes.GaussianNB相同观挎。

1.2.3. LDA 的降維數(shù)學(xué)公式

為了理解 LDA 在降維上的應(yīng)用琴儿,它對(duì)于進(jìn)行 LDA 分類的幾何重構(gòu)是十分有用的。我們用

表示目標(biāo)類別的總數(shù)嘁捷。 由于在 LDA 中我們假設(shè)所有類別都有相同預(yù)測(cè)的協(xié)方差

,我們可重新調(diào)節(jié)數(shù)據(jù)從而讓讓協(xié)方差相同造成。

在縮放后可以分類數(shù)據(jù)點(diǎn)和找到離數(shù)據(jù)點(diǎn)最近的歐式距離相同的預(yù)測(cè)類別均值。但是它可以在投影到

個(gè)由所有

個(gè)類生成的仿射子空間

之后被完成雄嚣。這也表明晒屎,LDA 分類器中存在一個(gè)利用線性投影到

個(gè)維度空間的降維工具。

我們可以通過(guò)投影到可以最大化

的方差的線性子空間

以更多地減少維度,直到一個(gè)選定的

值 (實(shí)際上鼓鲁,我們正在做一個(gè)類 PCA 的形式為了實(shí)現(xiàn)轉(zhuǎn)換類均值

discriminant_analysis.LinearDiscriminantAnalysis.transform方法. 詳情參考[3]履肃。

1.2.4. Shrinkage(收縮)

收縮是一個(gè)在訓(xùn)練樣本數(shù)量相比特征而言很小的情況下可以提升預(yù)測(cè)(準(zhǔn)確性)的協(xié)方差矩陣。 在這個(gè)情況下坐桩,經(jīng)驗(yàn)樣本協(xié)方差是一個(gè)很差的預(yù)測(cè)器。LDA 收縮可以通過(guò)設(shè)置discriminant_analysis.LinearDiscriminantAnalysis類的shrinkage參數(shù)為 ‘a(chǎn)uto’ 以得到應(yīng)用封锉。

shrinkageparameter (收縮參數(shù))的值同樣也可以手動(dòng)被設(shè)置為 0-1 之間绵跷。特別地,0 值對(duì)應(yīng)著沒有收縮(這意味著經(jīng)驗(yàn)協(xié)方差矩陣將會(huì)被使用)成福, 而 1 值則對(duì)應(yīng)著完全使用收縮(意味著方差的對(duì)角矩陣將被當(dāng)作協(xié)方差矩陣的估計(jì))碾局。設(shè)置該參數(shù)在兩個(gè)極端值之間會(huì)估計(jì)一個(gè)(特定的)協(xié)方差矩陣的收縮形式

1.2.5. 預(yù)估算法

默認(rèn)的 solver 是 ‘svd’。它可以進(jìn)行classification (分類) 以及 transform (轉(zhuǎn)換),而且它不會(huì)依賴于協(xié)方差矩陣的計(jì)算(結(jié)果)奴艾。這在特征數(shù)量特別大的時(shí)候就顯得十分具有優(yōu)勢(shì)净当。然而,’svd’ solver 無(wú)法與 shrinkage (收縮)同時(shí)使用蕴潦。

‘lsqr’ solver 則是一個(gè)高效的算法像啼,它僅僅只能用于分類使用,而且它支持 shrinkage (收縮)潭苞。

‘eigen’(特征) solver 是基于 class scatter (類散度)與 class scatter ratio (類內(nèi)離散率)之間的優(yōu)化忽冻。 它既可以被用于classification (分類)以及 transform (轉(zhuǎn)換),此外它還同時(shí)支持收縮此疹。然而僧诚,該解決方案需要計(jì)算協(xié)方差矩陣,因此它可能不適用于具有大量特征的情況蝗碎。

Examples:

Normal and Shrinkage Linear Discriminant Analysis for classification: Comparison of LDA classifiers with and without shrinkage.

References:

[3](1,2)“The Elements of Statistical Learning”, Hastie T., Tibshirani R., Friedman J., Section 4.3, p.106-119, 2008.

[4]Ledoit O, Wolf M. Honey, I Shrunk the Sample Covariance Matrix. The Journal of Portfolio Management 30(4), 110-119, 2004.

中文文檔:http://sklearn.apachecn.org/cn/0.19.0/tutorial/basic/tutorial.html

英文文檔:http://sklearn.apachecn.org/en/0.19.0/tutorial/basic/tutorial.html

官方文檔:http://scikit-learn.org/0.19/

GitHub:https://github.com/apachecn/scikit-learn-doc-zh(覺得不錯(cuò)麻煩給個(gè) Star湖笨,我們一直在努力)

貢獻(xiàn)者:https://github.com/apachecn/scikit-learn-doc-zh#貢獻(xiàn)者

有興趣的大佬們也可以和我們一起來(lái)維護(hù),持續(xù)更新中 蹦骑。慈省。。

機(jī)器學(xué)習(xí)交流群:?629470233

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末脊串,一起剝皮案震驚了整個(gè)濱河市辫呻,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌琼锋,老刑警劉巖放闺,帶你破解...
    沈念sama閱讀 218,682評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異缕坎,居然都是意外死亡怖侦,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)匾寝,“玉大人搬葬,你說(shuō)我怎么就攤上這事⊙藁冢” “怎么了急凰?”我有些...
    開封第一講書人閱讀 165,083評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)猜年。 經(jīng)常有香客問(wèn)我抡锈,道長(zhǎng),這世上最難降的妖魔是什么乔外? 我笑而不...
    開封第一講書人閱讀 58,763評(píng)論 1 295
  • 正文 為了忘掉前任床三,我火速辦了婚禮,結(jié)果婚禮上杨幼,老公的妹妹穿的比我還像新娘撇簿。我一直安慰自己,他們只是感情好差购,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,785評(píng)論 6 392
  • 文/花漫 我一把揭開白布四瘫。 她就那樣靜靜地躺著,像睡著了一般欲逃。 火紅的嫁衣襯著肌膚如雪莲组。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,624評(píng)論 1 305
  • 那天暖夭,我揣著相機(jī)與錄音锹杈,去河邊找鬼。 笑死迈着,一個(gè)胖子當(dāng)著我的面吹牛竭望,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播裕菠,決...
    沈念sama閱讀 40,358評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼咬清,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了奴潘?” 一聲冷哼從身側(cè)響起旧烧,我...
    開封第一講書人閱讀 39,261評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎画髓,沒想到半個(gè)月后掘剪,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,722評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡奈虾,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評(píng)論 3 336
  • 正文 我和宋清朗相戀三年夺谁,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了廉赔。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,030評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡匾鸥,死狀恐怖蜡塌,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情勿负,我是刑警寧澤馏艾,帶...
    沈念sama閱讀 35,737評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站奴愉,受9級(jí)特大地震影響攒至,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜躁劣,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,360評(píng)論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望库菲。 院中可真熱鬧,春花似錦、人聲如沸骨饿。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)烫止。三九已至蒋荚,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間馆蠕,已是汗流浹背期升。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留互躬,地道東北人播赁。 一個(gè)月前我還...
    沈念sama閱讀 48,237評(píng)論 3 371
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像吼渡,于是被迫代替她去往敵國(guó)和親容为。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,976評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容