tags: 機(jī)器學(xué)習(xí)
監(jiān)督學(xué)習(xí)模型
監(jiān)督學(xué)習(xí)的任務(wù)是學(xué)習(xí)一個模型球昨,對給定的輸入預(yù)測相應(yīng)的輸出惹挟,這個模型的一般形式維一個決策函數(shù)或一個條件概率分布。
決策函數(shù):輸入 X 返回 Y;其中 Y 與一個閾值比較摇邦,然后根據(jù)比較結(jié)果判定 X 的類別
條件概率分布:輸入 X 返回 X 屬于每個類別的概率召烂;將其中概率最大的作為 X 所屬的類別
1. 判別模型
- 代表:K 近鄰贡避、感知機(jī)(神經(jīng)網(wǎng)絡(luò))继准、決策樹、邏輯斯蒂回歸棘街、最大熵模型蟆盐、SVM、提升方法遭殉、條件隨機(jī)場
- 思想: 由數(shù)據(jù)直接學(xué)習(xí)決策函數(shù)
或條件概率分布
作為預(yù)測的模型石挂。
- 理解: 直觀的說,判別模型學(xué)習(xí)的是類別之間的最優(yōu)分隔面险污,反映的是不同類數(shù)據(jù)之間的差異
- 舉例:要確定一個羊是山羊還是綿羊痹愚,用判別模型的方法是從歷史數(shù)據(jù)中學(xué)習(xí)到模型,然后通過提取這只羊的特征來預(yù)測出這只羊是山羊的概率,是綿羊的概率拯腮。
2. 生成模型
代表:樸素貝葉斯窖式、隱馬爾可夫模型、混合高斯模型疾瓮、貝葉斯網(wǎng)絡(luò)脖镀、馬爾可夫隨機(jī)場
思想:由數(shù)據(jù)學(xué)習(xí)得到聯(lián)合概率密度分布
飒箭, 然后求出條件概率分布
作為預(yù)測的模型:
舉例:利用生成模型是根據(jù)山羊的特征首先學(xué)習(xí)出一個山羊的模型狼电,然后根據(jù)綿羊的特征學(xué)習(xí)出一個綿羊的模型,然后從這只羊中提取特征弦蹂,放到山羊模型中看概率多少肩碟,放到綿羊模型中看概率多少,哪個大就是哪個凸椿。
3. 判別模型 vs 生成模型
由生成模型能夠得到判別模型削祈,但由判別模型得不到生成模型
當(dāng)存在“隱變量”時(shí),只能使用生成模型
隱變量:當(dāng)我們找不到引起某一現(xiàn)象的原因時(shí)脑漫,就把這個在起作用髓抑,但無法確定的因素,叫“隱變量”
-
判別方法的特點(diǎn):
- 缺點(diǎn):不能反映訓(xùn)練數(shù)據(jù)本身的特性优幸。
- 優(yōu)點(diǎn):它尋找不同類別之間的最優(yōu)分類面吨拍,反映的是異類數(shù)據(jù)之間的差異。
- 優(yōu)點(diǎn):直接面對預(yù)測网杆,往往學(xué)習(xí)的準(zhǔn)確率更高羹饰。
- 優(yōu)點(diǎn):由于直接學(xué)習(xí)P(Y|X)或P(X),可以對數(shù)據(jù)進(jìn)行各種程度上的抽象碳却、定義特征并使用特征队秩,因此可以簡化學(xué)習(xí)問題。
-
生成方法的特點(diǎn):
- 優(yōu)點(diǎn): 可以從統(tǒng)計(jì)的角度表示數(shù)據(jù)的分布情況昼浦,能夠反映同類數(shù)據(jù)本身的相似度**馍资。但它不關(guān)心到底劃分各類的那個分類邊界在哪。
- 優(yōu)點(diǎn):生成方法的學(xué)習(xí)收斂速度更快关噪,即當(dāng)樣本容量增加的時(shí)候迷帜,學(xué)到的模型可以更快的收斂于真實(shí)模型。
- 優(yōu)點(diǎn):當(dāng)存在隱變量時(shí)色洞,仍可以用生成方法學(xué)習(xí)戏锹。此時(shí)判別方法就不能用。
- 缺點(diǎn):學(xué)習(xí)和計(jì)算過程比較復(fù)雜
QA
1. 生成模型和判別模型基本形式火诸,有哪些锦针?
- 生成模型: 樸素貝葉斯、HMM、混合高斯模型奈搜、馬爾科夫隨機(jī)場
- 判別模型: LR悉盆,SVM,神經(jīng)網(wǎng)絡(luò)馋吗,CRF焕盟,Boosting