監(jiān)督學(xué)習(xí)
- 感知機(jī)--二類(lèi)分類(lèi)的線性分類(lèi)模型 輸出1和-1
f(x)=sign(wx+b)
學(xué)習(xí)策略:損失函數(shù)為誤分類(lèi)點(diǎn)到超平面的總距離
L(w,b)=-∑y(wx+b)
最優(yōu)化算法:隨機(jī)梯度下降法:首先選取一個(gè)超平面惊完,一次極小化一個(gè)誤分類(lèi)點(diǎn) - k近鄰法(knn)--找到與輸入實(shí)例最近的k個(gè)實(shí)例它掂,這k個(gè)實(shí)例多數(shù)屬于某個(gè)類(lèi)庸追,就把該實(shí)例歸于這個(gè)類(lèi)
當(dāng)k=1時(shí)為最近鄰算法
通常采用交叉驗(yàn)證選取最優(yōu)k值
分類(lèi)決策規(guī)則:多數(shù)表決 - 樸素貝葉斯:基于樸素貝葉斯定理和特征條件獨(dú)立假設(shè)的分類(lèi)法
學(xué)習(xí)聯(lián)合概率分布P(X,Y)
具體地阀趴,學(xué)習(xí)先驗(yàn)概率分布P(Y=c) 及后驗(yàn)概率分布 P(X=x|Y=c)=ПP(pán)(X=x|Y=c)
參數(shù)估計(jì):
極大似然估計(jì):先驗(yàn)估計(jì):P(Y=c)=∑I(y=c)/N
貝葉斯估計(jì):先驗(yàn)估計(jì):P(Y=c)=(∑I(y=c)+λ)/(N+Kλ) - 決策樹(shù):一種分類(lèi)與回歸算法。決策樹(shù)學(xué)習(xí)包括三個(gè)步驟:特征選擇,決策樹(shù)生成,修剪
熵表示隨機(jī)變量不確定性的度量
隨機(jī)變量X的熵定義為:H(X)=-∑plogp
以2為底的對(duì)數(shù)熵稱(chēng)作比特 以e為底成為納特(nat)
條件熵表示x條件下y的不確定性念搬,定義為y的條件概率熵對(duì)x的數(shù)學(xué)期望
H(Y|X)=∑pH(Y|X=x)
信息增益表示特征x使y的信息不確定性減少的程度
g(D,A)=H(D)-H(D|A) A為特征 D為數(shù)據(jù)集
熵H(Y)與條件熵H(Y|X)之差為互信息
根據(jù)信息增益選擇特征的方法是,計(jì)算每個(gè)特征摆出,選擇信息增益最大的特征
以信息增益為標(biāo)準(zhǔn)存在選擇取值較多的特征的問(wèn)題朗徊,信息增益比可以對(duì)這個(gè)問(wèn)題校正
gr(D,A)=g(D,A)/H(A)(D)
決策樹(shù)的生成:ID3算法應(yīng)用信息增益選擇特征 遞歸生成決策樹(shù) 由于這個(gè)算法只有樹(shù)的生成 容易產(chǎn)生過(guò)擬合
C4.5算法使用信息增益比生成樹(shù)
決策樹(shù)的剪枝:極小化整體損失函數(shù) L(T)=C(T)+a|T| T為葉節(jié)點(diǎn)個(gè)數(shù)
CART算法:既可用于分類(lèi)以可以回歸 假設(shè)決策樹(shù)是二叉樹(shù) 特征取值為‘是’和‘否’,左分支為‘是’偎漫,右分支為‘否’
生成:遞歸構(gòu)建二叉樹(shù)爷恳,對(duì)回歸樹(shù)用平方誤差最小化準(zhǔn)則 對(duì)分類(lèi)樹(shù)用基尼指數(shù)最小化準(zhǔn)則 進(jìn)行特征選擇
回歸樹(shù)的生成:
如何對(duì)輸入空間進(jìn)行劃分?采用啟發(fā)式的方法象踊,選擇第j個(gè)變量x(j)和它的值s作為切分變量和切分點(diǎn)
分類(lèi)樹(shù)的生成:
用基尼指數(shù)選擇最優(yōu)特征 同時(shí)決定該特征的最優(yōu)二值切分點(diǎn)
Gini(p)=∑p(1-p) - 邏輯回歸模型與最大熵模型
二項(xiàng)邏輯回歸模型:P(Y=1|x)=exp(wx+b)/(1+exp(wx+b)) P(Y=0|x)=1/(1+exp(wx+b))
模型參數(shù)估計(jì):交叉熵?fù)p失函數(shù) - 支持向量機(jī)(svm) 是一種二分類(lèi)模型 特征空間上間隔最大的分類(lèi)器
a. 線性可分支持向量機(jī):函數(shù)間隔 γ=y(wx+b) 為了使間隔確定 對(duì)w加入L2范數(shù)約束 函數(shù)間隔成為幾何間隔
支持向量:樣本點(diǎn)中離分離超平面距離最近的點(diǎn) 即滿足:y(wx+b)-1=0
只有支持向量起決定分離超平面的作用 其他實(shí)例不起作用
線性不可分意味著函數(shù)間隔不能滿足大于等于1 所以對(duì)每個(gè)樣本點(diǎn)引入松弛變量ξ 約束條件變?yōu)閥(wx+b)>=1-ξ
學(xué)習(xí)算法:凸二次優(yōu)化
非線性支持向量機(jī):輸入空間中非線性分類(lèi)問(wèn)題通過(guò)非線性變換轉(zhuǎn)化為某個(gè)高維特征空間的線性分類(lèi)問(wèn)題
K(x,z)=Φ(x)Φ(z) - 提升方法:通過(guò)改變樣本權(quán)重温亲,學(xué)習(xí)多個(gè)分類(lèi)器,并將這些分類(lèi)器線性組合
adaboost:線性模型杯矩,指數(shù)損失函數(shù)铸豁,前向分步算法
提升樹(shù):以分類(lèi)樹(shù)或回歸樹(shù)為基本分類(lèi)器的提升方法
提升樹(shù)模型可以表示為決策樹(shù)的加法模型:f(x)=∑T(x;Θ) T(x;Θ)表示決策樹(shù) Θ表示決策樹(shù)的參數(shù)
提升樹(shù)算法:采用前向分步算法 首先確定f0(x)=0 第m步的模型是fm(x)=fm-1+T(x;Θ)
通過(guò)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化確定下一顆決策樹(shù)的參數(shù)
Θm=arg min∑L(yi,fm-1+T(xi;Θ)) - EM算法:一種迭代算法 用于含有隱變量的概率模型參數(shù)的極大似然估計(jì)或極大后驗(yàn)概率估計(jì)
每次迭代分兩步:E步,求期望菊碟;M步,求極大在刺。所以也稱(chēng)為期望極大算法
概率模型為:P(Y,Z|Θ) Y是觀測(cè)數(shù)據(jù) Z是隱變量數(shù)據(jù) Θ是模型參數(shù)
算法通過(guò)迭代求解觀測(cè)數(shù)據(jù)的對(duì)數(shù)似然函數(shù)L(Θ)=logP(Y|Θ)的極大化逆害,實(shí)現(xiàn)極大似然估計(jì) - 隱馬爾可夫模型 是關(guān)于時(shí)序的概率模型 描述由一個(gè)隱藏的馬爾可夫鏈隨機(jī)生成不可觀測(cè)的狀態(tài)序列 再由各個(gè)狀態(tài)生成觀測(cè)序列的過(guò)程
λ=(A,B,π) - 條件隨機(jī)場(chǎng)
待完善
無(wú)監(jiān)督學(xué)習(xí)--從無(wú)標(biāo)注數(shù)據(jù)中學(xué)習(xí)模型
假設(shè)數(shù)據(jù)由N個(gè)樣本組成 每個(gè)樣本是一個(gè)M維向量 訓(xùn)練數(shù)據(jù)可以由一個(gè)矩陣表示 每一行對(duì)應(yīng)一個(gè)特征 每一列對(duì)應(yīng)一個(gè)樣本
聚類(lèi)可以發(fā)掘數(shù)據(jù)中隱藏的縱向結(jié)構(gòu)
降維可以幫助發(fā)掘數(shù)據(jù)中隱藏的橫向結(jié)構(gòu)
概率估計(jì)假設(shè)數(shù)據(jù)由一個(gè)概率模型生成 由訓(xùn)練數(shù)據(jù)學(xué)習(xí)概率模型的結(jié)構(gòu)和參數(shù)