Logistics regression
Logistic regression (邏輯回歸)是當(dāng)前業(yè)界比較常用的機(jī)器學(xué)習(xí)方法等曼,用于估計(jì)某種事物的可能性葵袭。之前在經(jīng)典之作《數(shù)學(xué)之美》中也看到了它用于廣告預(yù)測滞乙,也就是根據(jù)某廣告被用戶點(diǎn)擊的可能性,把最可能被用戶點(diǎn)擊的廣告擺在用戶能看到的地方岳掐,然后叫他“你點(diǎn)我颁霭薄!”用戶點(diǎn)了偶垮,你就有錢收了张咳。這就是為什么我們的電腦現(xiàn)在廣告泛濫的原因了。萬物的發(fā)生都可以用可能性或者幾率(Odds)來表達(dá)似舵〗呕“幾率”指的是某事物發(fā)生的可能性與不發(fā)生的可能性的比值。
分類算法是針對離散數(shù)據(jù)而言的砚哗,如果預(yù)測值是連續(xù)值龙助,那此類學(xué)習(xí)任務(wù)就是回歸。
?Logistic regression主要是二分類蛛芥。通過利用一致的自變量來預(yù)測一個(gè)離散型因變量的值提鸟。 其預(yù)測的是一個(gè)處于0到1之間概率值,也就是這個(gè)樣本屬于正類的可能性是多少常空。
1. 假設(shè)方程
y=0或1表示負(fù)類或正類(二分類問題)沽一,x是m維的樣本特征向量盖溺,σ是sigmoid/logistic函數(shù)漓糙,θ是回歸系數(shù)(也就是x對應(yīng)的權(quán)值),目標(biāo)是擬合θ烘嘱。
sigmoid fuction:
2. 假設(shè)函數(shù)的形狀(假設(shè)函數(shù)何時(shí)將y預(yù)測為0昆禽,何時(shí)為1.)
決策邊界(并非數(shù)據(jù)集屬性 取決于假設(shè)函數(shù)的參數(shù))線性、非線性
3.? 如何擬合參數(shù)(使用數(shù)據(jù)集來確定參數(shù)取值)
cost function(凸函數(shù))?
在單弓形函數(shù)上使用梯度下降法
4. 簡化代價(jià)函數(shù)和梯度下降
Cost(h(x),y)=-ylog(h(x))-(1-y)log(1-h(x))
找出讓J(θ)取得最小值的參數(shù)θ
何時(shí)停止蝇庭?
5. 高級(jí)優(yōu)化
6. 多元分類
優(yōu)點(diǎn):計(jì)算代價(jià)不高醉鳖,易于理解和實(shí)現(xiàn)?
缺點(diǎn):容易欠擬合,分類精度可能不高?
適用數(shù)據(jù)類型:數(shù)值型和標(biāo)稱型數(shù)據(jù)