應(yīng)該對現(xiàn)有流行并將繼續(xù)流行下去的分類模型有深刻的了解薛耻。隨機(jī)森林和支持向量機(jī)(svm)
上篇文章簡單介紹了隨機(jī)森林浓领,這篇文章簡單介紹一下支持向量機(jī)(svm)。
偏重應(yīng)用固蚤,輕數(shù)學(xué)解釋推導(dǎo)。
線性分類器
一個非常簡單的分類問題歹茶。
image.png
用一條直線夕玩,將兩種顏色的點分開你弦,如圖所示(可以有無數(shù)條這樣的直線)。
假如將黑點記作-1燎孟, 白點+1禽作。直線f(x) = wx+b。這里的x揩页, w是向量领迈,其實也可以寫成這種形式。f(x) = w1x1 + w2x2 + ... + wnxn + b(w0x0)碍沐,當(dāng)向量x的維度是2的時候狸捅,f(x)表示二維空間中的一條直線,當(dāng)x的維度等于3的時候累提,f(x)表示3維空間中的一個平面尘喝;當(dāng)x的維度n大于3的時候,表示的是n維空間中的n-1維超平面斋陪。
當(dāng)有一個新的點需要預(yù)測分類的時候朽褪,就用sgn(f(x))。sgn表示符號函數(shù)无虚,當(dāng)f(x) > 0, 屬于黑點缔赠;否則屬于白點。
但是友题,對于無數(shù)條可能的直線嗤堰,哪條效果是最好的?
image.png
直觀感受度宦,讓這條直線到給定樣本中最近的點距離最遠(yuǎn)踢匣,如下圖的兩種分法,2效果好戈抄。
image.png
從直觀上來說离唬,分割的間隙越大越好,把兩個類別的點分得越開越好划鸽。
在SVM中输莺,成為Maximum Marginal, 是svm的一個理論基礎(chǔ)之一裸诽。
選擇是的空隙最大的函數(shù)是有很多道理的嫂用。比如從概率的角度講, 就使的置信度最小的點置信度最大崭捍。
上圖中被紅色和藍(lán)色的線圈出來的點就是所謂的支持向量(support vector)尸折。
image.png
image.png
上圖就是對間隙的一個描述。Classifier Boundary就是fx殷蛇, 紅藍(lán)線就是support vertor 所在面实夹。紅色,藍(lán)色線之間的間隙就是要最大化的分類間的間隙粒梦。
直接給出M的公式:
image.png
另外支持向量位于wx+b = 1和wx+b=-1的直線上亮航。在前面乘上一個該點所屬的類別(1或者-1), 就可以得到支持向量的表達(dá)式 y(wx+b) =1匀们, 簡單的將支持向量表示出來缴淋。
當(dāng)確定支持向量后,分割函數(shù)也隨之確定泄朴,兩個問題等價重抖。得到支持向量還有一個作用,讓支持向量后面的那些點不參與計算祖灰。
image.png
省略一堆公式钟沛。
image.png
器學(xué)習(xí)中的算法(2)-支持向量機(jī)(SVM)基礎(chǔ)
線性不可分
由于線性可分的情況太少,下圖是一個典型的線性不可分的分類圖局扶。
image.png
image.png
要得到這種情況下的分類器恨统,有兩種方式。
- 用圖示曲線將其完全分開
- 另一種還是直線三妈, 不用保證可分性, 包容分錯畜埋。
針對第二種情況,假如懲罰函數(shù)畴蒲,使的分錯的情況越合理越好悠鞍。可以為分錯的點加上一點懲罰模燥,對一個分錯的點的懲罰函數(shù)就是這個點到其正確位置的距離:
image.png
上圖中狞玛,藍(lán)色,紅色的直線分別為支持向量所在的邊界涧窒,綠色的線為決策函數(shù)心肪。紫色的線表示分錯的點到其相應(yīng)的決策面的距離,這樣可以在原函數(shù)上加上一個懲罰函數(shù)(藍(lán)色部分)
image.png
核函數(shù)
剛剛提到纠吴,可以使用非線性的方法來完美劃分硬鞍。
讓空間從原來的線性空間變成一個更高維的空間,在這個高維的線性空間下戴已,在用一個超平面進(jìn)行分割罗侯。
image.png
可以將上圖的點映射到一個三維空間(z1, z2, z3),并對映射后的坐標(biāo)旋轉(zhuǎn)就可以得到一個線性可分的集扫尖。
image.png
image.png
上面就是對svm的簡單理解贷币,筆者也不太懂,只是做個記錄握联,期待后面有能力填坑桦沉。