大家好戒努,上一篇支持向量機(Support Vector Machines-SVM)算法筆記(一)-Python主要提到了支持向量機的算法原理、簡單SMO算法的實現(xiàn)等镐躲,今天接著上一篇提到的內(nèi)容储玫,主要側(cè)重于:完整SMO算法的實現(xiàn)、編程遇到的小問題等萤皂。核函數(shù)的變成實現(xiàn)將在下一階段深入學(xué)習(xí)中來研究
再次申明:本文的理論知識來自Peter Harrington的《機器學(xué)習(xí)實戰(zhàn)》和李航的《統(tǒng)計學(xué)習(xí)方法》撒穷,非常感謝這些優(yōu)秀人物和優(yōu)秀書籍
1、完整SMO算法
上一篇支持向量機(Support Vector Machines-SVM)算法筆記(一)-Python最后提到的簡單SMO算法裆熙,在100個數(shù)據(jù)集端礼、2個特征值的處理問題中,花了6秒30左右入录,那么當數(shù)據(jù)集在萬級以上蛤奥,這個算法的效率估計可以回到解放前了。之所以這個算法在大量數(shù)據(jù)集上效果這么差僚稿,很大一部分原因出在alpha參數(shù)的選擇凡桥。
SMO算法是通過一個外循環(huán)來選擇第一個alpha值,并且其選擇過程會在兩種方式之間進行交替:一種方式是在所有的數(shù)據(jù)集進行單遍掃描蚀同,另一種方式則是在非邊界alpha中實現(xiàn)單遍掃描缅刽。而所謂非邊界alpha指的是那些不等于邊界0或C的alpha值。對整個數(shù)據(jù)集的容易蠢络,而在實現(xiàn)非邊界alpha值的掃描時衰猛,首先需要建立這些alpha值的列表,然后再對這個表進行遍歷刹孔。同時啡省,該步驟會跳過那些已知的不會改變的alpha值。在選擇第一個alpha值后,算法會通過一個內(nèi)循環(huán)來選擇第二個alpha值冕杠。在優(yōu)化過程中,會通過最大化步長的方式來獲得第二個alpha值酸茴。 在上一篇中的簡單SMO算法的實現(xiàn)中分预,我們在選擇j之后計算錯誤率Ej。但是薪捍,在完整版的SMO算法里笼痹,將建立一個全局的緩存用于保存誤差值,并從中選擇使得步長或者Ei-Ej最大的alpha值酪穿。
完整版SMO算法的相關(guān)代碼如下:
1)準備數(shù)據(jù)
2)建立一個類存放基本數(shù)據(jù)以及alphas的緩存
3)建立計算錯誤率的函數(shù)
4)在選擇第2個alphas參數(shù)時(也就是進行SMO的內(nèi)循環(huán)時)凳干,不再是隨機選擇,而是選擇最長步長的那個(就是選擇|E_i-Ej|最大的)
5)更新錯誤率Ek
6)更新b并且返回兩個alpha參數(shù)是否改變的情況
7)完整版SMO算法
8)查看完整的SMO算法的效果怎么樣
設(shè)置不同的最大迭代次數(shù)被济,發(fā)現(xiàn)迭代次數(shù)的增加救赐,支持向量的數(shù)量會增加,但是到某些數(shù)值后只磷,將不再增加经磅,比如迭代次數(shù)200和迭代次數(shù)400時基本不變了,見圖8(紅色點為支持向量)
9)基于支持向量來進行樣本分類-求解權(quán)重
先求解超平面的權(quán)重參數(shù)w钮追,計算公式主要是依據(jù)上一篇支持向量機(Support Vector Machines-SVM)算法筆記(一)-Python第11張圖中的w計算方法预厌。代碼如下:
10)最終SMO分類
圖中10中返回正數(shù),則分類標記為+1元媚;圖10中返回負數(shù)轧叽,則標記為-1
好噠,SMO函數(shù)基本告一段落刊棕,接下來主要是分享一些Python編程問題炭晒。關(guān)于numpy等Python科學(xué)庫,建議參考One document to learn numerics, science, and data with Python
1甥角、對比numpy中的array與mat
1)np.array([...])和np.array([[...]])是不一樣的
2)np.array創(chuàng)建的數(shù)組腰埂,獲取元素的方法([a,b],a表示行,b表示列蜈膨,當然在二維范圍內(nèi))
3)np.array的siblings包括:chararray屿笼,maskedarray,matrix
chararray
maskedarray:這個函數(shù)主要是針對數(shù)組中有丟失數(shù)據(jù)或者無效的數(shù)據(jù)翁巍,比如有時候在計算中驴一,不想讓某些異常點參與運算,可以讓他遮罩處理灶壶,比如下面的-99
matrix(可以簡寫為np.mat):這是為了計算方便肝断,單獨作為array的子模塊,只針對二維數(shù)組
在圖15中,提到的matrix數(shù)組的“*”表示數(shù)組相乘胸懈。而np.array數(shù)組‘*’表示兩個數(shù)組的相同位置上的數(shù)字做乘法担扑,np.dot(a,b)表示數(shù)組a和b相乘
numpy中,matrix與array的對比:
1)np.matrix([1,2,3])與np.array([[1,2,3]])一樣的效果趣钱,但是不同于np.array([1,2,3]):
2)數(shù)乘:np.matrix與np.array沒有差異
3)向量相乘涌献,matrix矩陣的“*”相當于np.dot,而np.multiply與np.array矩陣的‘*’是一樣的效果-數(shù)組相同位置上的數(shù)相乘
4)向量除法
5)矩陣相除
在進行矩陣除法的過程中首有,我發(fā)現(xiàn)以下問題:
(1)np.linalg.inv(a)是求解a的逆矩陣燕垃,但是,因為精度的問題井联,矩陣a和他的逆矩陣乘起來卜壕,不一定為矩陣理論中的單位1矩陣I
(2)用ones矩陣除以任何一個矩陣時,發(fā)現(xiàn)結(jié)果不是另一個矩陣的逆矩陣烙常,而是相同位置上轴捎,原來數(shù)組的取值均被1相除,有意思
(3)其余矩陣相除滿足一般矩陣理論的除法蚕脏。
一般明確知道是二維數(shù)組時轮蜕,常用matrix構(gòu)建,因為其計算與矩陣理論以及matlab里計算方法更加貼切蝗锥。但是跃洛,高維數(shù)組則只能用np.array()來處理了。
基本就是這些终议,希望對大家有所幫助汇竭,同請大牛知道,謝謝~~