統(tǒng)計學習方法(2)-感知機

感知機是二類分類的線性分類模型涡匀,其輸入為實例的特征向量,輸出為實例的類別{-1,1}践剂,是一種判別模型鬼譬。感知機學習的目的在于求出將訓練數據進行劃分的超平面。

  • 感知機模型


輸入空間X\epsilon R^{n},輸出空間\gamma =\left \{ -1,1 \right \}舷手。
f(x)=sign(w\cdot x+b) x為輸入向量拧簸,其中,wb為感知機模型參數男窟,w\cdot b表示內積盆赤,sign是符號函數贾富。感知機的幾何角度理解是:w\cdot x+b=0是特征空間R^{n}的一個超平面,w是該平面的法向量牺六,b是截距颤枪。這個超平面將特征空間劃分為正負兩個部分,如下圖淑际。

  • 感知機學習策略


感知機學習的目的是為了找到能夠將正負實例點正確分開的超平面,也就是要確定參數wb春缕,感知機的學習策略便是定義一個損失函數并將其最小化盗胀。于是便要選擇一個損失函數的依據,可以選擇誤分類的點的數量作為損失函數锄贼,然而該函數不可導票灰,不易于優(yōu)化,因此選擇誤分類點到超平面的距離和:\frac{\left | w\cdot x +b \right |}{\left \| w \right \|} 此處{\left \| w \right \|}w的第二范數宅荤。注意需要優(yōu)化的只是誤分類的點屑迂,對于誤分類的點有,-y_i(w\cdot x + b)>0恒成立冯键,因此可去掉絕對值符號惹盼,并假設當前超平面的誤分類的點的集合為M,由此得到感知機學習的損失函數為L(w,b)=-\sum_{x_i\in M}y_i(w\cdot x_i+b) 其中M為誤分類的點的集合惫确。顯然該損失函數是非負的手报,當沒有誤分類的點時L(w,b)=0.只需將損失函數優(yōu)化到0即得到該分類超平面,不過由該方法得到的超平面的解不是唯一的(顯然只需要能夠正確分類時算法即停止)雕薪。

  • 感知機學習算法


感知機所用優(yōu)化方法是隨機梯度下降法昧诱,包括原始形式和對偶形式。

  1. 原始形式

前面已經確定了感知機的損失函數所袁,那么其原始形式只需要最小化這個損失函數即可盏档。
\underset{w,b}{min}L(w,b)=-\sum_{x_i\in M}y_i(w\cdot x+b)其中M為誤分類的點的集合。
隨機梯度下降法初始時任選w_0,b_0作為初始超平面燥爷,計算有哪些誤分類點蜈亩,如果有誤分類點,隨機選取一個誤分類點前翎,進行梯度下降稚配。即先計算損失函數的梯度
\begin{aligned} \triangledown _wL(w,b)&=-\sum_{x_i\in M}y_ix_i \\ \triangledown_wL(w,b)&=-\sum_{x_i\in M}y_i \end{aligned}梯度下降法使參數向反方向變化,使用隨機選出的誤分類點的數據港华,根據提前設置好的學習率\etaw,b進行更新就可以了
\begin{aligned} w& \leftarrow w+\eta y_ix_i \\ b& \leftarrow b+\eta y_i \end{aligned}這樣便可使損失函數不斷減小道川,直到為0時就得到了可正確分類數據集的超平面。

  1. 對偶形式

在原始形式的學習算法中,可以看到每次更新w,b的數值都是選中的點(x_i,y_i)的線性組合冒萄,那么w,b必然可以用(x_i,y_i)線性表示臊岸,這樣我們可以通過求解該線性組合的系數找到該超平面。對上節(jié)w,b的更新中尊流,設總共修改N次帅戒,可將每次w,b增量表示為\alpha _iy_ix_i,\alpha _iy_i,其中\alpha = n_i\eta崖技,假設w_0=b_0=0(這無關線性)逻住。于是更新過程表示為
\begin{aligned} w&=\sum_i\alpha _iy_ix_i\\ b&=\sum_i \alpha _iy_i \end{aligned}這里\alpha _i=n_i\eta _i的含義是在該學習率下(x_i,y_i)在最后學習到的w,b中所貢獻的權重,就是最后平面的w,b的系數迎献,也是因該點誤分類也進行更新的次數*\eta瞎访。由此,感知機模型可由\alpha ,b表出忿晕。
f(x)=sign(\sum_j\alpha _jy_j\cdot x + b)在判斷是否是誤分類點時用
y_i(\sum _j\alpha _jy_jx_j\cdot x_i + b)\leqslant 0更新時
\begin{aligned} \alpha _i &\leftarrow \alpha _i +\eta\\ b &\leftarrow b + \eta y_i \end{aligned}可以看到該計算過程中訓練數據全部由內積得到装诡,因此可以提前將內積計算出來由矩陣存儲,可以減少算法過程中的計算量践盼,這是Gram矩陣。G= [x_i \cdot x_j]_{N*N}

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末宾巍,一起剝皮案震驚了整個濱河市咕幻,隨后出現的幾起案子,更是在濱河造成了極大的恐慌顶霞,老刑警劉巖肄程,帶你破解...
    沈念sama閱讀 218,122評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現場離奇詭異选浑,居然都是意外死亡蓝厌,警方通過查閱死者的電腦和手機,發(fā)現死者居然都...
    沈念sama閱讀 93,070評論 3 395
  • 文/潘曉璐 我一進店門古徒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來拓提,“玉大人,你說我怎么就攤上這事隧膘〈” “怎么了?”我有些...
    開封第一講書人閱讀 164,491評論 0 354
  • 文/不壞的土叔 我叫張陵疹吃,是天一觀的道長蹦疑。 經常有香客問我,道長萨驶,這世上最難降的妖魔是什么歉摧? 我笑而不...
    開封第一講書人閱讀 58,636評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上叁温,老公的妹妹穿的比我還像新娘再悼。我一直安慰自己,他們只是感情好券盅,可當我...
    茶點故事閱讀 67,676評論 6 392
  • 文/花漫 我一把揭開白布帮哈。 她就那樣靜靜地躺著,像睡著了一般锰镀。 火紅的嫁衣襯著肌膚如雪娘侍。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,541評論 1 305
  • 那天泳炉,我揣著相機與錄音憾筏,去河邊找鬼。 笑死花鹅,一個胖子當著我的面吹牛氧腰,可吹牛的內容都是我干的。 我是一名探鬼主播刨肃,決...
    沈念sama閱讀 40,292評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼古拴,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了真友?” 一聲冷哼從身側響起黄痪,我...
    開封第一講書人閱讀 39,211評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎盔然,沒想到半個月后桅打,有當地人在樹林里發(fā)現了一具尸體,經...
    沈念sama閱讀 45,655評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡愈案,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,846評論 3 336
  • 正文 我和宋清朗相戀三年挺尾,在試婚紗的時候發(fā)現自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片站绪。...
    茶點故事閱讀 39,965評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡遭铺,死狀恐怖,靈堂內的尸體忽然破棺而出崇众,到底是詐尸還是另有隱情掂僵,我是刑警寧澤,帶...
    沈念sama閱讀 35,684評論 5 347
  • 正文 年R本政府宣布顷歌,位于F島的核電站锰蓬,受9級特大地震影響,放射性物質發(fā)生泄漏眯漩。R本人自食惡果不足惜芹扭,卻給世界環(huán)境...
    茶點故事閱讀 41,295評論 3 329
  • 文/蒙蒙 一麻顶、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧舱卡,春花似錦辅肾、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,894評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至舍杜,卻和暖如春新娜,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背既绩。 一陣腳步聲響...
    開封第一講書人閱讀 33,012評論 1 269
  • 我被黑心中介騙來泰國打工概龄, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人饲握。 一個月前我還...
    沈念sama閱讀 48,126評論 3 370
  • 正文 我出身青樓私杜,卻偏偏與公主長得像,于是被迫代替她去往敵國和親救欧。 傳聞我的和親對象是個殘疾皇子衰粹,可洞房花燭夜當晚...
    茶點故事閱讀 44,914評論 2 355

推薦閱讀更多精彩內容

  • 在C語言中,五種基本數據類型存儲空間長度的排列順序是: A)char B)char=int<=float C)ch...
    夏天再來閱讀 3,343評論 0 2
  • 返回主頁 感知機(perceptron)屬于判別模型,是神經網絡與SVM的基礎笆怠,由 Rosenblatt 于195...
    Eric_i33閱讀 1,040評論 0 8
  • 計算機二級C語言上機題庫(南開版) 1.m個人的成績存放在score數組中寄猩,請編寫函數fun,它的功能是:將低于平...
    MrSunbeam閱讀 6,366評論 1 42
  • 【程序1】 題目:古典問題:有一對兔子,從出生后第3個月起每個月都生一對兔子骑疆,小兔子長到第三個月后每個月又生一對兔...
    開心的鑼鼓閱讀 3,320評論 0 9
  • 什么叫數據庫?數據庫本質上就是文件替废、表格的集合箍铭。以一定的形式存于存儲介質上。 什么叫數據庫管理系統(tǒng)?數據庫管理系統(tǒng)...
    Sainbyno閱讀 429評論 0 0