《統(tǒng)計學習方法》筆記(三)K近鄰法

前言

關于寫作:

博主(暫且如此自稱)是北京某高校的計算機系研究生在讀吼蚁,入行AI領域時間不久,正在努力進修问欠。最近利用工作之余的時間正在學習李航博士的《統(tǒng)計學習方法》肝匆,一方面希望能夠通過寫作整理思路,另一方面顺献,分享學習心得也希望可以和志同道合的小伙伴們共同探討進步啦~

github傳送門

GitHub - wyynevergiveup/Statistical-Learning-Method: 《統(tǒng)計學習方法》--李航 實現(xiàn)學習過程中的算法以加深理解

系列文章:

1.《統(tǒng)計學習方法》筆記(一) 統(tǒng)計學習及監(jiān)督學習概論 - 簡書

2.《統(tǒng)計學習方法》筆記(二)感知機模型 - 簡書

3.《統(tǒng)計學習方法》筆記(三)K近鄰法 - 簡書

4.《統(tǒng)計學習方法》筆記(四)樸素貝葉斯法 - 簡書

正文

3.1 K近鄰算法(K-NN)

3.1.1 概述

k近鄰法是一種基本分類與回歸方法旗国。因其多用與分類問題,本文只討論其在分類問題中的應用注整。

k近鄰算法的輸入為樣本的特征向量能曾,對應于特征空間中的點嫁怀;輸出為樣本所屬的類別。具體地借浊,k近鄰算法給定一個訓練數(shù)據(jù)集塘淑,其中的樣本類別已定。對新的樣本進行分類時蚂斤,根據(jù)與其最近鄰的k個樣本的類別存捺,通過多數(shù)表決等方式進行預測。

因此曙蒸,k近鄰算法不需要顯式的學習過程捌治,它實際上是利用訓練集對特征向量空間進行了劃分,并作為其分類的“模型”纽窟。

k近鄰算法的三要素:1)k值的選擇肖油;2)距離度量;3)分類決策規(guī)則臂港。

3.1.2 算法形式化定義

KNN算法形式化定義

3.2 k近鄰模型

k近鄰法使用的模型實際上對應于對特征空間的劃分森枪。模型由三個基本要素決定,分別為:k值的選擇审孽、距離度量和分類決策規(guī)則县袱。

3.2.1 k值的選擇

k值的選擇往往會對k近鄰法的結果產(chǎn)生重大影響。

選擇較小的k值佑力,就相當于在較小的鄰域中的訓練實例進行預測式散,近似誤差會減小,估計誤差會增大打颤。(什么是近似誤差和估計誤差暴拄?)在這種情況下,只有與輸入樣本較近的訓練樣本對結果預測起作用编饺,因此乖篷,預測結果會對近鄰的樣本點非常敏感,如果鄰近的實例點恰好存在噪聲反肋,預測就很有可能會出錯那伐。換句話說,k值的減小意味著整體模型變得復雜石蔗,容易過擬合罕邀。

選擇較大的k值,就相當于在較大的鄰域中的訓練實例進行預測养距,估計誤差會減小诉探,近似誤差會增大。在這種情況下棍厌,與輸入樣本距離較遠的訓練樣本也會對預測起作用肾胯,使得預測發(fā)生錯誤竖席。換句話說,k值的增大意味著整體的模型變得簡單敬肚,容易欠擬合毕荐。

現(xiàn)在,我們來解釋一下什么是近似誤差和估計誤差艳馒。(此答案來自網(wǎng)絡憎亚,個人認為這種理解方式簡單易懂,值的推薦弄慰。)

近似誤差第美,更關注于“訓練”。最小化近似誤差陆爽,即為使估計值盡量接近真實值什往,但是這個接近只是對訓練樣本(當前問題)而言,模型本身并不是最接近真實分布慌闭。換一組樣本别威,可能就不近似了。這種只管眼前不顧未來預測的行為贡必,即為過擬合兔港。

估計誤差庸毫,更關注于“測試”仔拟、“泛化”。最小化估計誤差飒赃,即為使估計系數(shù)盡量接近真實系數(shù)利花,但是此時對訓練樣本(當前問題)得到的估計值不一定是最接近真實值的估計值;但是對模型本身來說载佳,它能適應更多的問題(測試樣本)炒事。

3.2.2 距離度量

特征空間中的兩個實例點的距離是兩個實例點相似程度的度量。這里介紹一種比較一般(通用)的距離度量——L_p距離(或Minkowski距離)蔫慧。

假設特征空間X是n維實數(shù)向量空間R^n,x_i,x_j \in X,x_i=(x_i^{(1)},x_i^{(2)},...,x_i^{(n)})^T,x_j=(x_j^{(1)},x_j^{(2)},...,x_j^{(n)})^T,x_i,x_j之間的L_p距離定義為:

? ??????????????????????????????????????????????????????????????????????L_p(x_i, x_j) = (\sum_{l=1}^n\vert x_i^{(l)} - x_j^{(l)} \vert ^p )^{\frac{1}{p}}

這里的p\geq 1挠乳。

p=2時,稱為歐式距離姑躲。

? ??????????????????????????????????????????????????????????????????????L_2(x_i, x_j) = (\sum_{l=1}^n\vert x_i^{(l)} - x_j^{(l)} \vert ^2 )^{\frac{1}{2}}

當時睡扬,稱為曼哈頓距離。

? ??????????????????????????????????????????????????????????????????????L_p(x_i, x_j) = \sum_{l=1}^n\vert x_i^{(l)} - x_j^{(l)} \vert

當時黍析,它是各個坐標距離的最大值卖怜。

? ??????????????????????????????????????????????????????????????????????L{\infty}(x_i, x_j) = max_l \vert x_i^{(l)} - x_j^{(l)} \vert

下圖為2維空間中,p取不同值時阐枣,與原點的L_p距離為1的點的圖形马靠。


Lp距離間的關系

3.2.3 分類決策規(guī)則

k近鄰法中分類決策規(guī)則往往是多數(shù)表決奄抽,即由輸入實例的k個近鄰的訓練實例中的多數(shù)類決定輸入實例的類別。

多數(shù)表決規(guī)則有如下解釋:如果分類的損失為0-1損失函數(shù)甩鳄,分類函數(shù)為:

? ??????????????????????????????????????????????????????????????????????f:R^n \rightarrow \{ c_1, c_2, ... ,c_K\}

那么誤分類的概率為:

? ??????????????????????????????????????????????????????????????????????P(Y\neq f(X)) = 1-P(Y=f(X))

對給定的實例x \in X逞度,其最鄰近的k個訓練實例點構成集合N_k(x)。如果涵蓋N_k(x)的區(qū)域的類別時c_j妙啃,那么誤分類率時:

? ??????????????????????????????????????????????????????????????????????\frac{1}{k} \sum_{x \in N_k{(x)}} I(y_i\neq c_j) = 1-\frac{1}{k}\sum_{x \in N_k{(x)}} I(y_i = c_j)

要使誤分類率最小第晰,就要使\sum_{x \in N_k{(x)}} I(y_i = c_j) 最大,所以多數(shù)表決規(guī)則等價于經(jīng)驗風險最小化彬祖。

3.3 k近鄰法的實現(xiàn):kd樹

未完待續(xù)

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末茁瘦,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子储笑,更是在濱河造成了極大的恐慌甜熔,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,265評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件突倍,死亡現(xiàn)場離奇詭異腔稀,居然都是意外死亡,警方通過查閱死者的電腦和手機羽历,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,078評論 2 385
  • 文/潘曉璐 我一進店門焊虏,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人秕磷,你說我怎么就攤上這事诵闭。” “怎么了澎嚣?”我有些...
    開封第一講書人閱讀 156,852評論 0 347
  • 文/不壞的土叔 我叫張陵疏尿,是天一觀的道長。 經(jīng)常有香客問我易桃,道長褥琐,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,408評論 1 283
  • 正文 為了忘掉前任晤郑,我火速辦了婚禮敌呈,結果婚禮上,老公的妹妹穿的比我還像新娘造寝。我一直安慰自己磕洪,他們只是感情好,可當我...
    茶點故事閱讀 65,445評論 5 384
  • 文/花漫 我一把揭開白布匹舞。 她就那樣靜靜地躺著褐鸥,像睡著了一般。 火紅的嫁衣襯著肌膚如雪赐稽。 梳的紋絲不亂的頭發(fā)上叫榕,一...
    開封第一講書人閱讀 49,772評論 1 290
  • 那天浑侥,我揣著相機與錄音,去河邊找鬼晰绎。 笑死寓落,一個胖子當著我的面吹牛,可吹牛的內容都是我干的荞下。 我是一名探鬼主播伶选,決...
    沈念sama閱讀 38,921評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼尖昏!你這毒婦竟也來了仰税?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 37,688評論 0 266
  • 序言:老撾萬榮一對情侶失蹤抽诉,失蹤者是張志新(化名)和其女友劉穎陨簇,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體迹淌,經(jīng)...
    沈念sama閱讀 44,130評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡河绽,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,467評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了唉窃。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片耙饰。...
    茶點故事閱讀 38,617評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖纹份,靈堂內的尸體忽然破棺而出苟跪,到底是詐尸還是另有隱情,我是刑警寧澤矮嫉,帶...
    沈念sama閱讀 34,276評論 4 329
  • 正文 年R本政府宣布削咆,位于F島的核電站,受9級特大地震影響蠢笋,放射性物質發(fā)生泄漏。R本人自食惡果不足惜鳞陨,卻給世界環(huán)境...
    茶點故事閱讀 39,882評論 3 312
  • 文/蒙蒙 一昨寞、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧厦滤,春花似錦援岩、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,740評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至趟咆,卻和暖如春添瓷,著一層夾襖步出監(jiān)牢的瞬間梅屉,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,967評論 1 265
  • 我被黑心中介騙來泰國打工鳞贷, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留坯汤,地道東北人。 一個月前我還...
    沈念sama閱讀 46,315評論 2 360
  • 正文 我出身青樓搀愧,卻偏偏與公主長得像惰聂,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子咱筛,可洞房花燭夜當晚...
    茶點故事閱讀 43,486評論 2 348