scikit-learn--Nearest Neighbors(最近鄰)

sklearn.neighbors提供基于鄰居的有監(jiān)督和無監(jiān)督的學(xué)習方法及汉。無監(jiān)督最近鄰方法是很多學(xué)習方法的基礎(chǔ)，特別是流形學(xué)習和譜聚類矢沿。有監(jiān)督的最近鄰方法包括：離散數(shù)據(jù)的分類滥搭、連續(xù)數(shù)據(jù)的回歸。
最近鄰方法的原理是捣鲸，找到指定數(shù)量的最近樣本點瑟匆，然后根據(jù)這些點去預(yù)測新的點。樣本點的數(shù)量可以由用戶定義（k-最近鄰）或者基于點的局部密度。距離度量標準可以有很多種愁溜，歐式距離是最常用的選擇疾嗅。基于鄰居的方法被稱為non-generalizing machine learning冕象，因為它只是“記住”訓(xùn)練數(shù)據(jù)（可能轉(zhuǎn)化為一個快速的索引結(jié)構(gòu)代承，如BallTree或KDTree）。
盡管很簡單渐扮，但是最近鄰方法能解決大量分類和回歸問題论悴，包括手寫數(shù)字或衛(wèi)星圖像識別，作為一種非參數(shù)方法墓律，在分類邊界不規(guī)則的情況下通常是有效的膀估。

無監(jiān)督的最近鄰

NearestNeighbors 執(zhí)行無監(jiān)督的最近鄰方法，有三種不同的最近鄰算法：BallTree耻讽、KDTree察纯、a brute-force algorithm based on routines in sklearn.metrics.pairwise，鄰居的搜索算法通過關(guān)鍵詞 ‘a(chǎn)lgorithm’ 控制针肥，選項包括['auto', 'ball_tree', 'kd_tree', 'brute']饼记，當設(shè)置為‘a(chǎn)uto’時，算法將通過訓(xùn)練數(shù)據(jù)決定最好的方法慰枕。
Warning：在最近鄰算法中具则，當有兩個點和預(yù)測點的距離相同但標簽不同時，結(jié)果將依賴點在訓(xùn)練數(shù)據(jù)中的順序捺僻。

KDTree和BallTree

可以使用KDTree或BallTree直接發(fā)現(xiàn)最近鄰乡洼。
KDTree和BallTree的詳細解釋：
http://blog.csdn.net/skyline0623/article/details/8154911

最近鄰算法

Brute Force

快速計算最近鄰是機器學(xué)習中一個活躍的研究領(lǐng)域。最簡單的方法是計算數(shù)據(jù)集中每兩個點之間的距離沃琅，在小型數(shù)據(jù)集上哗咆，brute-force很有競爭力，然而隨著樣本數(shù)的增長益眉，brute-force變得不可行晌柬。

KDTree

為了解決brute-force方法計算效率低下，發(fā)明了各種基于樹的數(shù)據(jù)結(jié)構(gòu)郭脂。一般情況下年碘，這些結(jié)構(gòu)通過有效編碼匯總樣本距離信息，來減少所需的距離計算量展鸡∮煨疲基本思想是，如果A離B比較遠莹弊，B 離C比較近涤久，所以A 離C比較遠，而不用明確計算忍弛。

構(gòu)建k-d樹（createKDTree）

輸入：數(shù)據(jù)點集Data-set和其所在的空間Range
輸出：Kd响迂，類型為k-d tree
1.If Data-set為空，則返回空的k-d tree
2.調(diào)用節(jié)點生成程序：
（1）確定split域：對于所有描述子數(shù)據(jù)（特征矢量）细疚，統(tǒng)計它們在每個維上的數(shù)據(jù)方差蔗彤。
以SURF特征為例，描述子為64維，可計算64個方差幕与。挑選出最大值挑势，對應(yīng)的維就是split域的值。
數(shù)據(jù)方差大表明沿該坐標軸方向上的數(shù)據(jù)分散得比較開啦鸣，在這個方向上進行數(shù)據(jù)分割有較好的分辨率潮饱；
（2）確定Node-data域：數(shù)據(jù)點集Data-set按其第split域的值排序。
位于正中間的那個數(shù)據(jù)點被選為Node-data诫给。此時新的Data-set' = Data-set\Node-data（除去其中Node-data這一點）香拉。
3.dataleft = {d屬于Data-set' && d[split] ≤ Node-data[split]}
Left_Range = {Range && dataleft} dataright = {d屬于Data-set' && d[split] > Node-data[split]}
Right_Range = {Range && dataright}
4.left = 由（dataleft，Left_Range）建立的k-d tree中狂，即遞歸調(diào)用createKDTree（dataleft凫碌，Left_
Range）。并設(shè)置left的parent域為Kd胃榕；
right = 由（dataright植袍，Right_Range）建立的k-d tree，即調(diào)用createKDTree（dataright赂鲤，Right_
Range）八拱。并設(shè)置right的parent域為Kd。

查找算法

從root節(jié)點開始楔壤，DFS搜索直到葉子節(jié)點鹤啡，同時在stack中順序存儲已經(jīng)訪問的節(jié)點。
如果搜索到葉子節(jié)點蹲嚣，當前的葉子節(jié)點被設(shè)為最近鄰節(jié)點递瑰。
然后通過stack回溯:
如果當前點的距離比最近鄰點距離近，更新最近鄰節(jié)點.
然后檢查以最近距離為半徑的圓是否和父節(jié)點的超平面相交.
如果相交隙畜，則必須到父節(jié)點的另外一側(cè)抖部，用同樣的DFS搜索法，開始檢查最近鄰節(jié)點议惰。
如果不相交您朽，則繼續(xù)往上回溯，而父節(jié)點的另一側(cè)子節(jié)點都被淘汰换淆，不再考慮的范圍中.
當搜索回到root節(jié)點時哗总，搜索完成，得到最近鄰節(jié)點倍试。

選擇方差最大的維度作為當前節(jié)點的劃分維度讯屈，方差越大，說明這個維度上的數(shù)據(jù)波動越大县习，也就說明了他們就越不可能屬于同一空間涮母，需要在這個維度上對數(shù)據(jù)點進行劃分谆趾。KDTree在維度小于20的情況下搜索是非常快的叛本。

BallTree

為了解決高維問題沪蓬，發(fā)明了BallTree。KDTree沿著笛卡爾軸劃分數(shù)據(jù)来候，BallTree使用超球面跷叉。雖然建立樹的成本大于KDTree，但是在高維數(shù)據(jù)上非常有效营搅。
BallTree 遞歸地將數(shù)據(jù)劃分成一個質(zhì)心C和半徑R定義的節(jié)點云挟，使得每個點位于由R和C定義的超球體內(nèi)。通過使用三角不等式減少搜索次數(shù)转质。
有了這個設(shè)置园欣，測試點和質(zhì)心之間的距離計算，已經(jīng)足夠確定測試點和這個節(jié)點內(nèi)所有點的距離的上界和下界休蟹。由于BallTree 節(jié)點的球形幾何形狀沸枯，它可以執(zhí)行高維的KD樹，但實際的性能是高度依賴于訓(xùn)練數(shù)據(jù)的結(jié)構(gòu)赂弓。

葉子大小

Brute force 在小樣本上比樹結(jié)構(gòu)更高效鳍刷，這解釋了BallTree和KDTree 在葉子節(jié)點內(nèi)部轉(zhuǎn)換到Brute force 搜索。這種轉(zhuǎn)換可以通過參數(shù) leaf_size 設(shè)置俯抖，這個參數(shù)有很多影響：
創(chuàng)建時間：比較大的leaf_size 输瓜，創(chuàng)建比較快，因為需要創(chuàng)建的節(jié)點變少蚌成；
查詢時間：默認 leaf_size=30
內(nèi)存：隨著leaf_size 增加前痘，存儲一棵樹所需要的內(nèi)存是下降的，在BallTree中這非常重要担忧。BallTree 需要的內(nèi)存空間近似是訓(xùn)練數(shù)據(jù)規(guī)模的1/leaf_size芹缔。

Nearest Centroid Classifier

Approximate Nearest Neighbors

來源：http://scikit-learn.org/stable/modules/neighbors.html

最后編輯于：2017.12.08 01:52:47

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市瓶盛，隨后出現(xiàn)的幾起案子最欠，更是在濱河造成了極大的恐慌，老刑警劉巖惩猫，帶你破解...
沈念sama閱讀 218,755評論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件芝硬，死亡現(xiàn)場離奇詭異，居然都是意外死亡轧房，警方通過查閱死者的電腦和手機拌阴，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,305評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來奶镶，“玉大人迟赃，你說我怎么就攤上這事〕д颍” “怎么了纤壁？”我有些...
開封第一講書人閱讀 165,138評論 0贊 355
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長捺信。經(jīng)常有香客問我酌媒，道長，這世上最難降的妖魔是什么迄靠？我笑而不...
開封第一講書人閱讀 58,791評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任秒咨，我火速辦了婚禮，結(jié)果婚禮上掌挚，老公的妹妹穿的比我還像新娘拭荤。我一直安慰自己，他們只是感情好疫诽，可當我...
茶點故事閱讀 67,794評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布舅世。她就那樣靜靜地躺著旦委，像睡著了一般。火紅的嫁衣襯著肌膚如雪雏亚。梳的紋絲不亂的頭發(fā)上缨硝，一...
開封第一講書人閱讀 51,631評論 1贊 305
城市分裂傳說
那天，我揣著相機與錄音罢低，去河邊找鬼查辩。笑死，一個胖子當著我的面吹牛网持，可吹牛的內(nèi)容都是我干的宜岛。我是一名探鬼主播，決...
沈念sama閱讀 40,362評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼功舀，長吁一口氣：“原來是場噩夢啊……” “哼萍倡！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起辟汰，我...
開封第一講書人閱讀 39,264評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤列敲，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后帖汞，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體戴而，經(jīng)...
沈念sama閱讀 45,724評論 1贊 315
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,900評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年翩蘸，在試婚紗的時候發(fā)現(xiàn)自己被綠了所意。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,040評論 1贊 350
活死人
序言：一個原本活蹦亂跳的男人離奇死亡催首，死狀恐怖扶踊，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情翅帜，我是刑警寧澤，帶...
沈念sama閱讀 35,742評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布命满，位于F島的核電站涝滴，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏胶台。R本人自食惡果不足惜歼疮，卻給世界環(huán)境...
茶點故事閱讀 41,364評論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望诈唬。院中可真熱鬧韩脏，春花似錦、人聲如沸铸磅。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,944評論 0贊 22
一樁弒父案杭朱，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至吹散，卻和暖如春弧械，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背空民。一陣腳步聲響...
開封第一講書人閱讀 33,060評論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工刃唐，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人界轩。一個月前我還...
沈念sama閱讀 48,247評論 3贊 371
代替公主和親
正文我出身青樓画饥，卻偏偏與公主長得像，于是被迫代替她去往敵國和親浊猾。傳聞我的和親對象是個殘疾皇子抖甘，可洞房花燭夜當晚...
茶點故事閱讀 44,979評論 2贊 355

scikit-learn--Nearest Neighbors(最近鄰)

scikit-learn--Nearest Neighbors(最近鄰)

無監(jiān)督的最近鄰

KDTree和BallTree

最近鄰分類

最近鄰回歸

最近鄰算法

Brute Force

KDTree

BallTree

最近鄰算法選擇

葉子大小

Nearest Centroid Classifier

Approximate Nearest Neighbors

推薦閱讀更多精彩內(nèi)容