【機器學習】instance-based learning和KNN

Supervised Learning

給你一些數(shù)據(jù)集屡拨，用算法去訓練函數(shù)份招，訓練出來后，就可以投入新的數(shù)據(jù)進行預測哩罪。

Instance Based Learning

不包含訓練函數(shù)這個過程授霸，只需要把所有數(shù)據(jù)放在數(shù)據(jù)庫里巡验，投入新的數(shù)據(jù)時，只需要去數(shù)據(jù)庫里查找碘耳，

優(yōu)點是：

Remember：可信显设，不需要平滑什么的近似

Fast：不需要 learning

Simple：

缺點是：

Overfitting：太依賴已有數(shù)據(jù)了

看起來只能返回已有數(shù)據(jù)，無法返回新數(shù)據(jù)

應用舉例：

紅色很貴辛辨，藍色中等捕捂，綠色最便宜，要預測黑色點的顏色斗搞。

方法就是看 Nearest Neighbor指攒，如果只看一個neighbor，有些點比較容易看出來僻焚，有些點需要看很多 neighbor 才能看準允悦，不能單純只取一個最近的，所以是 K Nearest Neighbors溅呢。

相似度比較

K-近鄰算法（KNN）概述?

最簡單最初級的分類器是將全部的訓練數(shù)據(jù)所對應的類別都記錄下來澡屡，當測試對象的屬性和某個訓練對象的屬性完全匹配時，便可以對其進行分類咐旧。但是怎么可能所有測試對象都會找到與之完全匹配的訓練對象呢，其次就是存在一個測試對象同時與多個訓練對象匹配绩蜻，導致一個訓練對象被分到了多個類的問題铣墨，基于這些問題呢，就產(chǎn)生了KNN办绝。

? ? ?KNN是通過測量不同特征值之間的距離進行分類伊约。它的思路是：如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別，則該樣本也屬于這個類別孕蝉，其中K通常是不大于20的整數(shù)屡律。KNN算法中，所選擇的鄰居都是已經(jīng)正確分類的對象降淮。該方法在定類決策上只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別超埋。

? ? ?下面通過一個簡單的例子說明一下：如下圖，綠色圓要被決定賦予哪個類佳鳖，是紅色三角形還是藍色四方形霍殴？如果K=3，由于紅色三角形所占比例為2/3系吩，綠色圓將被賦予紅色三角形那個類来庭，如果K=5，由于藍色四方形比例為3/5穿挨，因此綠色圓被賦予藍色四方形類月弛。

由此也說明了KNN算法的結果很大程度取決于K的選擇肴盏。

? ? ?在KNN中，通過計算對象間距離來作為各個對象之間的非相似性指標帽衙，避免了對象之間的匹配問題叁鉴，在這里距離一般使用歐氏距離或曼哈頓距離：

同時，KNN通過依據(jù)k個對象中占優(yōu)的類別進行決策佛寿，而不是單一的對象類別決策幌墓。這兩點就是KNN算法的優(yōu)勢。

?? 接下來對KNN算法的思想總結一下：就是在訓練集中數(shù)據(jù)和標簽已知的情況下冀泻，輸入測試數(shù)據(jù)常侣，將測試數(shù)據(jù)的特征與訓練集中對應的特征進行相互比較，找到訓練集中與之最為相似的前K個數(shù)據(jù)弹渔，則該測試數(shù)據(jù)對應的類別就是K個數(shù)據(jù)中出現(xiàn)次數(shù)最多的那個分類胳施，其算法的描述為：

1）計算測試數(shù)據(jù)與各個訓練數(shù)據(jù)之間的距離；

2）按照距離的遞增關系進行排序肢专；

3）選取距離最小的K個點舞肆；

4）確定前K個點所在類別的出現(xiàn)頻率；

5）返回前K個點中出現(xiàn)頻率最高的類別作為測試數(shù)據(jù)的預測分類博杖。

K-近鄰的優(yōu)缺點

KNN算法的優(yōu)點：

1）簡單椿胯、有效。

2）重新訓練的代價較低（類別體系的變化和訓練集的變化剃根，在Web環(huán)境和電子商務應用中是很常見的）哩盲。

3）計算時間和空間線性于訓練集的規(guī)模（在一些場合不算太大）。

4）由于KNN方法主要靠周圍有限的鄰近的樣本狈醉，而不是靠判別類域的方法來確定所屬類別的廉油，因此對于類域的交叉或重疊較多的待分樣本集來說，KNN方法較其他方法更為適合苗傅。

5）該算法比較適用于樣本容量比較大的類域的自動分類抒线，而那些樣本容量較小的類域采用這種算法比較容易產(chǎn)生誤分。

KNN算法缺點：

1）KNN算法是懶散學習方法（lazy learning,基本上不學習）渣慕，一些積極學習的算法要快很多嘶炭。

2）類別評分不是規(guī)格化的（不像概率評分）。

3）輸出的可解釋性不強摇庙，例如決策樹的可解釋性較強旱物。

4）該算法在分類時有個主要的不足是，當樣本不平衡時卫袒，如一個類的樣本容量很大宵呛，而其他類樣本容量很小時，有可能導致當輸入一個新樣本時夕凝，該樣本的K個鄰居中大容量類的樣本占多數(shù)宝穗。該算法只計算“最近的”鄰居樣本户秤，某一類的樣本數(shù)量很大，那么或者這類樣本并不接近目標樣本逮矛，或者這類樣本很靠近目標樣本鸡号。無論怎樣，數(shù)量并不能影響運行結果须鼎【ò椋可以采用權值的方法（和該樣本距離小的鄰居權值大）來改進。

5）計算量較大晋控。目前常用的解決方法是事先對已知樣本點進行剪輯汞窗，事先去除對分類作用不大的樣本。

再講一下KNN是如何匹配class的

1看每個class的出現(xiàn)頻率

2通過計算每個class離中心得距離來weight

舉例

如果各class頻率和weighted distance都一樣怎么辦赡译？

隨機一個class

選一個有最高可能性的class（不太明白這里怎么選）

k+1

那K應該取多少呢仲吏？

取小了會導致有noise（過擬合）使得classifier性能變差

取大了會導致性能傾向于0-r（也差）

Overfitting

在統(tǒng)計學和機器學習中，overfitting一般在描述統(tǒng)計學模型隨機誤差或噪音時用到蝌焚。它通常發(fā)生在模型過于復雜的情況下裹唆，如參數(shù)過多等。overfitting會使得模型的預測性能變弱只洒，并且增加數(shù)據(jù)的波動性许帐。

發(fā)生overfitting是因為評判訓練模型的標準不適用于作為評判該模型好壞的標準，模型通常會增強模型在訓練模型的預測性能红碑。但是模型的性能并不是由模型在訓練集的表現(xiàn)好壞而決定舞吭，它是由模型在未知數(shù)據(jù)集上的表現(xiàn)確定的。當模型開始“memorize”訓練數(shù)據(jù)而不是從訓練數(shù)據(jù)中“l(fā)earning”時析珊，overfitting就出現(xiàn)了。比如蔑穴，如果模型的parameters大于或等于觀測值的個數(shù)忠寻，這種模型會顯得過于簡單，雖然模型在訓練時的效果可以表現(xiàn)的很完美存和，基本上記住了數(shù)據(jù)的全部特點奕剃，但這種模型在未知數(shù)據(jù)的表現(xiàn)能力會大減折扣，因為簡單的模型泛化能力通常都是很弱的捐腿。

Nearest Prototype Classification

取每個class的instance的平均點纵朋，然后計算中心店離每個class的距離，選最短的那個

最后編輯于：2019.06.13 12:29:40

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末茄袖，一起剝皮案震驚了整個濱河市操软，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌宪祥，老刑警劉巖聂薪，帶你破解...
沈念sama閱讀 218,122評論 6贊 505
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件家乘，死亡現(xiàn)場離奇詭異，居然都是意外死亡藏澳，警方通過查閱死者的電腦和手機仁锯，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,070評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來翔悠，“玉大人业崖，你說我怎么就攤上這事⌒畛睿” “怎么了双炕？”我有些...
開封第一講書人閱讀 164,491評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長涝登。經(jīng)常有香客問我雄家，道長，這世上最難降的妖魔是什么胀滚？我笑而不...
開封第一講書人閱讀 58,636評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任趟济，我火速辦了婚禮，結果婚禮上咽笼，老公的妹妹穿的比我還像新娘顷编。我一直安慰自己，他們只是感情好剑刑，可當我...
茶點故事閱讀 67,676評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布媳纬。她就那樣靜靜地躺著，像睡著了一般施掏。火紅的嫁衣襯著肌膚如雪钮惠。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,541評論 1贊 305
城市分裂傳說
那天七芭，我揣著相機與錄音素挽，去河邊找鬼。笑死狸驳，一個胖子當著我的面吹牛预明，可吹牛的內容都是我干的。我是一名探鬼主播耙箍，決...
沈念sama閱讀 40,292評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼撰糠，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了辩昆？” 一聲冷哼從身側響起阅酪，我...
開封第一講書人閱讀 39,211評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后遮斥，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體峦失，經(jīng)...
沈念sama閱讀 45,655評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 37,846評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年术吗，在試婚紗的時候發(fā)現(xiàn)自己被綠了尉辑。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 39,965評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡较屿，死狀恐怖隧魄，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情隘蝎，我是刑警寧澤购啄，帶...
沈念sama閱讀 35,684評論 5贊 347
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站嘱么，受9級特大地震影響狮含，放射性物質發(fā)生泄漏。R本人自食惡果不足惜曼振，卻給世界環(huán)境...
茶點故事閱讀 41,295評論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一几迄、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧冰评，春花似錦映胁、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,894評論 0贊 22
一樁弒父案解孙，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至抛人，卻和暖如春弛姜，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背妖枚。一陣腳步聲響...
開封第一講書人閱讀 33,012評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工娱据，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人盅惜。一個月前我還...
沈念sama閱讀 48,126評論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像忌穿，于是被迫代替她去往敵國和親抒寂。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 44,914評論 2贊 355