Task03-K近鄰(k-nearest neighbors)-基本理論(天池機(jī)器學(xué)習(xí)訓(xùn)練營(yíng)D7)

本筆記為參加阿里云“天池龍珠計(jì)劃 機(jī)器學(xué)習(xí)訓(xùn)練營(yíng)”所做的學(xué)習(xí)記錄,代碼及知識(shí)內(nèi)容均來(lái)源于訓(xùn)練營(yíng)捶箱,本人稍作擴(kuò)充。
具體活動(dòng)內(nèi)容請(qǐng)移步阿里云天池龍珠計(jì)劃; 同時(shí)感謝公眾號(hào)“機(jī)器學(xué)習(xí)煉丹術(shù)”的介紹页响、推廣和組織闺魏。

1 KNN的介紹和應(yīng)用

1.1 KNN的介紹

kNN(k-nearest neighbors),中文翻譯K近鄰鸭限。我們常常聽(tīng)到一個(gè)故事:如果要了解一個(gè)人的經(jīng)濟(jì)水平蜕径,只需要知道他最好的5個(gè)朋友的經(jīng)濟(jì)能力, 對(duì)他的這五個(gè)人的經(jīng)濟(jì)水平求平均就是這個(gè)人的經(jīng)濟(jì)水平败京。這句話里面就包含著kNN的算法思想兜喻。


KNNFig1.png

示例 :如上圖,綠色圓要被決定賦予哪個(gè)類(lèi)赡麦,是紅色三角形還是藍(lán)色四方形朴皆?如果K=3,由于紅色三角形所占比例為2/3泛粹,綠色圓將被賦予紅色三角形那個(gè)類(lèi)遂铡,如果K=5,由于藍(lán)色四方形比例為3/5戚扳,因此綠色圓被賦予藍(lán)色四方形類(lèi)忧便。

1) KNN建立過(guò)程

1 給定測(cè)試樣本,計(jì)算它與訓(xùn)練集中的每一個(gè)樣本的距離帽借。
2 找出距離近期的K個(gè)訓(xùn)練樣本珠增。作為測(cè)試樣本的近鄰。
3 依據(jù)這K個(gè)近鄰歸屬的類(lèi)別來(lái)確定樣本的類(lèi)別砍艾。

2) 類(lèi)別的判定

①投票決定蒂教,少數(shù)服從多數(shù)。取類(lèi)別最多的為測(cè)試樣本類(lèi)別脆荷。
②加權(quán)投票法凝垛,依據(jù)計(jì)算得出距離的遠(yuǎn)近,對(duì)近鄰的投票進(jìn)行加權(quán)蜓谋,距離越近則權(quán)重越大梦皮,設(shè)定權(quán)重為距離平方的倒數(shù)。

1.2 KNN的應(yīng)用

KNN雖然很簡(jiǎn)單桃焕,但是人們常說(shuō)"大道至簡(jiǎn)"剑肯,一句"物以類(lèi)聚,人以群分"就能揭開(kāi)其面紗观堂,看似簡(jiǎn)單的KNN即能做分類(lèi)又能做回歸让网, 還能用來(lái)做數(shù)據(jù)預(yù)處理的缺失值填充呀忧。由于KNN模型具有很好的解釋性,一般情況下對(duì)于簡(jiǎn)單的機(jī)器學(xué)習(xí)問(wèn)題溃睹,我們可以使用KNN作為 Baseline而账,對(duì)于每一個(gè)預(yù)測(cè)結(jié)果,我們可以很好的進(jìn)行解釋因篇。推薦系統(tǒng)的中泞辐,也有著KNN的影子。例如文章推薦系統(tǒng)中竞滓, 對(duì)于一個(gè)用戶(hù)A铛碑,我們可以把和A最相近的k個(gè)用戶(hù),瀏覽過(guò)的文章推送給A虽界。

機(jī)器學(xué)習(xí)領(lǐng)域中,數(shù)據(jù)往往很重要涛菠,有句話叫做:"數(shù)據(jù)決定任務(wù)的上限, 模型的目標(biāo)是無(wú)限接近這個(gè)上限"莉御。 可以看到好的數(shù)據(jù)非常重要,但是由于各種原因俗冻,我們得到的數(shù)據(jù)是有缺失的礁叔,如果我們能夠很好的填充這些缺失值, 就能夠得到更好的數(shù)據(jù)迄薄,以至于訓(xùn)練出來(lái)更魯棒的模型琅关。接下來(lái)我們就來(lái)看看KNN如果做分類(lèi),怎么做回歸以及怎么填充空值讥蔽。

2 實(shí)驗(yàn)室手冊(cè)

2.1 實(shí)驗(yàn)環(huán)境

1\. python3.7
2\. numpy >= '1.16.4'
3\. sklearn >= '0.23.1'

2.2 學(xué)習(xí)目標(biāo)

  1. 了解KNN怎么做分類(lèi)問(wèn)題
  2. 了解KNN如何做回歸
  3. 了解KNN怎么做空值填充, 如何使用knn構(gòu)建帶有空值的pipeline

2.3 代碼流程

  1. 二維數(shù)據(jù)集--knn分類(lèi)

    • Step1: 庫(kù)函數(shù)導(dǎo)入
    • Step2: 數(shù)據(jù)導(dǎo)入
    • Step3: 模型訓(xùn)練&可視化
    • Step4: 原理簡(jiǎn)析
  2. 鳶尾花數(shù)據(jù)集--KNN分類(lèi)

    • Step1: 庫(kù)函數(shù)導(dǎo)入
    • Step2: 數(shù)據(jù)導(dǎo)入&分析
    • Step3: 模型訓(xùn)練
    • Step4: 模型預(yù)測(cè)&可視化
  3. 模擬數(shù)據(jù)集--KNN回歸

    • Step1: 庫(kù)函數(shù)導(dǎo)入
    • Step2: 數(shù)據(jù)導(dǎo)入&分析
    • Step3: 模型訓(xùn)練&可視化
  4. 馬絞痛數(shù)據(jù)--kNN數(shù)據(jù)預(yù)處理+kNN分類(lèi)pipeline

    • Step1: 庫(kù)函數(shù)導(dǎo)入
    • Step2: 數(shù)據(jù)導(dǎo)入&分析
    • Step3: KNNImputer空值填充--使用和原理介紹
    • Step4: KNNImputer空值填充--歐式距離的計(jì)算
    • Step5: 基于pipeline模型預(yù)測(cè)&可視化
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末涣易,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子冶伞,更是在濱河造成了極大的恐慌新症,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,807評(píng)論 6 518
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件响禽,死亡現(xiàn)場(chǎng)離奇詭異徒爹,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)芋类,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,284評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén)隆嗅,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人侯繁,你說(shuō)我怎么就攤上這事胖喳。” “怎么了巫击?”我有些...
    開(kāi)封第一講書(shū)人閱讀 169,589評(píng)論 0 363
  • 文/不壞的土叔 我叫張陵禀晓,是天一觀的道長(zhǎng)精续。 經(jīng)常有香客問(wèn)我,道長(zhǎng)粹懒,這世上最難降的妖魔是什么重付? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 60,188評(píng)論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮凫乖,結(jié)果婚禮上确垫,老公的妹妹穿的比我還像新娘。我一直安慰自己帽芽,他們只是感情好删掀,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,185評(píng)論 6 398
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著导街,像睡著了一般披泪。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上搬瑰,一...
    開(kāi)封第一講書(shū)人閱讀 52,785評(píng)論 1 314
  • 那天款票,我揣著相機(jī)與錄音,去河邊找鬼泽论。 笑死艾少,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的翼悴。 我是一名探鬼主播缚够,決...
    沈念sama閱讀 41,220評(píng)論 3 423
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼鹦赎!你這毒婦竟也來(lái)了谍椅?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 40,167評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤钙姊,失蹤者是張志新(化名)和其女友劉穎毯辅,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體煞额,經(jīng)...
    沈念sama閱讀 46,698評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡思恐,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,767評(píng)論 3 343
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了膊毁。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片胀莹。...
    茶點(diǎn)故事閱讀 40,912評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖婚温,靈堂內(nèi)的尸體忽然破棺而出描焰,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 36,572評(píng)論 5 351
  • 正文 年R本政府宣布荆秦,位于F島的核電站篱竭,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏步绸。R本人自食惡果不足惜掺逼,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,254評(píng)論 3 336
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望瓤介。 院中可真熱鬧吕喘,春花似錦、人聲如沸刑桑。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,746評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)祠斧。三九已至闻察,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間琢锋,已是汗流浹背蜓陌。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,859評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留吩蔑,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 49,359評(píng)論 3 379
  • 正文 我出身青樓填抬,卻偏偏與公主長(zhǎng)得像烛芬,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子飒责,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,922評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容