R成精-機(jī)器學(xué)習(xí)分類(lèi)算法

1故硅、算法介紹

一個(gè)樣本對(duì)應(yīng)一個(gè)分類(lèi)庶灿,用訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)分類(lèi)器,在輸入沒(méi)有標(biāo)簽的樣本時(shí)吃衅,將新數(shù)據(jù)與訓(xùn)練集的數(shù)據(jù)對(duì)應(yīng)特征進(jìn)行比較往踢,找出“距離”最近的k個(gè)數(shù)據(jù),選擇這k個(gè)數(shù)據(jù)中出現(xiàn)最多的分類(lèi)作為新數(shù)據(jù)的分類(lèi)徘层。

算法描述
  1. 計(jì)算已知類(lèi)別數(shù)據(jù)及中的點(diǎn)與當(dāng)前點(diǎn)的距離峻呕;
    距離計(jì)算方法有"euclidean"(歐氏距離),”minkowski”(明科夫斯基距離), "maximum"(切比雪夫距離), "manhattan"(絕對(duì)值距離),"canberra"(蘭式距離), 或 "minkowski"(馬氏距離)等.
  2. 按距離遞增次序排序
  3. 選取與當(dāng)前點(diǎn)距離最小的k個(gè)點(diǎn),
  4. 確定前K個(gè)點(diǎn)所在類(lèi)別出現(xiàn)的頻率
  5. 返回頻率最高的類(lèi)別作為當(dāng)前類(lèi)別的預(yù)測(cè)
特點(diǎn)

KNN是有監(jiān)督的學(xué)習(xí)算法趣效,其特點(diǎn)有:

  1. 精度高山上,對(duì)異常值不敏感
  2. 只能處理數(shù)值型屬性
  3. 計(jì)算復(fù)雜度高(如已知分類(lèi)的樣本數(shù)為n,那么對(duì)每個(gè)未知分類(lèi)點(diǎn)要計(jì)算n個(gè)距離)
存在的問(wèn)題

KNN算法目前存在的問(wèn)題:

  1. k值的確定是個(gè)難題英支。
  2. 如果距離最近的k個(gè)已知分類(lèi)樣本中佩憾,頻數(shù)較高的類(lèi)型有多個(gè)(頻數(shù)相同),如何選擇對(duì)未知樣本的分類(lèi)?目前看是隨機(jī)的妄帘。
  3. 如果有n個(gè)未知類(lèi)型樣本楞黄,m個(gè)已知類(lèi)型樣本,則需要計(jì)算n*m個(gè)距離抡驼,計(jì)算量較大鬼廓,且需存儲(chǔ)全部數(shù)據(jù)集合,空間復(fù)雜度也較大致盟。
  4. 能否把預(yù)測(cè)的樣本分類(lèi)加入到已知類(lèi)別集合中碎税,對(duì)剩余的未知類(lèi)型樣本進(jìn)行分類(lèi)?
  5. 歸一化放在所有處理的最前面馏锡,這樣需要知道全部的樣本集合(已知分類(lèi)+未知分類(lèi))來(lái)構(gòu)建分類(lèi)器雷蹂,而實(shí)際上未知分類(lèi)的樣本并不一定能事先獲得,這樣如何進(jìn)行歸一化處理杯道,任然是個(gè)問(wèn)題匪煌。

應(yīng)用領(lǐng)域:

  1. 計(jì)算機(jī)視覺(jué):包含字符和面部識(shí)別等
  2. 推薦系統(tǒng):推薦受眾喜歡電影、美食和娛樂(lè)等
  3. 基因工程:識(shí)別基因數(shù)據(jù)的模式党巾,用于發(fā)現(xiàn)特定的蛋白質(zhì)或疾病等

2萎庭、R算法

  1. class函數(shù)包中的knn、knn.cv函數(shù)齿拂;
  2. caret函數(shù)包中的knn3函數(shù)驳规;
  3. kknn函數(shù)包中的kknn函數(shù);
  4. ipred函數(shù)包中的ipredknn函數(shù)
  5. DMwR函數(shù)包中的kNN函數(shù)

3署海、案例

實(shí)驗(yàn)環(huán)境
  • 操作系統(tǒng):
Mac OS X High Sierra 10.13.1+2.5 GHz Intel Core i7+16 GB 1600 MHz DDR3
R version 3.4.2 (2017-09-28)
變量名 描述
Survived 生存 (1) or 死亡 (0)
Pclass 客艙等級(jí)
Name 姓名
Sex 性別
Age 年齡
SibSp 兄弟姐妹和夫妻數(shù)
Parch 父母和兒女?dāng)?shù)
Ticket 船票號(hào)
Fare 費(fèi)用
Cabin 客艙號(hào)
Embarked 出發(fā)的港口
  • 程序代碼
    #數(shù)據(jù)處理
library("class")
library("caret")
library("kknn")
library("ipred")
library("DMwR")#加載程序包
library('dplyr')
test<-read.csv("./test.csv",stringsAsFactors = F)
train<-read.csv("./train.csv",stringsAsFactors = F)
test$datatype<-"test"
train$datatype<-"train"
full  <-bind_rows(train, test)
full$Sex[full$Sex=="female"]<-1
full$Sex[full$Sex=="male"]<-0
full$Sex<-as.numeric(full$Sex)
full$Embarked [full$Embarked =="S"]<-1
full$Embarked [full$Embarked =="C"]<-2
full$Embarked [full$Embarked =="Q"]<-3
full$Embarked <-as.numeric(full$Embarked )
full$Age[is.na(full$Age)]<--1
full$Fare[is.na(full$Fare)]<-8.05
full$Embarked[is.na(full$Embarked)]<-2
full$Pclass<-as.numeric(full$Pclass)
full$SibSp<-as.numeric(full$SibSp)
full$Parch<-as.numeric(full$Parch)


train <- full[1:891,]
test <- full[892:1309,]

用Pclass 达舒、Sex 、Age叹侄、SibSp巩搏、Parch 、Fare趾代、Embarked進(jìn)行建模

  1. 基于class 函數(shù)包knn實(shí)現(xiàn)
  1. 基于caret函數(shù)包中的knn3函數(shù)實(shí)現(xiàn)
  1. 基于kknn函數(shù)包中的kknn函數(shù)實(shí)現(xiàn)
  1. 基于ipred函數(shù)包中的ipredknn函數(shù)實(shí)現(xiàn)
  1. 基于DMwR函數(shù)包中的kNN函數(shù)實(shí)現(xiàn)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末贯底,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子撒强,更是在濱河造成了極大的恐慌禽捆,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,386評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件飘哨,死亡現(xiàn)場(chǎng)離奇詭異胚想,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)芽隆,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,142評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門(mén)浊服,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)统屈,“玉大人,你說(shuō)我怎么就攤上這事牙躺〕钽荆” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,704評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵孽拷,是天一觀(guān)的道長(zhǎng)吨掌。 經(jīng)常有香客問(wèn)我,道長(zhǎng)脓恕,這世上最難降的妖魔是什么膜宋? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,702評(píng)論 1 294
  • 正文 為了忘掉前任,我火速辦了婚禮炼幔,結(jié)果婚禮上秋茫,老公的妹妹穿的比我還像新娘。我一直安慰自己江掩,他們只是感情好学辱,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,716評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布乘瓤。 她就那樣靜靜地躺著环形,像睡著了一般。 火紅的嫁衣襯著肌膚如雪衙傀。 梳的紋絲不亂的頭發(fā)上抬吟,一...
    開(kāi)封第一講書(shū)人閱讀 51,573評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音统抬,去河邊找鬼火本。 笑死,一個(gè)胖子當(dāng)著我的面吹牛聪建,可吹牛的內(nèi)容都是我干的钙畔。 我是一名探鬼主播,決...
    沈念sama閱讀 40,314評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼金麸,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼擎析!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起挥下,我...
    開(kāi)封第一講書(shū)人閱讀 39,230評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤揍魂,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后棚瘟,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體现斋,經(jīng)...
    沈念sama閱讀 45,680評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,873評(píng)論 3 336
  • 正文 我和宋清朗相戀三年偎蘸,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了庄蹋。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片瞬内。...
    茶點(diǎn)故事閱讀 39,991評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖蔓肯,靈堂內(nèi)的尸體忽然破棺而出遂鹊,到底是詐尸還是另有隱情,我是刑警寧澤蔗包,帶...
    沈念sama閱讀 35,706評(píng)論 5 346
  • 正文 年R本政府宣布秉扑,位于F島的核電站,受9級(jí)特大地震影響调限,放射性物質(zhì)發(fā)生泄漏舟陆。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,329評(píng)論 3 330
  • 文/蒙蒙 一耻矮、第九天 我趴在偏房一處隱蔽的房頂上張望秦躯。 院中可真熱鬧,春花似錦裆装、人聲如沸踱承。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,910評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)茎活。三九已至,卻和暖如春琢唾,著一層夾襖步出監(jiān)牢的瞬間载荔,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,038評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工采桃, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留懒熙,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,158評(píng)論 3 370
  • 正文 我出身青樓普办,卻偏偏與公主長(zhǎng)得像工扎,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子衔蹲,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,941評(píng)論 2 355