[R - ml]聚類

社交網(wǎng)絡用戶畫像

美國的中學生在社交網(wǎng)站上的信息聚類

teens = read.csv('E:/rpath/snsdata.csv')
dim(teens)
str(teens)

性別朋蔫,年齡棚饵,有多少個朋友
個人描述的內(nèi)容
談論內(nèi)容:足球逊移、游泳爬迟、運動倘感、毒品簇捍、飲酒禽炬、死亡...

table(teens$gender)
table(teens$gender, useNA = 'ifany')

女性占了大多數(shù)碎节,還有些沒性別曾我,有userNA 統(tǒng)計

13 - 20 歲是中學生粉怕,把其他年齡標成 NA

teens$age = ifelse(teens$age >= 13 & teens$age < 20, teens$age, NA)
summary(teens$age)

數(shù)據(jù)預處理

為了發(fā)方便后續(xù)的距離計算,我們需要把性別這個分類變量修改成數(shù)字抒巢,
顯然男贫贝,女之間,以及有性別數(shù)據(jù)與NA之間蛉谜,我們可以用0,1區(qū)分

teens$female = ifelse(teens$gender == 'F' &! is.na(teens$gender), 1, 0)
teens$no_gender = ifelse(is.na(teens$gender), 1, 0)
table(teens$gender, useNA = 'ifany')
prop.table(table(teens$gender, useNA = 'ifany'))
table(teens$female, useNA = 'ifany')
table(teens$no_gender, useNA = 'ifany')

對于年齡稚晚,我們可以考慮利用均值來替代NA

ave_age = ave(teens$age, teens$gradyear, FUN = function(x) mean(x, na.rm = TRUE))
teens$age = ifelse(is.na(teens$age), ave_age, teens$age)
summary(teens$age)

ave_age:根據(jù)畢業(yè)的年,計算年齡均值

建立模型

前4個特征畢業(yè)年型诚,性別客燕,年齡,朋友數(shù)在這里不作為輸入

interests = teens[5:40]

先行進行數(shù)據(jù) z-score 處理

interests_z = as.data.frame(lapply(interests, scale))
teen_clusters = kmeans(interests_z, 5)
  • 參數(shù)一:數(shù)據(jù)集
  • 參數(shù)二:分成幾個族

模型評估

teen_clusters$size
teen_clusters$centers # 每一類的各項得分
  • 第一類談啥都少狰贯,內(nèi)向不說話
  • 第二類談性
  • 第三類談音樂也搓、毒品
  • 第四類談圣經(jīng)
  • 第五類談體育

模型分析

teens$cluster = teen_clusters$cluster
teens[1:5, c('cluster', 'gender', 'age', 'friends')] # 只看前五條數(shù)據(jù)

不同的cluster 的年齡,性別

aggregate(data = teens, age ~ cluster, mean)
aggregate(data = teens, female ~ cluster, mean)

不同cluster 的朋友數(shù)目

aggregate(data = teens, friends ~ cluster, mean)
最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末涵紊,一起剝皮案震驚了整個濱河市傍妒,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌摸柄,老刑警劉巖颤练,帶你破解...
    沈念sama閱讀 212,718評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異驱负,居然都是意外死亡嗦玖,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,683評論 3 385
  • 文/潘曉璐 我一進店門电媳,熙熙樓的掌柜王于貴愁眉苦臉地迎上來踏揣,“玉大人,你說我怎么就攤上這事匾乓±谈澹” “怎么了?”我有些...
    開封第一講書人閱讀 158,207評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長娱局。 經(jīng)常有香客問我彰亥,道長,這世上最難降的妖魔是什么衰齐? 我笑而不...
    開封第一講書人閱讀 56,755評論 1 284
  • 正文 為了忘掉前任任斋,我火速辦了婚禮,結果婚禮上耻涛,老公的妹妹穿的比我還像新娘废酷。我一直安慰自己,他們只是感情好抹缕,可當我...
    茶點故事閱讀 65,862評論 6 386
  • 文/花漫 我一把揭開白布澈蟆。 她就那樣靜靜地躺著,像睡著了一般卓研。 火紅的嫁衣襯著肌膚如雪趴俘。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 50,050評論 1 291
  • 那天奏赘,我揣著相機與錄音寥闪,去河邊找鬼。 笑死磨淌,一個胖子當著我的面吹牛疲憋,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播梁只,決...
    沈念sama閱讀 39,136評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼柜某,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了敛纲?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 37,882評論 0 268
  • 序言:老撾萬榮一對情侶失蹤剂癌,失蹤者是張志新(化名)和其女友劉穎淤翔,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體佩谷,經(jīng)...
    沈念sama閱讀 44,330評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡旁壮,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,651評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了谐檀。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片抡谐。...
    茶點故事閱讀 38,789評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖桐猬,靈堂內(nèi)的尸體忽然破棺而出麦撵,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 34,477評論 4 333
  • 正文 年R本政府宣布免胃,位于F島的核電站音五,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏羔沙。R本人自食惡果不足惜躺涝,卻給世界環(huán)境...
    茶點故事閱讀 40,135評論 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望扼雏。 院中可真熱鬧坚嗜,春花似錦、人聲如沸诗充。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,864評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽其障。三九已至银室,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間励翼,已是汗流浹背蜈敢。 一陣腳步聲響...
    開封第一講書人閱讀 32,099評論 1 267
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留汽抚,地道東北人抓狭。 一個月前我還...
    沈念sama閱讀 46,598評論 2 362
  • 正文 我出身青樓,卻偏偏與公主長得像造烁,于是被迫代替她去往敵國和親否过。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,697評論 2 351