K-means計(jì)算城市聚類

前陣子有朋友請(qǐng)教茄唐,如果有一份各城市的指標(biāo)表,一共是20個(gè)城市 X 24個(gè)指標(biāo)蝇更,包括城市GDP沪编、人均GDP、人均存款等年扩,應(yīng)該如何分類蚁廓?

1.png

如果不考慮原有的一二三線城市分布,而利用各個(gè)指標(biāo)進(jìn)行分類(正確說(shuō)應(yīng)該是聚類)厨幻,我想到的就是K-means方法相嵌。

K-means是非監(jiān)督學(xué)習(xí)(unsupervised learning)中最簡(jiǎn)單也是最常用的一種聚類算法,它的計(jì)算過(guò)程非常直觀:

1况脆、隨機(jī)取k個(gè)元素饭宾,作為k個(gè)簇的各自的中心。
2格了、分別計(jì)算剩下的元素到k個(gè)簇中心的相異度看铆,將這些元素分別劃歸到相異度最低的簇。
3笆搓、根據(jù)聚類結(jié)果性湿,重新計(jì)算k個(gè)簇各自的中心,計(jì)算方法是取簇中所有元素各自維度的算術(shù)平均數(shù)满败。
4肤频、全部元素按照新的中心重新聚類。
5算墨、重復(fù)第4步宵荒,直到聚類結(jié)果不再變化。

image.png

按照以上的距離算法,取值范圍大的屬性报咳,例如gdp的數(shù)字差別侠讯,會(huì)產(chǎn)生更大的距離影響,這樣不利于反映真實(shí)的相異度暑刃。為了解決這個(gè)問(wèn)題厢漩,一般要對(duì)屬性值按照比例進(jìn)行規(guī)格化,(scale)映射到[0,1]區(qū)間岩臣。平衡各個(gè)屬性對(duì)距離的影響溜嗜。
代碼如下:

install.packages("corrplot")
library(corrplot)

install.packages("readr")
library(readr)
setwd("E:")
city<-read_csv("city.csv")
head(city)

#設(shè)立一個(gè)空數(shù)據(jù)框,城市名跟原來(lái)的相同
data<-as.data.frame(matrix(ID<-city$city))

#重點(diǎn)是這里:將表格2-25列進(jìn)行循環(huán)架谎,每一列指標(biāo)用kmeans方法分成三類炸宵,再將每個(gè)城市的分類加入新的表格中。
for (m in 2:25){
  my.km<-kmeans(scale(city[,m]),center=3)
  data<-cbind(data,my.km$cluster)
}

names(data)<-names(city)

這樣最后成為的就是一個(gè)矩陣谷扣,在excel里直觀顯示如此:

2.png

這個(gè)可以繼續(xù)往下挖掘土全,例如各個(gè)指標(biāo)間的相互聯(lián)系,可以用cor函數(shù)做会涎,也可以直接用corrplot來(lái)做可視化裹匙。

corr <- cor(data[2:25])
corrplot(corr)
3.png

從圖中可以看出,GDP與政府花費(fèi)是有著很強(qiáng)大正相關(guān)關(guān)系在塔。因此幻件,如何選擇重要的指標(biāo),正切利用或排除這些相互影響的因素蛔溃,是做好預(yù)測(cè)和聚類的不可忽略的關(guān)鍵一步。
以上僅為初步探討篱蝇,歡迎批評(píng)指正贺待。


參考文件
http://www.cnblogs.com/leoo2sk/archive/2010/09/20/k-means.html

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市零截,隨后出現(xiàn)的幾起案子麸塞,更是在濱河造成了極大的恐慌,老刑警劉巖涧衙,帶你破解...
    沈念sama閱讀 211,042評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件哪工,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡弧哎,警方通過(guò)查閱死者的電腦和手機(jī)雁比,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)撤嫩,“玉大人偎捎,你說(shuō)我怎么就攤上這事。” “怎么了茴她?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,674評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵寻拂,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我丈牢,道長(zhǎng)祭钉,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,340評(píng)論 1 283
  • 正文 為了忘掉前任己沛,我火速辦了婚禮朴皆,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘泛粹。我一直安慰自己遂铡,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,404評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布晶姊。 她就那樣靜靜地躺著扒接,像睡著了一般。 火紅的嫁衣襯著肌膚如雪们衙。 梳的紋絲不亂的頭發(fā)上钾怔,一...
    開(kāi)封第一講書(shū)人閱讀 49,749評(píng)論 1 289
  • 那天,我揣著相機(jī)與錄音蒙挑,去河邊找鬼宗侦。 笑死,一個(gè)胖子當(dāng)著我的面吹牛忆蚀,可吹牛的內(nèi)容都是我干的矾利。 我是一名探鬼主播,決...
    沈念sama閱讀 38,902評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼馋袜,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼男旗!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起欣鳖,我...
    開(kāi)封第一講書(shū)人閱讀 37,662評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤察皇,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后泽台,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體什荣,經(jīng)...
    沈念sama閱讀 44,110評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評(píng)論 2 325
  • 正文 我和宋清朗相戀三年怀酷,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了稻爬。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,577評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡胰坟,死狀恐怖因篇,靈堂內(nèi)的尸體忽然破棺而出泞辐,到底是詐尸還是另有隱情,我是刑警寧澤竞滓,帶...
    沈念sama閱讀 34,258評(píng)論 4 328
  • 正文 年R本政府宣布咐吼,位于F島的核電站,受9級(jí)特大地震影響商佑,放射性物質(zhì)發(fā)生泄漏锯茄。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,848評(píng)論 3 312
  • 文/蒙蒙 一茶没、第九天 我趴在偏房一處隱蔽的房頂上張望肌幽。 院中可真熱鬧,春花似錦抓半、人聲如沸喂急。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,726評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)廊移。三九已至,卻和暖如春探入,著一層夾襖步出監(jiān)牢的瞬間狡孔,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,952評(píng)論 1 264
  • 我被黑心中介騙來(lái)泰國(guó)打工蜂嗽, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留苗膝,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,271評(píng)論 2 360
  • 正文 我出身青樓植旧,卻偏偏與公主長(zhǎng)得像辱揭,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子隆嗅,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,452評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容