在學(xué)習(xí)了《R語言實(shí)戰(zhàn)》第四章及視頻課之后勿她,便想利用所學(xué)知識(shí)對(duì)自己的專業(yè)進(jìn)行表格分析适荣。不管行不行吧芽淡,先拿個(gè)表格練練手再說马绝。
選取的是某天從網(wǎng)上看到的二線城市的綜合維度表格。
這個(gè)表格是圖片挣菲,所以第一步是自己輸入為excel表格富稻。
第二步是導(dǎo)入excel文件,我練習(xí)了三種辦法:
1. 粘貼 ?read.table(“Clipboard”)
2. 將excel存為csv文件:mydata<-read.table("third.csv",header=FALSE,sep=",")
直接導(dǎo)入excel文件
library(readxl)
setwd("E:\\")
mydata<-read_excel("third.xlsx")
文件導(dǎo)入很順利白胀,但出現(xiàn)以下問題:
1.計(jì)算機(jī)無法將所有內(nèi)容當(dāng)做數(shù)值型參數(shù)椭赋,即使我特定的選取了某些列,來計(jì)算平均值等也無法輸出或杠。除非把表頭的字符都省掉哪怔,比如mydata<-mydata[-1]這個(gè)語句,把第一列去掉向抢。
如果重新手動(dòng)輸入认境,也可以建立一個(gè)沒有字符的數(shù)據(jù)框。暫時(shí)只用了本輪漲幅挟鸠、人口規(guī)模叉信、所在省人口,人均GDP這四個(gè)指標(biāo)艘希。
輸出如下:
這樣當(dāng)然可以計(jì)算平均值硼身。
然后試著做了一下線性分析:選取第一列本輪漲幅硅急,和第二列人口規(guī)模
線性分析的截距還看不出來,
散點(diǎn)圖如下:可見這些二線城市人口規(guī)模比較集中佳遂,但漲幅有高有低营袜。
再然后練習(xí)了一下結(jié)對(duì)的散點(diǎn)圖
>pairs(mydata[,1:4])
>plot
好像也不存在線性關(guān)系。第二列的散點(diǎn)圖比較垂直丑罪,是因?yàn)檫@些二線城市的人口規(guī)模多集中在800-1000萬的人口之間荚板。
繼續(xù)努力,這篇遲點(diǎn)改進(jìn)吩屹,比如加入其它指標(biāo)啸驯,或者分析其它關(guān)系。所以算是未完待續(xù)吧祟峦。
如果能指正本小白,為什么導(dǎo)入excel表后徙鱼,header第一行和第一列都是字符的情況下宅楞,如何算出平均數(shù)等,那就太好了袱吆,感恩~