上了猴子的大數(shù)據(jù)課第三講后瞄崇,因為有預(yù)習(xí)的緣故纹因,程序跑的比較順利盔腔。按照課后布置杠茬,用相似的思路,進行實踐分析弛随。
最先選取的是北京各區(qū)普通住宅成交十年(2016年及2006年)漲幅對比瓢喉。這張圖比較plain,主要拿來練習(xí):
1.數(shù)據(jù)表格的基本整理及計算
2. 數(shù)據(jù)的初步分析
3.線圖的基本繪圖
圖片輸入為excel舀透,然后倒入到r程序中栓票。
install.packages("openxlsx")
library(openxlsx)
readFilePath<-"E:/citystock.xlsx"
mydata<-read.xlsx(readFilePath,"Sheet2")
按照短平快的思路,首先把線圖做出來
plot(mydata$y2006,col="red",ylim=c(0,95000),type="b")
lines(mydata$y2016,col="blue",type="b")
lines單獨不能繪圖愕够,所以要plot先行走贪。
2. 按照原始的表格,各區(qū)排名高低錯落惑芭,看不出來趨勢坠狡,所以插入order語句按照2006年的均價進行排序。然后檢查一下遂跟。
mydata<-mydata[order(mydata$y2006),]
mydata
3.修改plot及l(fā)ines語句逃沿,進行美化,線條及圖例進行區(qū)分幻锁,因為區(qū)名是比較長的中文凯亮,所以字體要進行豎排及縮小,las=1哄尔,cex為0.5假消。
加入2006年及2016年均價的中間值(黃色線),作為參考究飞。
mydata$mid<-(mydata$y2006+mydata$y2016)%/%2
plot(mydata$y2006,col="red",ylim=c(0,95000),type="b",xaxt="n",ylab="price")
lines(mydata$y2016,col="blue",type="b",pch=17,las=1)
lines(mydata$mid,col="gold",type="b",pch=16)
axis(1,las=2,at=c(1:16),labels=mydata$city,cex.lab=0.5)
4. 加入2006年置谦,2016年各自的平均線,顏色為灰色及粉紅亿傅。這樣哪個區(qū)是超出的媒峡,一目了然。
abline(h=(mean(mydata$y2006)+mean(mydata$y2016))%/%2,col="grey")
abline(h=mean(mydata$y2016),col="pink")
abline(h=mean(mydata$y2006),col="pink")
5.?加入圖例legend葵擎,谅阿,在2016年均線上加入互動標注(點擊后才出現(xiàn)),以及缺省柵格
legend("topleft",bty="n",horiz=TRUE,pch=c(17,16,21),c("2016","mean","2006"),col=c("blue","gold","red"),cex=0.8)
text(locator(1),"2016均價",4,cex=.8,color="brown")
grid()
至此,由簡單表格轉(zhuǎn)化的圖表基本完成签餐。不過從圖像來看寓涨,好像東城區(qū)漲幅最驚人,但是通過表格氯檐,其實東城區(qū)的漲幅并非最高戒良。因此我們可能需要用條形圖再顯示。這個就需要我繼續(xù)努力啦冠摄。
小白作業(yè)糯崎,歡迎提各種意見。