本文所使用的數(shù)據(jù)是安居客的二手房數(shù)據(jù)(爬蟲(chóng)水平不怎樣董朝,一爬就404了等舔,所以這邊直接用八爪魚(yú)給抓了數(shù)據(jù)眷柔,爬蟲(chóng)的程序之后補(bǔ)上,用八爪魚(yú)爬非常簡(jiǎn)單公你,不會(huì)的同學(xué)可以參一下這個(gè)鏈接https://wenku.baidu.com/view/11cece9859f5f61fb7360b4c2e3f5727a5e924d2.html)踊淳。我總共導(dǎo)出了1000多條數(shù)據(jù)。
我是一個(gè)純小白陕靠,所以數(shù)據(jù)分析的流程參考了https://blog.csdn.net/Caesar1993_Wang/article/details/80237461迂尝,并對(duì)里面的代碼進(jìn)行了一點(diǎn)自己的補(bǔ)充。
一剪芥、初步分析
1垄开、整體二手房房?jī)r(jià)分析
上海二手房單為面積價(jià)格(元/平方米):
最高價(jià)格為:260504
最低價(jià)格為:8077
平均價(jià)格為:41600.63542642924
中位數(shù)為: 37463.0
從圖像上看上海二手房房?jī)r(jià)的分布
圖像顯示上海市二手房呈現(xiàn)右偏分布。
2税肪、影響房?jī)r(jià)的因素分析
(1)區(qū)位因素的影響
首先讓我們看一下不同行政區(qū)的房?jī)r(jià)情況:
從圖中結(jié)果可以看出崇明的二手房房?jī)r(jià)最低溉躲,徐匯、長(zhǎng)寧的價(jià)格非常高益兄,幾乎是上海周邊锻梳、崇明的8倍。讓我們對(duì)各個(gè)行政區(qū)的房?jī)r(jià)箱線圖净捅,看其數(shù)據(jù)的分布情況:
箱線圖顯示浦東疑枯、徐匯、靜安有較高的異常值點(diǎn)灸叼,上海周邊神汹、崇明庆捺、金山的房?jī)r(jià)較低且分布集中古今。
(2)面積對(duì)房?jī)r(jià)的相關(guān)性分析
從散點(diǎn)圖中可以看出第一梯隊(duì)的黑色散點(diǎn)相對(duì)偏向左上方,前一梯隊(duì)的整體上高于后一梯隊(duì)滔以。面積與房?jī)r(jià)的具體關(guān)系捉腥,我在這里用一元線性回歸的結(jié)果具體展示:
1.1上面直線圖顯示,第一梯度的線斜率均為正你画,即隨面積的增加抵碟,單位房?jī)r(jià)在增加桃漾,并且相比于其他線基本上更為陡峭,也就是位于繁華地帶的上海二手房房?jī)r(jià)單價(jià)隨面積增加的斜率更大拟逮。
2.2金山撬统、虹口、楊浦的房子竟然隨著面積的增大敦迄,單位面積的房?jī)r(jià)在減少
3.3第二梯度的二手房恋追,隨著面積增加二手房的單位面積價(jià)格也在增加 #總結(jié)來(lái)看,繁華地段的房子真的很值錢(qián)罚屋,寸金寸土苦囱,而不是繁華地段的房子單位面積價(jià)格增幅就比較少,也就沒(méi)有像繁華地帶那么值錢(qián)
二脾猛、區(qū)位的進(jìn)一步分析
前文已經(jīng)對(duì)各個(gè)區(qū)位的房?jī)r(jià)進(jìn)行了粗略的分析撕彤,接下來(lái)將進(jìn)行區(qū)位的進(jìn)一步分析。
(1)繪制二手房的熱力圖
繪制二手房熱力圖的時(shí)候猛拴,我們需要各個(gè)房子的經(jīng)緯度坐標(biāo)羹铅,這里可以借助百度API進(jìn)行獲取。
【獲取百度api方法:前往http://lbsyun.baidu.com/漆弄,注冊(cè)后進(jìn)入控制臺(tái)睦裳,創(chuàng)建應(yīng)用,注意應(yīng)用類(lèi)別需要時(shí)瀏覽器端撼唾,不然打不開(kāi)廉邑。創(chuàng)建完成后,你便會(huì)得到你的ak倒谷,之后便可用這個(gè)ak爬取你的數(shù)據(jù)啦】
將得到經(jīng)緯度數(shù)據(jù)保存后蛛蒙,我們可以讀取它,并將經(jīng)緯度渤愁、價(jià)格數(shù)據(jù)進(jìn)行成之后可以填進(jìn)網(wǎng)頁(yè)的格式票髓,轉(zhuǎn)換方式如下:
得到經(jīng)緯度,價(jià)格數(shù)據(jù)后喻旷,可以把var points的數(shù)據(jù)改成你自己的住册。(這邊用到的網(wǎng)頁(yè)代碼是我去http://bbs.lbsyun.baidu.com/forum.php?mod=viewthread&tid=135854粘過(guò)來(lái)的)
然后因?yàn)槲已芯康氖巧虾6址浚园裿ar point=new BMap.Point(經(jīng)度雹拄,緯度)改成上海的經(jīng)緯度(121.48038,31.236363)收奔。
最后會(huì)繪制結(jié)果如下:
關(guān)于繪制熱力圖方法,這邊寫(xiě)的很粗略滓玖,有興趣的可以看一下這個(gè)網(wǎng)頁(yè):https://blog.csdn.net/xxzj_zz2017/article/details/79396980
(2)獲取各房源距區(qū)政府坪哄、最近地鐵站的距離
以獲取房源的方式,同樣爬取上海市地鐵站、區(qū)政府的坐標(biāo)位置:
在計(jì)算區(qū)政府與最近地鐵站距離的時(shí)候翩肌,可以采用百度地圖API獲取模暗,我這邊直接用經(jīng)緯度的計(jì)算方法進(jìn)行了一個(gè)計(jì)算(參考鏈接:https://blog.csdn.net/koryako/article/details/51864161)
我們將得到的距離數(shù)據(jù)與價(jià)格同樣繪制散點(diǎn)圖,看兩兩之間是否存在關(guān)系
上圖顯示長(zhǎng)寧區(qū)等第一梯隊(duì)的區(qū)域雖然離區(qū)政府遠(yuǎn),但不不影響它們房?jī)r(jià)的高
#本份數(shù)據(jù)大部分的房源離地鐵站都挺近的粱坤,對(duì)于四個(gè)梯度的房子來(lái)說(shuō)顾孽,散點(diǎn)圖沒(méi)有很明顯的趨勢(shì)顯示地鐵對(duì)房?jī)r(jià)的影響,需要做進(jìn)一步研究比规。
三若厚、機(jī)器學(xué)習(xí)預(yù)測(cè)
到此,我已經(jīng)將做預(yù)測(cè)需要的數(shù)據(jù)收集完畢蜒什,
實(shí)際上影響房?jī)r(jià)的因素有很多测秸,因此接下來(lái)采用機(jī)器學(xué)習(xí)方法綜合考慮多個(gè)因素對(duì)房?jī)r(jià)的影響,并建立預(yù)測(cè)模型
本份數(shù)據(jù)涉及4個(gè)自變量(房屋面積灾常、所在行政區(qū)劃霎冯、與區(qū)政府及與最近地鐵站之間的距離)和1個(gè)因變量(房?jī)r(jià))
行政區(qū)劃特征為文字,這里需要使用one-hot編碼(https://www.cnblogs.com/lianyingteng/p/7792693.html)
在進(jìn)行預(yù)測(cè)前钞瀑,首先使用one-hot編碼修改特征"district"
1沈撞、線性回歸預(yù)測(cè)
散點(diǎn)圖顯示,模型預(yù)測(cè)效果良好雕什,但當(dāng)房?jī)r(jià)高起來(lái)時(shí)沒(méi)有低房?jī)r(jià)的預(yù)測(cè)效果好缠俺。
2、支持向量機(jī)回歸
支持向量機(jī)回歸中選用不同核函數(shù)進(jìn)行回歸贷岸,具體結(jié)果為:
各結(jié)果顯示的是在測(cè)試集上的擬合結(jié)果壹士,其中徑向基核函數(shù)的支持向量機(jī)回歸效果較好,但略差于線性回歸
3偿警、集成模型回歸
集成模型這里選用了隨機(jī)森林躏救、極度隨機(jī)森林、梯度提升回歸進(jìn)行研究螟蒸。
把所需要的庫(kù)先import進(jìn)來(lái)
使用三種集成模型的回歸結(jié)果來(lái)看盒使,隨機(jī)森林的回歸效果較好,且比支持向量機(jī)回歸結(jié)果要好七嫌。
將隨機(jī)森林的回歸結(jié)果同樣可視化:
對(duì)比線性回歸和隨機(jī)森林的圖少办,直觀上隨機(jī)森林回歸在高房?jī)r(jià)預(yù)測(cè)時(shí)的預(yù)測(cè)效果要好一點(diǎn)。
四抄瑟、結(jié)語(yǔ)
本篇通過(guò)八爪魚(yú)獲取上海市二手房數(shù)據(jù)凡泣,利用百度API獲取房源具體位置,計(jì)算得到房源距離區(qū)政府皮假、最近地鐵站的距離鞋拟,最后利用房?jī)r(jià)與面積、兩個(gè)距離惹资、區(qū)政府劃分情況進(jìn)行房?jī)r(jià)預(yù)測(cè)贺纲。
后面的機(jī)器學(xué)習(xí)預(yù)測(cè)寫(xiě)的比較籠統(tǒng),因?yàn)槲也惶@些算法后面的原理褪测,所以會(huì)找時(shí)間具體看一下推一下猴誊,在對(duì)這份數(shù)據(jù)做更有效全面的分析。