小項(xiàng)目 上海二手房數(shù)據(jù)分析

本文所使用的數(shù)據(jù)是安居客的二手房數(shù)據(jù)(爬蟲(chóng)水平不怎樣董朝,一爬就404了等舔,所以這邊直接用八爪魚(yú)給抓了數(shù)據(jù)眷柔,爬蟲(chóng)的程序之后補(bǔ)上,用八爪魚(yú)爬非常簡(jiǎn)單公你,不會(huì)的同學(xué)可以參一下這個(gè)鏈接https://wenku.baidu.com/view/11cece9859f5f61fb7360b4c2e3f5727a5e924d2.html)踊淳。我總共導(dǎo)出了1000多條數(shù)據(jù)。

我是一個(gè)純小白陕靠,所以數(shù)據(jù)分析的流程參考了https://blog.csdn.net/Caesar1993_Wang/article/details/80237461迂尝,并對(duì)里面的代碼進(jìn)行了一點(diǎn)自己的補(bǔ)充。

一剪芥、初步分析

1垄开、整體二手房房?jī)r(jià)分析

上海二手房單為面積價(jià)格(元/平方米):

最高價(jià)格為:260504

最低價(jià)格為:8077

平均價(jià)格為:41600.63542642924

中位數(shù)為: 37463.0

從圖像上看上海二手房房?jī)r(jià)的分布


圖像顯示上海市二手房呈現(xiàn)右偏分布。


2税肪、影響房?jī)r(jià)的因素分析

(1)區(qū)位因素的影響

首先讓我們看一下不同行政區(qū)的房?jī)r(jià)情況:


圖片發(fā)自簡(jiǎn)書(shū)App



圖片發(fā)自簡(jiǎn)書(shū)App


圖片發(fā)自簡(jiǎn)書(shū)App

從圖中結(jié)果可以看出崇明的二手房房?jī)r(jià)最低溉躲,徐匯、長(zhǎng)寧的價(jià)格非常高益兄,幾乎是上海周邊锻梳、崇明的8倍。讓我們對(duì)各個(gè)行政區(qū)的房?jī)r(jià)箱線圖净捅,看其數(shù)據(jù)的分布情況:


圖片發(fā)自簡(jiǎn)書(shū)App


圖片發(fā)自簡(jiǎn)書(shū)App



箱線圖顯示浦東疑枯、徐匯、靜安有較高的異常值點(diǎn)灸叼,上海周邊神汹、崇明庆捺、金山的房?jī)r(jià)較低且分布集中古今。

(2)面積對(duì)房?jī)r(jià)的相關(guān)性分析


圖片發(fā)自簡(jiǎn)書(shū)App


圖片發(fā)自簡(jiǎn)書(shū)App


圖片發(fā)自簡(jiǎn)書(shū)App

從散點(diǎn)圖中可以看出第一梯隊(duì)的黑色散點(diǎn)相對(duì)偏向左上方,前一梯隊(duì)的整體上高于后一梯隊(duì)滔以。面積與房?jī)r(jià)的具體關(guān)系捉腥,我在這里用一元線性回歸的結(jié)果具體展示:


圖片發(fā)自簡(jiǎn)書(shū)App


圖片發(fā)自簡(jiǎn)書(shū)App

1.1上面直線圖顯示,第一梯度的線斜率均為正你画,即隨面積的增加抵碟,單位房?jī)r(jià)在增加桃漾,并且相比于其他線基本上更為陡峭,也就是位于繁華地帶的上海二手房房?jī)r(jià)單價(jià)隨面積增加的斜率更大拟逮。

2.2金山撬统、虹口、楊浦的房子竟然隨著面積的增大敦迄,單位面積的房?jī)r(jià)在減少

3.3第二梯度的二手房恋追,隨著面積增加二手房的單位面積價(jià)格也在增加 #總結(jié)來(lái)看,繁華地段的房子真的很值錢(qián)罚屋,寸金寸土苦囱,而不是繁華地段的房子單位面積價(jià)格增幅就比較少,也就沒(méi)有像繁華地帶那么值錢(qián)

二脾猛、區(qū)位的進(jìn)一步分析

前文已經(jīng)對(duì)各個(gè)區(qū)位的房?jī)r(jià)進(jìn)行了粗略的分析撕彤,接下來(lái)將進(jìn)行區(qū)位的進(jìn)一步分析。

(1)繪制二手房的熱力圖

繪制二手房熱力圖的時(shí)候猛拴,我們需要各個(gè)房子的經(jīng)緯度坐標(biāo)羹铅,這里可以借助百度API進(jìn)行獲取。

【獲取百度api方法:前往http://lbsyun.baidu.com/漆弄,注冊(cè)后進(jìn)入控制臺(tái)睦裳,創(chuàng)建應(yīng)用,注意應(yīng)用類(lèi)別需要時(shí)瀏覽器端撼唾,不然打不開(kāi)廉邑。創(chuàng)建完成后,你便會(huì)得到你的ak倒谷,之后便可用這個(gè)ak爬取你的數(shù)據(jù)啦】


圖片發(fā)自簡(jiǎn)書(shū)App


圖片發(fā)自簡(jiǎn)書(shū)App


圖片發(fā)自簡(jiǎn)書(shū)App

將得到經(jīng)緯度數(shù)據(jù)保存后蛛蒙,我們可以讀取它,并將經(jīng)緯度渤愁、價(jià)格數(shù)據(jù)進(jìn)行成之后可以填進(jìn)網(wǎng)頁(yè)的格式票髓,轉(zhuǎn)換方式如下:


圖片發(fā)自簡(jiǎn)書(shū)App

得到經(jīng)緯度,價(jià)格數(shù)據(jù)后喻旷,可以把var points的數(shù)據(jù)改成你自己的住册。(這邊用到的網(wǎng)頁(yè)代碼是我去http://bbs.lbsyun.baidu.com/forum.php?mod=viewthread&tid=135854粘過(guò)來(lái)的)


圖片發(fā)自簡(jiǎn)書(shū)App

然后因?yàn)槲已芯康氖巧虾6址浚园裿ar point=new BMap.Point(經(jīng)度雹拄,緯度)改成上海的經(jīng)緯度(121.48038,31.236363)收奔。

最后會(huì)繪制結(jié)果如下:


圖片發(fā)自簡(jiǎn)書(shū)App

關(guān)于繪制熱力圖方法,這邊寫(xiě)的很粗略滓玖,有興趣的可以看一下這個(gè)網(wǎng)頁(yè):https://blog.csdn.net/xxzj_zz2017/article/details/79396980

(2)獲取各房源距區(qū)政府坪哄、最近地鐵站的距離

以獲取房源的方式,同樣爬取上海市地鐵站、區(qū)政府的坐標(biāo)位置:


圖片發(fā)自簡(jiǎn)書(shū)App


圖片發(fā)自簡(jiǎn)書(shū)App

在計(jì)算區(qū)政府與最近地鐵站距離的時(shí)候翩肌,可以采用百度地圖API獲取模暗,我這邊直接用經(jīng)緯度的計(jì)算方法進(jìn)行了一個(gè)計(jì)算(參考鏈接:https://blog.csdn.net/koryako/article/details/51864161)


與區(qū)政府的距離計(jì)算方法與這個(gè)一致

我們將得到的距離數(shù)據(jù)與價(jià)格同樣繪制散點(diǎn)圖,看兩兩之間是否存在關(guān)系

由于這里不同房子與政府的距離相差過(guò)大念祭,導(dǎo)致x軸很奇怪兑宇,若要細(xì)致一點(diǎn)可進(jìn)行分組來(lái)畫(huà)圖

上圖顯示長(zhǎng)寧區(qū)等第一梯隊(duì)的區(qū)域雖然離區(qū)政府遠(yuǎn),但不不影響它們房?jī)r(jià)的高

圖片發(fā)自簡(jiǎn)書(shū)App

#本份數(shù)據(jù)大部分的房源離地鐵站都挺近的粱坤,對(duì)于四個(gè)梯度的房子來(lái)說(shuō)顾孽,散點(diǎn)圖沒(méi)有很明顯的趨勢(shì)顯示地鐵對(duì)房?jī)r(jià)的影響,需要做進(jìn)一步研究比规。

三若厚、機(jī)器學(xué)習(xí)預(yù)測(cè)

到此,我已經(jīng)將做預(yù)測(cè)需要的數(shù)據(jù)收集完畢蜒什,

實(shí)際上影響房?jī)r(jià)的因素有很多测秸,因此接下來(lái)采用機(jī)器學(xué)習(xí)方法綜合考慮多個(gè)因素對(duì)房?jī)r(jià)的影響,并建立預(yù)測(cè)模型

本份數(shù)據(jù)涉及4個(gè)自變量(房屋面積灾常、所在行政區(qū)劃霎冯、與區(qū)政府及與最近地鐵站之間的距離)和1個(gè)因變量(房?jī)r(jià))

行政區(qū)劃特征為文字,這里需要使用one-hot編碼(https://www.cnblogs.com/lianyingteng/p/7792693.html)

在進(jìn)行預(yù)測(cè)前钞瀑,首先使用one-hot編碼修改特征"district"


圖片發(fā)自簡(jiǎn)書(shū)App

1沈撞、線性回歸預(yù)測(cè)


圖片發(fā)自簡(jiǎn)書(shū)App


圖片發(fā)自簡(jiǎn)書(shū)App

散點(diǎn)圖顯示,模型預(yù)測(cè)效果良好雕什,但當(dāng)房?jī)r(jià)高起來(lái)時(shí)沒(méi)有低房?jī)r(jià)的預(yù)測(cè)效果好缠俺。

2、支持向量機(jī)回歸


圖片發(fā)自簡(jiǎn)書(shū)App

支持向量機(jī)回歸中選用不同核函數(shù)進(jìn)行回歸贷岸,具體結(jié)果為:


圖片發(fā)自簡(jiǎn)書(shū)App

各結(jié)果顯示的是在測(cè)試集上的擬合結(jié)果壹士,其中徑向基核函數(shù)的支持向量機(jī)回歸效果較好,但略差于線性回歸

3偿警、集成模型回歸

集成模型這里選用了隨機(jī)森林躏救、極度隨機(jī)森林、梯度提升回歸進(jìn)行研究螟蒸。

把所需要的庫(kù)先import進(jìn)來(lái)


圖片發(fā)自簡(jiǎn)書(shū)App


圖片發(fā)自簡(jiǎn)書(shū)App


圖片發(fā)自簡(jiǎn)書(shū)App

使用三種集成模型的回歸結(jié)果來(lái)看盒使,隨機(jī)森林的回歸效果較好,且比支持向量機(jī)回歸結(jié)果要好七嫌。

將隨機(jī)森林的回歸結(jié)果同樣可視化:


圖片發(fā)自簡(jiǎn)書(shū)App

對(duì)比線性回歸和隨機(jī)森林的圖少办,直觀上隨機(jī)森林回歸在高房?jī)r(jià)預(yù)測(cè)時(shí)的預(yù)測(cè)效果要好一點(diǎn)。

四抄瑟、結(jié)語(yǔ)

本篇通過(guò)八爪魚(yú)獲取上海市二手房數(shù)據(jù)凡泣,利用百度API獲取房源具體位置,計(jì)算得到房源距離區(qū)政府皮假、最近地鐵站的距離鞋拟,最后利用房?jī)r(jià)與面積、兩個(gè)距離惹资、區(qū)政府劃分情況進(jìn)行房?jī)r(jià)預(yù)測(cè)贺纲。

后面的機(jī)器學(xué)習(xí)預(yù)測(cè)寫(xiě)的比較籠統(tǒng),因?yàn)槲也惶@些算法后面的原理褪测,所以會(huì)找時(shí)間具體看一下推一下猴誊,在對(duì)這份數(shù)據(jù)做更有效全面的分析。











?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末侮措,一起剝皮案震驚了整個(gè)濱河市懈叹,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌分扎,老刑警劉巖澄成,帶你破解...
    沈念sama閱讀 206,839評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異畏吓,居然都是意外死亡墨状,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén)菲饼,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)肾砂,“玉大人,你說(shuō)我怎么就攤上這事宏悦「淙罚” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 153,116評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵饼煞,是天一觀的道長(zhǎng)辫塌。 經(jīng)常有香客問(wèn)我,道長(zhǎng)派哲,這世上最難降的妖魔是什么臼氨? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,371評(píng)論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮芭届,結(jié)果婚禮上储矩,老公的妹妹穿的比我還像新娘。我一直安慰自己褂乍,他們只是感情好持隧,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評(píng)論 5 374
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著逃片,像睡著了一般屡拨。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,111評(píng)論 1 285
  • 那天呀狼,我揣著相機(jī)與錄音裂允,去河邊找鬼。 笑死哥艇,一個(gè)胖子當(dāng)著我的面吹牛绝编,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播貌踏,決...
    沈念sama閱讀 38,416評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼十饥,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了祖乳?” 一聲冷哼從身側(cè)響起逗堵,我...
    開(kāi)封第一講書(shū)人閱讀 37,053評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎眷昆,沒(méi)想到半個(gè)月后砸捏,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,558評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡隙赁,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評(píng)論 2 325
  • 正文 我和宋清朗相戀三年垦藏,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片伞访。...
    茶點(diǎn)故事閱讀 38,117評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡掂骏,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出厚掷,到底是詐尸還是另有隱情弟灼,我是刑警寧澤,帶...
    沈念sama閱讀 33,756評(píng)論 4 324
  • 正文 年R本政府宣布冒黑,位于F島的核電站田绑,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏抡爹。R本人自食惡果不足惜掩驱,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望冬竟。 院中可真熱鬧欧穴,春花似錦、人聲如沸泵殴。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,315評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)笑诅。三九已至调缨,卻和暖如春疮鲫,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背弦叶。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,539評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工俊犯, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人湾蔓。 一個(gè)月前我還...
    沈念sama閱讀 45,578評(píng)論 2 355
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像砌梆,于是被迫代替她去往敵國(guó)和親默责。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容