可視化部分
背景
可視化使用了Pyecharts。
Pyecharts來自百度開源的一個可視化JS工具:Echarts锈至,是純粹由國人開發(fā)的一個Echarts與Python結合的輪子∥撕Γ可視化類型非常多磁滚,而且動態(tài)渲染效果炫酷。
需要了解Pyecharts的基礎知識到配置到實際應用克蚂,官方文檔(含官方中字):
https://pyecharts.org/#/zh-cn/
分析過程:
首先獲取鏈%家%的二手房數(shù)據(jù)集后,做簡單的數(shù)據(jù)清洗筋讨,再查看價格的數(shù)據(jù)分布埃叭。數(shù)據(jù)分布并不符合正態(tài)分布,符合客觀現(xiàn)實悉罕,繼續(xù)分析赤屋。
-
先將行政區(qū)域和參考單價放入地理圖二維Map中:
各行政區(qū)二手房房價統(tǒng)計
市內四區(qū)房價集中在2萬上下,紅色深淺代表的差異已經(jīng)不明顯了壁袄。金州和旅順集中在1萬上下类早。
反思: 因為地圖中默認規(guī)格限制,高新區(qū)沒有單獨作為行政區(qū)域劃分嗜逻,而被并入甘井子區(qū)涩僻,而甘井子區(qū)區(qū)域又非常大,導致數(shù)據(jù)過于平均栈顷,不具有代表性逆日,可以后續(xù)思考解決方法:a.換用別的地理區(qū)分劃分更細致的庫 b.用更小范圍的區(qū)域劃分(如小區(qū),社區(qū))來分析房價
- 用散點圖描述各行政區(qū)房價和面積大小的分布情況
X軸對應平均房價萄凤,Y軸對應平均建筑面積室抽,散點大小對應該行政區(qū)在售的二手房房源數(shù)量。甘井子區(qū)和沙河口的房源數(shù)量靡努、均價差距不大坪圾。二手房數(shù)量相對其他區(qū)比較多,因為高新區(qū)從地理上歸為差不多都有近18000套二手房颤难,需求量大神年。中山區(qū)的房量不多,但價格和戶型面積都是最大的行嗤,已日。金州的房子又便宜又大又多。除了西崗栅屏,其他符合客觀事實飘千。
3.行政區(qū)維度看完了堂鲜,由于高新區(qū)被劃入甘井子區(qū),我們再向下細分护奈,看看哪些塊/區(qū)域的房源最多缔莲。
新建一個字典,將行政區(qū)域作為第一層key霉旗,將一個新字典作為第一層的value痴奏。新字典的key是區(qū)域,value是該區(qū)域的房源數(shù)量厌秒。
用矩形樹圖二級下鉆的方式展示读拆。顏色代表行政區(qū),矩形面積代表數(shù)量多少鸵闪。
房源量多的小區(qū)可以給購房者更多選擇的空間檐晕,如果我要在高新園區(qū)的凌水附近購房,會優(yōu)先選擇到坦城或百合實地了解房屋裝修等情況蚌讼。
4.3D Map查看該小區(qū)平均房價
看完了小區(qū)房源量辟灰,最后再看看
由于鏈家網(wǎng)上對同一小區(qū)房源,所提供的經(jīng)緯度一樣篡石。所以直接以小區(qū)名稱芥喇,經(jīng)緯度,和平均單價輸入到map配置項中
精裝房源關注人數(shù)最多凰萨,從側面反映出買二手房者心理乃坤,即買即住。精裝房源最多沟蔑,毛胚最少房源,符合市場要求狱杰,因為是二手房數(shù)據(jù)
裝飾情況的不同瘦材,Price_size(每平方)的單價也隨著不同,符合市場的規(guī)律的仿畸,里面有裝飾成本食棕,所以單價也隨著上升。
四者的總價的價格波動不大错沽,落差在3000元/平簿晓,如時間條件允許建議購買毛胚房獨立裝修
(1)從各區(qū)的二手房數(shù)量來看,甘井子區(qū)的二手房數(shù)量相對其他區(qū)比較多千埃,因為高新區(qū)從地理上歸為差不多都有近18000套二手房憔儿,需求量大,
(2)從各區(qū)二手房均價來看,中山區(qū)最高放可,大約3萬每平方米谒臼,中心區(qū)朝刊,寸土寸金,集合優(yōu)秀的教育醫(yī)療資源蜈缤,是老大連的心臟拾氓。其次是高新區(qū),由于科技發(fā)展比較快底哥,產(chǎn)業(yè)園比較多咙鞍,吸引了大量外來人口。