又快到了高校的畢業(yè)季,不知道即將畢業(yè)的同學們有沒有想好怎么租房呢吞琐?最近復習了python數(shù)據(jù)分析的一些知識仰迁,然后在網(wǎng)上爬取了廣州的租房價格數(shù)據(jù),做了一個廣州租房價格的數(shù)據(jù)分析小項目顽分。
步驟
- 明確分析的目的
- 數(shù)據(jù)準備
- 數(shù)據(jù)清洗
- 數(shù)據(jù)分析
- 數(shù)據(jù)可視化
- 分析報告
明確分析的目的
通過對廣州租房房源的價格徐许、面積、地理位置卒蘸、交通信息等因素的分析雌隅,為畢業(yè)后想留在一線城市如廣州工作的同學翻默,提供一個廣州租房情況的整體的分析調查.
探索的問題
- 房租的分布情況
- 哪種戶型的房源最多
- 哪條地鐵線附近的房租比較貴
- 哪個區(qū)的房租更貴
數(shù)據(jù)準備
1.數(shù)據(jù)說明
- 數(shù)據(jù)來源于廣州房居客
- 采用八爪魚采集器工具爬取
- house_district:表示房屋所在的區(qū)
- house_location:表示房屋所在的地理位置
- house_name:表示房屋的名字
- house_room:表示房屋的戶型
- subway_info:表示房屋周邊的地鐵的信息
- house_price:表示房屋的價格
2.數(shù)據(jù)預覽
1).首先看一下整個數(shù)據(jù)集
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
plt.rcParams['font.sans-serif']=['Microsoft YaHei'] #使圖像顯示中文
%pylab inline
gz_house = pd.read_csv('house_gz.csv') #加載數(shù)據(jù)
gz_house.head(5) #預覽數(shù)據(jù)
本次分析一共采集了871條有效的房源信息,其中的subway_info屬性只有693條記錄恰起,存在缺失值修械,說明有一部分的房源是周邊沒有地鐵的,這些將在數(shù)據(jù)清洗中進行處理.
數(shù)據(jù)清洗
數(shù)據(jù)清理的流程為:
- 選擇子集
- 缺失數(shù)據(jù)處理
- 數(shù)據(jù)類型轉換
- 異常值處理
- 有時為了便于分析检盼,也會對列名進行重命名或者新增列字段
1.選擇子集
對于house_room字段肯污,我們需要提取出其中的面積數(shù)據(jù)和房屋戶型數(shù)據(jù)
對于subway_info字段,我們需要提取出其中的地鐵信息數(shù)據(jù)
#清洗house_room字段吨枉,把其中的房子規(guī)格蹦渣、面積提取出來
#提取house_room字段中房子的面積大小,并插入到原數(shù)據(jù)中,命名為house_area
#提取house_room字段中的房間的規(guī)格貌亭,并插入回house_room字段中
house_room_info = gz_house['house_room'].str.split('|',expand=True)
gz_house['house_area'] = house_room_info[2]
gz_house['house_room'] = house_room_info[1]
#對地鐵信息字段進行清洗柬唯,提取其中的幾號線
gz_house['subway_info'] = gz_house['subway_info'].str.slice(1,4)
2.缺失數(shù)據(jù)處理
缺失數(shù)據(jù)的常用處理方式有:(1)刪除缺失值 (2)平均值填充 (3)算法填充 等
對于subway_info字段,有部分的房源沒有地鐵信息圃庭,可以人為的為缺失值命名為“無地鐵”
gz_house['subway_info'][pd.isnull(gz_house['subway_info'])] = '無地鐵'
3.數(shù)據(jù)類型轉換
對于house_area中的面子字段锄奢,分離出來的值都帶有㎡符號,而在分析時房屋面積一般需要為浮點型(float)的數(shù)據(jù)剧腻,因此需要將house_area中的㎡除去拘央,并將數(shù)據(jù)類型進行轉換
'''提取house_area字段中的數(shù)字'''
def remove_m2(area):
new_value = area.replace('㎡','')
return np.float(new_value)
gz_house['house_area'] = gz_house['house_area'].apply(remove_m2)
經過上面的步驟,來看一下清洗完的數(shù)據(jù)集.
數(shù)據(jù)分析與可視化
1.房租的分布情況
- 最底的房租價格為800元/月书在,最貴的房租價格為35000元/月
-
平均的房屋均價為4616元/月堪滨,有75%的房租超過了2825元/月
最貴房租的房子和最低房租的房子長什么樣?
gz_house[gz_house['house_price'] == 35000]
gz_house[gz_house['house_price'] == 800]
最貴的房子面積達到了315㎡蕊温,每平方米均價為 35000 / 315= 111元袱箱;
最便宜的房子面積為76平米,每平方米均價為 800 / 76 = 11元义矛,兩者的房屋每平方米均價相差接近十倍发笔!
最貴的房子位于珠江新城,地理位置處于廣州的CBD位置凉翻,周邊商圈林立了讨,是最繁華的地段。而且房屋面積超過300㎡制轰,附近還有地鐵5號線和3號線經過前计,房租這么貴也正常。
最便宜的房子位于花都美林湖垃杖,位置偏僻男杈,開車需要1-2小時才能到達,而且周邊沒有地鐵调俘,交通極不方便伶棒,所以雖然房屋面積不小旺垒,但是仍然是一個低的價格
房租價格直方圖
廣州大部分的租房的價格集中在2500至5000元的區(qū)間,其中以4000至4500的房源最多肤无,超過8000以上的房源很少先蒋。
這個價格區(qū)間對于剛畢業(yè)的大學生來說還是比較貴的
2.面積的分布情況
- 房屋面積最小的為16㎡,最大的為315㎡宛渐,有75%的房子超過65㎡
- 65㎡的房子足夠提供兩個生活的面積竞漾,對于剛畢業(yè)薪資水平不高的畢業(yè)同學可以考慮找一兩個朋友進行合租,房租會相應低一點.
- 房屋面積集中分布在50-100平米的區(qū)間內窥翩,而低于50㎡的小面積型房源要少得多业岁。這對于畢業(yè)后希望一個人住的同學來說不是一個好的消息.
3.區(qū)域房源分布情況
-
天河區(qū)的房源最多,有288間可租房源鳍烁,占總體的33%掰担,其次是番禺區(qū)有156間可租房源也糊,占總體的18%拾积,最少的是花都和黃埔區(qū)评也,只有17間和6間可租房源化戳,僅占總體的1%
4.地鐵房源分布情況
- 有地鐵的房源比無地鐵的房源多涧至,無地鐵的房源僅占20%
- 5號線附近的房源最多搀别,由于5號線的起點和終點分別在黃埔荔灣急侥,并且途徑珠江新城提澎、楊箕等重要換乘站姚垃,如果在黃埔區(qū)工作,可以考慮沿著5號線租房
- 3號線附近的房源第2多:3號線沿途經過多個高校和重要寫字樓盼忌,起點和終點分別為天河客運站還有番禺廣場积糯,附近的房源價格會比市中心的房源便宜不少。如果在市中心上班的話可以考慮去番禺或者天河客運站附近租房
-
2號線谦纱、6號線看成、1號線都位于廣州的主城區(qū)越秀區(qū)、荔灣區(qū)跨嘉,并且相互之間換乘方便川慌,如果工作地點在越秀區(qū)的話,沿著這三條地鐵附近租房也是個不錯的選擇
5.雙維度分析——同時考慮區(qū)域和房租
- 越秀區(qū)的房租最貴祠乃,75%的房租都超過了3000元每月梦重,其箱體也最長。越秀區(qū)位于廣州市中心亮瓷,區(qū)內有許多廣州優(yōu)秀中小學琴拧,屬于教育大區(qū),附近的房源對于家中有在讀書的小孩來說是一個不錯的選擇嘱支,但是對于剛畢業(yè)的大學生來說可能不太適合.
- 天河區(qū)房租緊隨越秀區(qū)后艾蓝,天河區(qū)聚集了廣州的服務力崇、金融、銀行等企業(yè)赢织,薪資水平在廣州相對來說也比較高亮靴,如果工作地點在天河區(qū),同時希望上班近一點的同學于置,可以考慮一下在天河區(qū)租房.
-
如果在越秀區(qū)工作茧吊,可以考慮去荔灣區(qū)租房,地鐵方便八毯,房租也比越秀區(qū)便宜很多搓侄;如果在天河區(qū)工作,可以考慮去番禺或者黃埔租房
6.多維度分析——同時考慮房屋面積话速、價格和地鐵之間的關系
將自變量設為房屋的面積讶踪,因變量設為房屋的價格,同時考慮房屋附近是否有地鐵的因素泊交,繪制散點圖乳讥,并進行線性回歸分析(這里用了2次多項式進行曲線的擬合)
- 總體上,在同一面積下廓俭,有地鐵的房源的租房價格高于無地鐵的房源
- 面積和地鐵不是影響房源的唯一因素云石,同一面積下,有的無地鐵房源價格也要比有地鐵房源高.
-
根據(jù)擬合的回歸曲線研乒,可以根據(jù)自己希望住的房間戶型大致找出一個房價的區(qū)間汹忠,比如75㎡的房屋無地鐵對應價格約為3000,而有地鐵房屋對于價格約為5000雹熬,剛畢業(yè)的同學可以根據(jù)價格的變化來選取適合自己條件的房源
7.多維分析——同時考慮面積宽菜、價格和區(qū)域之間的關系
- 3號線和5號線沿線的房子最貴,主要分布在天河區(qū)竿报,且50%的房租都超過5000元每月
- 14號線沿線的房子主要分布在南沙區(qū)铅乡,且絕大多數(shù)房價低于5000元/月
- 海珠區(qū)的房源地鐵主要為3號線和2號線,且房源數(shù)量多仰楚、價格也比天河隆判、越秀略低
- 增城、花都基本沒有房源有地鐵經過僧界,交通不便利
- 相較于中心城區(qū)侨嘀,黃埔區(qū)和荔灣區(qū)附近有地鐵的房源較少
分析結論
1.廣州房居客絕大多數(shù)的房租都在3000元以上,面積均為中等戶型捂襟,這個價位性價比屬于比較高的咬腕,剛畢業(yè)的學生可以考慮
2.天河區(qū)的房源數(shù)量最多,價格也是第二貴的葬荷。天河區(qū)擁有廣州的CBD涨共,對于經常需要加班的白領來說纽帖,在公司附近租房是個不錯的選擇
3.有地鐵的房源占調查總體的80%以上,如果在中心城區(qū)的租房價格超過承受能力举反,可以沿著地鐵線路跨區(qū)找房懊直,房源多,價格也相對低一點火鼻。
結語
快畢業(yè)了室囊,希望這份分析報告能夠幫助想要留在廣州的同學都能找到自己喜歡的房子,在廣州扎下根來魁索。
有紕漏的地方還希望大家能夠多多指正