Python數(shù)據(jù)分析案例-租房價格分析

又快到了高校的畢業(yè)季,不知道即將畢業(yè)的同學們有沒有想好怎么租房呢吞琐?最近復習了python數(shù)據(jù)分析的一些知識仰迁,然后在網(wǎng)上爬取了廣州的租房價格數(shù)據(jù),做了一個廣州租房價格的數(shù)據(jù)分析小項目顽分。

步驟

  • 明確分析的目的
  • 數(shù)據(jù)準備
  • 數(shù)據(jù)清洗
  • 數(shù)據(jù)分析
  • 數(shù)據(jù)可視化
  • 分析報告

明確分析的目的

通過對廣州租房房源的價格徐许、面積、地理位置卒蘸、交通信息等因素的分析雌隅,為畢業(yè)后想留在一線城市如廣州工作的同學翻默,提供一個廣州租房情況的整體的分析調查.

探索的問題

  • 房租的分布情況
  • 哪種戶型的房源最多
  • 哪條地鐵線附近的房租比較貴
  • 哪個區(qū)的房租更貴

數(shù)據(jù)準備

1.數(shù)據(jù)說明

  • 數(shù)據(jù)來源于廣州房居客
  • 采用八爪魚采集器工具爬取
  • house_district:表示房屋所在的區(qū)
  • house_location:表示房屋所在的地理位置
  • house_name:表示房屋的名字
  • house_room:表示房屋的戶型
  • subway_info:表示房屋周邊的地鐵的信息
  • house_price:表示房屋的價格

2.數(shù)據(jù)預覽

1).首先看一下整個數(shù)據(jù)集
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
plt.rcParams['font.sans-serif']=['Microsoft YaHei']   #使圖像顯示中文
%pylab inline
gz_house = pd.read_csv('house_gz.csv')      #加載數(shù)據(jù)
gz_house.head(5)        #預覽數(shù)據(jù)
預覽數(shù)據(jù)

每列數(shù)據(jù)條數(shù)

本次分析一共采集了871條有效的房源信息,其中的subway_info屬性只有693條記錄恰起,存在缺失值修械,說明有一部分的房源是周邊沒有地鐵的,這些將在數(shù)據(jù)清洗中進行處理.


數(shù)據(jù)清洗

數(shù)據(jù)清理的流程為:

  • 選擇子集
  • 缺失數(shù)據(jù)處理
  • 數(shù)據(jù)類型轉換
  • 異常值處理
  • 有時為了便于分析检盼,也會對列名進行重命名或者新增列字段

1.選擇子集

對于house_room字段肯污,我們需要提取出其中的面積數(shù)據(jù)和房屋戶型數(shù)據(jù)
對于subway_info字段,我們需要提取出其中的地鐵信息數(shù)據(jù)

#清洗house_room字段吨枉,把其中的房子規(guī)格蹦渣、面積提取出來
#提取house_room字段中房子的面積大小,并插入到原數(shù)據(jù)中,命名為house_area
#提取house_room字段中的房間的規(guī)格貌亭,并插入回house_room字段中
house_room_info = gz_house['house_room'].str.split('|',expand=True)
gz_house['house_area'] = house_room_info[2]
gz_house['house_room'] = house_room_info[1]
#對地鐵信息字段進行清洗柬唯,提取其中的幾號線
gz_house['subway_info'] = gz_house['subway_info'].str.slice(1,4)

2.缺失數(shù)據(jù)處理

缺失數(shù)據(jù)的常用處理方式有:(1)刪除缺失值 (2)平均值填充 (3)算法填充 等
對于subway_info字段,有部分的房源沒有地鐵信息圃庭,可以人為的為缺失值命名為“無地鐵”

gz_house['subway_info'][pd.isnull(gz_house['subway_info'])] = '無地鐵'

3.數(shù)據(jù)類型轉換

對于house_area中的面子字段锄奢,分離出來的值都帶有㎡符號,而在分析時房屋面積一般需要為浮點型(float)的數(shù)據(jù)剧腻,因此需要將house_area中的㎡除去拘央,并將數(shù)據(jù)類型進行轉換

'''提取house_area字段中的數(shù)字'''
def remove_m2(area):
    new_value = area.replace('㎡','')
    return np.float(new_value)
gz_house['house_area'] = gz_house['house_area'].apply(remove_m2)

經過上面的步驟,來看一下清洗完的數(shù)據(jù)集.


清理后的數(shù)據(jù)

每一列的數(shù)據(jù)類型

數(shù)據(jù)分析與可視化

1.房租的分布情況

  • 最底的房租價格為800元/月书在,最貴的房租價格為35000元/月
  • 平均的房屋均價為4616元/月堪滨,有75%的房租超過了2825元/月


    房租分布
最貴房租的房子和最低房租的房子長什么樣?
gz_house[gz_house['house_price'] == 35000]
gz_house[gz_house['house_price'] == 800]
最貴

最低

最貴的房子面積達到了315㎡蕊温,每平方米均價為 35000 / 315= 111元袱箱;
最便宜的房子面積為76平米,每平方米均價為 800 / 76 = 11元义矛,兩者的房屋每平方米均價相差接近十倍发笔!
最貴的房子位于珠江新城,地理位置處于廣州的CBD位置凉翻,周邊商圈林立了讨,是最繁華的地段。而且房屋面積超過300㎡制轰,附近還有地鐵5號線和3號線經過前计,房租這么貴也正常。
最便宜的房子位于花都美林湖垃杖,位置偏僻男杈,開車需要1-2小時才能到達,而且周邊沒有地鐵调俘,交通極不方便伶棒,所以雖然房屋面積不小旺垒,但是仍然是一個低的價格

房租價格直方圖

廣州大部分的租房的價格集中在2500至5000元的區(qū)間,其中以4000至4500的房源最多肤无,超過8000以上的房源很少先蒋。
這個價格區(qū)間對于剛畢業(yè)的大學生來說還是比較貴的


2.面積的分布情況

  • 房屋面積最小的為16㎡,最大的為315㎡宛渐,有75%的房子超過65㎡
  • 65㎡的房子足夠提供兩個生活的面積竞漾,對于剛畢業(yè)薪資水平不高的畢業(yè)同學可以考慮找一兩個朋友進行合租,房租會相應低一點.
  • 房屋面積集中分布在50-100平米的區(qū)間內窥翩,而低于50㎡的小面積型房源要少得多业岁。這對于畢業(yè)后希望一個人住的同學來說不是一個好的消息.
面積分布

3.區(qū)域房源分布情況

  • 天河區(qū)的房源最多,有288間可租房源鳍烁,占總體的33%掰担,其次是番禺區(qū)有156間可租房源也糊,占總體的18%拾积,最少的是花都和黃埔區(qū)评也,只有17間和6間可租房源化戳,僅占總體的1%


4.地鐵房源分布情況

  • 有地鐵的房源比無地鐵的房源多涧至,無地鐵的房源僅占20%
  • 5號線附近的房源最多搀别,由于5號線的起點和終點分別在黃埔荔灣急侥,并且途徑珠江新城提澎、楊箕等重要換乘站姚垃,如果在黃埔區(qū)工作,可以考慮沿著5號線租房
  • 3號線附近的房源第2多:3號線沿途經過多個高校和重要寫字樓盼忌,起點和終點分別為天河客運站還有番禺廣場积糯,附近的房源價格會比市中心的房源便宜不少。如果在市中心上班的話可以考慮去番禺或者天河客運站附近租房
  • 2號線谦纱、6號線看成、1號線都位于廣州的主城區(qū)越秀區(qū)、荔灣區(qū)跨嘉,并且相互之間換乘方便川慌,如果工作地點在越秀區(qū)的話,沿著這三條地鐵附近租房也是個不錯的選擇


5.雙維度分析——同時考慮區(qū)域和房租

  • 越秀區(qū)的房租最貴祠乃,75%的房租都超過了3000元每月梦重,其箱體也最長。越秀區(qū)位于廣州市中心亮瓷,區(qū)內有許多廣州優(yōu)秀中小學琴拧,屬于教育大區(qū),附近的房源對于家中有在讀書的小孩來說是一個不錯的選擇嘱支,但是對于剛畢業(yè)的大學生來說可能不太適合.
  • 天河區(qū)房租緊隨越秀區(qū)后艾蓝,天河區(qū)聚集了廣州的服務力崇、金融、銀行等企業(yè)赢织,薪資水平在廣州相對來說也比較高亮靴,如果工作地點在天河區(qū),同時希望上班近一點的同學于置,可以考慮一下在天河區(qū)租房.
  • 如果在越秀區(qū)工作茧吊,可以考慮去荔灣區(qū)租房,地鐵方便八毯,房租也比越秀區(qū)便宜很多搓侄;如果在天河區(qū)工作,可以考慮去番禺或者黃埔租房


6.多維度分析——同時考慮房屋面積话速、價格和地鐵之間的關系

將自變量設為房屋的面積讶踪,因變量設為房屋的價格,同時考慮房屋附近是否有地鐵的因素泊交,繪制散點圖乳讥,并進行線性回歸分析(這里用了2次多項式進行曲線的擬合)

  • 總體上,在同一面積下廓俭,有地鐵的房源的租房價格高于無地鐵的房源
  • 面積和地鐵不是影響房源的唯一因素云石,同一面積下,有的無地鐵房源價格也要比有地鐵房源高.
  • 根據(jù)擬合的回歸曲線研乒,可以根據(jù)自己希望住的房間戶型大致找出一個房價的區(qū)間汹忠,比如75㎡的房屋無地鐵對應價格約為3000,而有地鐵房屋對于價格約為5000雹熬,剛畢業(yè)的同學可以根據(jù)價格的變化來選取適合自己條件的房源


    散點圖

    擬合曲線

7.多維分析——同時考慮面積宽菜、價格和區(qū)域之間的關系

  • 3號線和5號線沿線的房子最貴,主要分布在天河區(qū)竿报,且50%的房租都超過5000元每月
  • 14號線沿線的房子主要分布在南沙區(qū)铅乡,且絕大多數(shù)房價低于5000元/月
  • 海珠區(qū)的房源地鐵主要為3號線和2號線,且房源數(shù)量多仰楚、價格也比天河隆判、越秀略低
  • 增城、花都基本沒有房源有地鐵經過僧界,交通不便利
  • 相較于中心城區(qū)侨嘀,黃埔區(qū)和荔灣區(qū)附近有地鐵的房源較少

分析結論

1.廣州房居客絕大多數(shù)的房租都在3000元以上,面積均為中等戶型捂襟,這個價位性價比屬于比較高的咬腕,剛畢業(yè)的學生可以考慮
2.天河區(qū)的房源數(shù)量最多,價格也是第二貴的葬荷。天河區(qū)擁有廣州的CBD涨共,對于經常需要加班的白領來說纽帖,在公司附近租房是個不錯的選擇
3.有地鐵的房源占調查總體的80%以上,如果在中心城區(qū)的租房價格超過承受能力举反,可以沿著地鐵線路跨區(qū)找房懊直,房源多,價格也相對低一點火鼻。


結語

快畢業(yè)了室囊,希望這份分析報告能夠幫助想要留在廣州的同學都能找到自己喜歡的房子,在廣州扎下根來魁索。
有紕漏的地方還希望大家能夠多多指正

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末融撞,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子粗蔚,更是在濱河造成了極大的恐慌尝偎,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,265評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件鹏控,死亡現(xiàn)場離奇詭異致扯,居然都是意外死亡,警方通過查閱死者的電腦和手機牧挣,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,078評論 2 385
  • 文/潘曉璐 我一進店門急前,熙熙樓的掌柜王于貴愁眉苦臉地迎上來醒陆,“玉大人瀑构,你說我怎么就攤上這事∨倌Γ” “怎么了寺晌?”我有些...
    開封第一講書人閱讀 156,852評論 0 347
  • 文/不壞的土叔 我叫張陵,是天一觀的道長澡刹。 經常有香客問我呻征,道長,這世上最難降的妖魔是什么罢浇? 我笑而不...
    開封第一講書人閱讀 56,408評論 1 283
  • 正文 為了忘掉前任陆赋,我火速辦了婚禮,結果婚禮上嚷闭,老公的妹妹穿的比我還像新娘攒岛。我一直安慰自己,他們只是感情好胞锰,可當我...
    茶點故事閱讀 65,445評論 5 384
  • 文/花漫 我一把揭開白布灾锯。 她就那樣靜靜地躺著,像睡著了一般嗅榕。 火紅的嫁衣襯著肌膚如雪顺饮。 梳的紋絲不亂的頭發(fā)上吵聪,一...
    開封第一講書人閱讀 49,772評論 1 290
  • 那天,我揣著相機與錄音兼雄,去河邊找鬼吟逝。 笑死,一個胖子當著我的面吹牛赦肋,可吹牛的內容都是我干的澎办。 我是一名探鬼主播,決...
    沈念sama閱讀 38,921評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼金砍,長吁一口氣:“原來是場噩夢啊……” “哼局蚀!你這毒婦竟也來了?” 一聲冷哼從身側響起恕稠,我...
    開封第一講書人閱讀 37,688評論 0 266
  • 序言:老撾萬榮一對情侶失蹤琅绅,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后鹅巍,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體千扶,經...
    沈念sama閱讀 44,130評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,467評論 2 325
  • 正文 我和宋清朗相戀三年骆捧,在試婚紗的時候發(fā)現(xiàn)自己被綠了澎羞。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,617評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡敛苇,死狀恐怖妆绞,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情枫攀,我是刑警寧澤括饶,帶...
    沈念sama閱讀 34,276評論 4 329
  • 正文 年R本政府宣布,位于F島的核電站来涨,受9級特大地震影響图焰,放射性物質發(fā)生泄漏。R本人自食惡果不足惜蹦掐,卻給世界環(huán)境...
    茶點故事閱讀 39,882評論 3 312
  • 文/蒙蒙 一技羔、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧卧抗,春花似錦藤滥、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,740評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春时呀,著一層夾襖步出監(jiān)牢的瞬間张漂,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,967評論 1 265
  • 我被黑心中介騙來泰國打工谨娜, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留航攒,地道東北人。 一個月前我還...
    沈念sama閱讀 46,315評論 2 360
  • 正文 我出身青樓趴梢,卻偏偏與公主長得像漠畜,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子坞靶,可洞房花燭夜當晚...
    茶點故事閱讀 43,486評論 2 348

推薦閱讀更多精彩內容