對珠海房租分析進行

因為對好友搬家的原因,對珠海房租產(chǎn)生一定的興趣挡毅,想要研究分析一下珠海的房租情況蒜撮。
首先需要寫一個收集數(shù)據(jù)的函數(shù),從租房網(wǎng)站上爬去房源房租信息。將爬取下來的數(shù)據(jù)進行清洗段磨,整合取逾,然后再進行分析。
本次分析使用Python苹支,用到的庫有pandas庫,numpy庫砾隅,re庫,BeautifulSoup庫债蜜,requests庫晴埂。
1、收集房源鏈接
設(shè)計函數(shù)makepage(n1,n2)寻定。makepage(n1,n2)函數(shù)的功能是輸入n1,n2儒洛,收集從第n1頁到第n2頁的房源鏈接,返回有房源連接的列表狼速。


1.png

image.png

2琅锻、收集房源的具體信息
設(shè)計getHouse(url)函數(shù),主要是將從makepage(n1,n2)函數(shù)收集到的房源鏈接上唐含,獲取房源的詳細信息浅浮,例如房租,房子所在區(qū)域捷枯,房子面積等信息滚秩。
然后通過for循環(huán),將makepage(n1,n2)函數(shù)收集到的房源鏈接一個個提取出來淮捆,使用getHouse(url)函數(shù)獲取房子信息郁油,然后將獲取的信息放到一個空列表(houselist)里,然后用pandas庫的pandas.DataFrame(houselist)攀痊,將數(shù)據(jù)表格化呈現(xiàn)桐腌。


3.png

4.png

5.png

3、清洗數(shù)據(jù)
數(shù)據(jù)被我們采集下來是非彻毒叮混亂的案站,有些字段的的數(shù)據(jù)有著很多的空缺值,根據(jù)我們采集下來的數(shù)據(jù)字段棘街,有65個字段蟆盐,其中有很多樓層字段,例如:樓層(共10層)遭殉、樓層(共12層)石挂。同時由于標題是不可能出現(xiàn)缺失值的,如果標題出現(xiàn)了缺失值险污,那就證明表格這一行數(shù)據(jù)都出現(xiàn)了缺失了痹愚。
使用df['標題'].notnull(),排除整行的缺失值。


7.png

4拯腮、將樓層數(shù)據(jù)匯集成一列窖式,刪掉關(guān)于樓層的多余列,從數(shù)據(jù)的缺失度疾瓮,以及重要性來看脖镀,小區(qū)介紹,戶型介紹狼电,服務(wù)介紹,房源亮點蜒灰,周邊配套所在小區(qū)可以清洗掉,然后將床、空調(diào)肩碟、寬帶强窖、暖氣、冰箱削祈、電視翅溺、洗衣機、熱水器合并成一列髓抑,再清洗相關(guān)字段
8.png

9.png

5咙崎、盡管將數(shù)據(jù)清洗了,但是數(shù)據(jù)里仍然包含了部分不需要的字段吨拍,而且數(shù)據(jù)排列很雜亂和不美觀褪猛,而且想把建筑面積數(shù)值、所在區(qū)域和抵押方式提取出來羹饰。這里使用到strip(),split()以及正則表達式伊滋,來提取數(shù)據(jù)。
10.png

11.png

6队秩、數(shù)據(jù)清洗完后笑旺,我們就來進行數(shù)據(jù)分析。
首先進行描述性分析


12.png

根據(jù)描述分析馍资,中位數(shù)和均值筒主,出現(xiàn)較大差距,證明租金和建筑面積都有極值出現(xiàn)鸟蟹,而且標準差和均值的差距較大物舒,說明數(shù)據(jù)比較離散,存在極值戏锹。通過散點圖、租金和建筑面積直方圖得出火诸,租金出現(xiàn)一個極值25000元锦针,建筑面積出現(xiàn)2個極值300平米。
13.png

14.png

7、現(xiàn)在來看一下各個區(qū)域的房源數(shù)量和平均數(shù)據(jù)分別是多少奈搜,從圖中可以看出平均房租租金收費高的前五地區(qū)是南屏悉盆、吉大、新香洲馋吗、唐家灣和蘭埔焕盟,同時房源數(shù)量 前五的區(qū)域分別是南屏、新香洲宏粤、吉大脚翘、唐家灣和前山
15.png

16.png

8、建立箱形圖绍哎,圖像化每個區(qū)域的房租分布来农。根據(jù)圖中顯示,分布比較均衡的區(qū)域是紅旗崇堰、老香洲沃于,三灶、唐家灣海诲、南屏繁莹、夏灣、新香洲特幔、灣仔咨演、白藤頭以及吉大房租租金都有極值出現(xiàn),吉大甚至出現(xiàn)了整個數(shù)據(jù)極值25000塊.
17.png

9敬辣、根據(jù)文章標題雪标,建立詞云圖。詞云圖根據(jù)詞語在標題中出現(xiàn)的頻率溉跃,對詞語進行統(tǒng)計描繪村刨,字體大小決定該詞匯在整個文本的權(quán)重。從圖中可知撰茎,權(quán)重前3的詞語分別是“精裝”嵌牺、“家電 齊全”和“家私 家電”。
1.png

pp1.jpg

2.png

由于采集的數(shù)據(jù)量較少龄糊,只有500多條逆粹,不能代表珠海整體的租房情況,僅供參考炫惩。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末僻弹,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子他嚷,更是在濱河造成了極大的恐慌蹋绽,老刑警劉巖芭毙,帶你破解...
    沈念sama閱讀 206,482評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異卸耘,居然都是意外死亡退敦,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,377評論 2 382
  • 文/潘曉璐 我一進店門蚣抗,熙熙樓的掌柜王于貴愁眉苦臉地迎上來侈百,“玉大人,你說我怎么就攤上這事翰铡《塾颍” “怎么了?”我有些...
    開封第一講書人閱讀 152,762評論 0 342
  • 文/不壞的土叔 我叫張陵两蟀,是天一觀的道長网梢。 經(jīng)常有香客問我,道長赂毯,這世上最難降的妖魔是什么战虏? 我笑而不...
    開封第一講書人閱讀 55,273評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮党涕,結(jié)果婚禮上烦感,老公的妹妹穿的比我還像新娘。我一直安慰自己膛堤,他們只是感情好手趣,可當(dāng)我...
    茶點故事閱讀 64,289評論 5 373
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著肥荔,像睡著了一般绿渣。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上燕耿,一...
    開封第一講書人閱讀 49,046評論 1 285
  • 那天中符,我揣著相機與錄音,去河邊找鬼誉帅。 笑死淀散,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的蚜锨。 我是一名探鬼主播档插,決...
    沈念sama閱讀 38,351評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼亚再!你這毒婦竟也來了郭膛?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,988評論 0 259
  • 序言:老撾萬榮一對情侶失蹤氛悬,失蹤者是張志新(化名)和其女友劉穎饲鄙,沒想到半個月后凄诞,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,476評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡忍级,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,948評論 2 324
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了伪朽。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片轴咱。...
    茶點故事閱讀 38,064評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖烈涮,靈堂內(nèi)的尸體忽然破棺而出朴肺,到底是詐尸還是另有隱情,我是刑警寧澤坚洽,帶...
    沈念sama閱讀 33,712評論 4 323
  • 正文 年R本政府宣布戈稿,位于F島的核電站,受9級特大地震影響讶舰,放射性物質(zhì)發(fā)生泄漏鞍盗。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,261評論 3 307
  • 文/蒙蒙 一跳昼、第九天 我趴在偏房一處隱蔽的房頂上張望般甲。 院中可真熱鬧,春花似錦鹅颊、人聲如沸敷存。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,264評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽锚烦。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背稽穆。 一陣腳步聲響...
    開封第一講書人閱讀 31,486評論 1 262
  • 我被黑心中介騙來泰國打工钉嘹, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人埠帕。 一個月前我還...
    沈念sama閱讀 45,511評論 2 354
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親睹栖。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,802評論 2 345

推薦閱讀更多精彩內(nèi)容