用Python按月爬取目標(biāo)小區(qū)房源信息

一直想按照某個小區(qū)按月統(tǒng)計二手房源的價格趨勢,雖然售房網(wǎng)站上點進去某個小區(qū)直接看得到,但是總感覺有問題浑侥,不如自己直接獲取數(shù)據(jù)來的踏實。如果要買房子晰绎,總是有自己的目標(biāo)范圍寓落,像之前我用R提取的房源數(shù)據(jù),按照一定特征進行了分類荞下,那么可以按照自己心儀的區(qū)域有選擇地關(guān)注某些小區(qū)的價格變動伶选。我關(guān)注了若干個小區(qū),從今年開始按月統(tǒng)計二手房源的價格尖昏。當(dāng)然最后統(tǒng)計出來的不可能精確仰税,但是房源價格的趨勢我倒是很感興趣,當(dāng)作未來的一個參考抽诉。

【房地產(chǎn)門戶|房地產(chǎn)網(wǎng)】- 房天下為例陨簇。

首先找到感興趣的小區(qū)所在網(wǎng)頁,比如像中大未來城二手房出售信息-中大未來城小區(qū)網(wǎng)-昆山房天下迹淌。

網(wǎng)頁格式類似于“小區(qū)名.http://fang.com/chushou/”塞帐,前面的小區(qū)名可以用循環(huán)列表來處理。接下來需要獲得最大的頁碼巍沙。觀察最后的翻頁葵姥,有一個“末頁”可以定位。

獲取末頁所在的URL句携。

last_page = soup.find_all('a', id='PageControl1_hlk_last')

接著從末頁的頁面源碼獲得這一頁的頁碼數(shù)字榔幸。當(dāng)然可能有一頁或者多頁,需要用末頁URL是否存在來判斷矮嫉。

if len(last_page) != 0:? ??

????????last_url = last_page[0].attrs['href']? ??

????????response_last = requests.get(last_url, headers=headers)? ??

????????soup_last = BeautifulSoup(response_last.text, 'lxml')? ??

????????total_page = soup_last.find('a', class_='pageNow').get_text()

else:? ??

????????total_page = soup.find('a', class_='pageNow').get_text()

獲得頁碼最大數(shù)字后可以拼接得到新的URL列表削咆,也就是房源所在的所有頁面URL。

for page in range(1, int(total_page)+1):? ? ? ??

????????pageurl = 'http://' + u + '.fang.com/chushou/list/-h330-i3' + str(page) + '/'

從頁面中獲得房源詳細(xì)信息蠢笋,用bs4來解析源碼拨齐。

res = requests.get(pageurl, headers=headers, timeout=4)

s = BeautifulSoup(res.text, 'lxml')

links = s.find_all('div', class_='fangList')

for i in links:? ??

????????link = i.find('a')['href']? ??

????????each = BeautifulSoup(str(i), 'lxml')? ??

????????title = each.find('p', class_='fangTitle').get_text().replace(',', '').strip()? ??

????????mianji = each.find('li').get_text()[:-2]? ??

????????zongjia = each.find('span', class_='num').get_text()? ??

????????danjia = each.find('li', class_='update').get_text()[:-4]

直接按照每個小區(qū)建立一個Excel表,每過一個月直接增加一個sheet昨寞,這里需要用到xlwt瞻惋、xlrd厦滤、xlutils這三個庫,用來讀寫數(shù)據(jù)到Excel表歼狼。目前只能用xls格式的文件掏导。

rdbook = xlrd.open_workbook(xiaoqu + '.xls')

wtbook = copy(rdbook)

worksheet = wtbook.add_sheet('201802', cell_overwrite_ok=True)

count = 0

worksheet.write(count, 0, title, xlwt.easyxf('font: height 240, name SimSun'))

worksheet.write(count, 1, int(zongjia), xlwt.easyxf('font: height 240, name SimSun'))

worksheet.write(count, 2, int(mianji), xlwt.easyxf('font: height 240, name SimSun'))

worksheet.write(count, 3, int(danjia), xlwt.easyxf('font: height 240, name SimSun'))

worksheet.write(count, 4, link, xlwt.easyxf('font: height 240, name SimSun'))

count += 1

wtbook.save(xiaoqu + '.xls')

這里需要一個count,用來指定添加到sheet的哪一行羽峰。

這樣只要事先將小區(qū)名命名的Excel表在py同一個文件夾建立好趟咆,運行程序后可以直接導(dǎo)入sheet,一個月后把sheet名改成201803梅屉。

完整代碼如下:

import requests

from bs4 import BeautifulSoup

import random

import xlwt

import xlrd

from xlutils.copy import copy

ua_list = [

? ? ? ? "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",

? ? ? ? "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",

? ? ? ? "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",

? ? ? ? "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",

? ? ? ? ]

headers = {'User-agent': random.choice(ua_list)}

urls = ['bojuedadi0512', 'guanhuyihao0512', 'hefengyasong']

for u in urls:

? ? ? ? url = 'http://' + u + '.fang.com/chushou/'

? ? ? ? response = requests.get(url, headers=headers, timeout=4)

? ? ? ? soup = BeautifulSoup(response.text, 'lxml')

? ? ? ? xiaoqu = soup.find('a', class_='esfdetailName blueWord').get_text()

? ? ? ? #打開excel

? ? ? ? rdbook = xlrd.open_workbook(xiaoqu + '.xls')

? ? ? ? wtbook = copy(rdbook)

? ? ? ? #添加新sheet

? ? ? ? worksheet = wtbook.add_sheet('201803', cell_overwrite_ok=True)

? ? ? ? #找到最后一頁的頁碼

? ? ? ? last_page = soup.find_all('a', id='PageControl1_hlk_last')

? ? ? ? if len(last_page) != 0:

? ? ? ? ? ? last_url = last_page[0].attrs['href']

? ? ? ? ? ? response_last = requests.get(last_url, headers=headers)

? ? ? ? ? ? soup_last = BeautifulSoup(response_last.text, 'lxml')

? ? ? ? ? ? total_page = soup_last.find('a', class_='pageNow').get_text()

? ? ? ? else:

? ? ? ? ? ? total_page = soup.find('a', class_='pageNow').get_text()

? ? ? ? #開始提取

? ? ? ? count = 0

? ? ? ? for page in range(1, int(total_page)+1):

? ? ? ? ? ? ? ? pageurl = 'http://' + u + '.fang.com/chushou/list/-h330-i3' + str(page) + '/'

? ? ? ? ? ? ? ? res = requests.get(pageurl, headers=headers, timeout=4)

? ? ? ? ? ? ? ? s = BeautifulSoup(res.text, 'lxml')

? ? ? ? ? ? ? ? links = s.find_all('div', class_='fangList')

? ? ? ? ? ? ? ? for i in links:

? ? ? ? ? ? ? ? ? ? link = i.find('a')['href']

? ? ? ? ? ? ? ? ? ? each = BeautifulSoup(str(i), 'lxml')

? ? ? ? ? ? ? ? ? ? title = each.find('p', class_='fangTitle').get_text().replace(',', '').strip()

? ? ? ? ? ? ? ? ? ? mianji = each.find('li').get_text()[:-2]

? ? ? ? ? ? ? ? ? ? zongjia = each.find('span', class_='num').get_text()

? ? ? ? ? ? ? ? ? ? danjia = each.find('li', class_='update').get_text()[:-4]

? ? ? ? ? ? ? ? ? ? worksheet.write(count, 0, title)

? ? ? ? ? ? ? ? ? ? worksheet.write(count, 1, int(zongjia))

? ? ? ? ? ? ? ? ? ? worksheet.write(count, 2, int(mianji))

? ? ? ? ? ? ? ? ? ? worksheet.write(count, 3, int(danjia))

? ? ? ? ? ? ? ? ? ? worksheet.write(count, 4, link)

? ? ? ? ? ? ? ? ? ? count += 1

? ? ? ? ? ? ? ? ? ? print(count, title)

? ? ? ? wtbook.save(xiaoqu + '.xls')

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末值纱,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子坯汤,更是在濱河造成了極大的恐慌计雌,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,214評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件玫霎,死亡現(xiàn)場離奇詭異,居然都是意外死亡妈橄,警方通過查閱死者的電腦和手機庶近,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,307評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來眷蚓,“玉大人鼻种,你說我怎么就攤上這事∩橙龋” “怎么了叉钥?”我有些...
    開封第一講書人閱讀 152,543評論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長篙贸。 經(jīng)常有香客問我投队,道長,這世上最難降的妖魔是什么爵川? 我笑而不...
    開封第一講書人閱讀 55,221評論 1 279
  • 正文 為了忘掉前任敷鸦,我火速辦了婚禮,結(jié)果婚禮上寝贡,老公的妹妹穿的比我還像新娘扒披。我一直安慰自己,他們只是感情好圃泡,可當(dāng)我...
    茶點故事閱讀 64,224評論 5 371
  • 文/花漫 我一把揭開白布碟案。 她就那樣靜靜地躺著,像睡著了一般颇蜡。 火紅的嫁衣襯著肌膚如雪价说。 梳的紋絲不亂的頭發(fā)上辆亏,一...
    開封第一講書人閱讀 49,007評論 1 284
  • 那天,我揣著相機與錄音熔任,去河邊找鬼褒链。 笑死,一個胖子當(dāng)著我的面吹牛疑苔,可吹牛的內(nèi)容都是我干的甫匹。 我是一名探鬼主播,決...
    沈念sama閱讀 38,313評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼惦费,長吁一口氣:“原來是場噩夢啊……” “哼兵迅!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起薪贫,我...
    開封第一講書人閱讀 36,956評論 0 259
  • 序言:老撾萬榮一對情侶失蹤恍箭,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后瞧省,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體扯夭,經(jīng)...
    沈念sama閱讀 43,441評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,925評論 2 323
  • 正文 我和宋清朗相戀三年鞍匾,在試婚紗的時候發(fā)現(xiàn)自己被綠了交洗。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,018評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡橡淑,死狀恐怖构拳,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情梁棠,我是刑警寧澤置森,帶...
    沈念sama閱讀 33,685評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站符糊,受9級特大地震影響凫海,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜男娄,卻給世界環(huán)境...
    茶點故事閱讀 39,234評論 3 307
  • 文/蒙蒙 一盐碱、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧沪伙,春花似錦瓮顽、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,240評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至翁授,卻和暖如春拣播,著一層夾襖步出監(jiān)牢的瞬間晾咪,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,464評論 1 261
  • 我被黑心中介騙來泰國打工贮配, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留谍倦,地道東北人。 一個月前我還...
    沈念sama閱讀 45,467評論 2 352
  • 正文 我出身青樓泪勒,卻偏偏與公主長得像昼蛀,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子圆存,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,762評論 2 345

推薦閱讀更多精彩內(nèi)容