用Python按月爬取目標(biāo)小區(qū)房源信息

一直想按照某個小區(qū)按月統(tǒng)計二手房源的價格趨勢，雖然售房網(wǎng)站上點進去某個小區(qū)直接看得到，但是總感覺有問題浑侥，不如自己直接獲取數(shù)據(jù)來的踏實。如果要買房子晰绎，總是有自己的目標(biāo)范圍寓落，像之前我用R提取的房源數(shù)據(jù)，按照一定特征進行了分類荞下，那么可以按照自己心儀的區(qū)域有選擇地關(guān)注某些小區(qū)的價格變動伶选。我關(guān)注了若干個小區(qū)，從今年開始按月統(tǒng)計二手房源的價格尖昏。當(dāng)然最后統(tǒng)計出來的不可能精確仰税，但是房源價格的趨勢我倒是很感興趣，當(dāng)作未來的一個參考抽诉。

以【房地產(chǎn)門戶|房地產(chǎn)網(wǎng)】- 房天下為例陨簇。

首先找到感興趣的小區(qū)所在網(wǎng)頁，比如像中大未來城二手房出售信息-中大未來城小區(qū)網(wǎng)-昆山房天下迹淌。

網(wǎng)頁格式類似于“小區(qū)名.http://fang.com/chushou/”塞帐，前面的小區(qū)名可以用循環(huán)列表來處理。接下來需要獲得最大的頁碼巍沙。觀察最后的翻頁葵姥，有一個“末頁”可以定位。

獲取末頁所在的URL句携。

last_page = soup.find_all('a', id='PageControl1_hlk_last')

接著從末頁的頁面源碼獲得這一頁的頁碼數(shù)字榔幸。當(dāng)然可能有一頁或者多頁，需要用末頁URL是否存在來判斷矮嫉。

if len(last_page) != 0:? ??

????????last_url = last_page[0].attrs['href']? ??

????????response_last = requests.get(last_url, headers=headers)? ??

????????soup_last = BeautifulSoup(response_last.text, 'lxml')? ??

????????total_page = soup_last.find('a', class_='pageNow').get_text()

else:? ??

????????total_page = soup.find('a', class_='pageNow').get_text()

獲得頁碼最大數(shù)字后可以拼接得到新的URL列表削咆，也就是房源所在的所有頁面URL。

for page in range(1, int(total_page)+1):? ? ? ??

????????pageurl = 'http://' + u + '.fang.com/chushou/list/-h330-i3' + str(page) + '/'

從頁面中獲得房源詳細(xì)信息蠢笋，用bs4來解析源碼拨齐。

res = requests.get(pageurl, headers=headers, timeout=4)

s = BeautifulSoup(res.text, 'lxml')

links = s.find_all('div', class_='fangList')

for i in links:? ??

????????link = i.find('a')['href']? ??

????????each = BeautifulSoup(str(i), 'lxml')? ??

????????title = each.find('p', class_='fangTitle').get_text().replace(',', '').strip()? ??

????????mianji = each.find('li').get_text()[:-2]? ??

????????zongjia = each.find('span', class_='num').get_text()? ??

????????danjia = each.find('li', class_='update').get_text()[:-4]

直接按照每個小區(qū)建立一個Excel表，每過一個月直接增加一個sheet昨寞，這里需要用到xlwt瞻惋、xlrd厦滤、xlutils這三個庫，用來讀寫數(shù)據(jù)到Excel表歼狼。目前只能用xls格式的文件掏导。

rdbook = xlrd.open_workbook(xiaoqu + '.xls')

wtbook = copy(rdbook)

worksheet = wtbook.add_sheet('201802', cell_overwrite_ok=True)

count = 0

worksheet.write(count, 0, title, xlwt.easyxf('font: height 240, name SimSun'))

worksheet.write(count, 1, int(zongjia), xlwt.easyxf('font: height 240, name SimSun'))

worksheet.write(count, 2, int(mianji), xlwt.easyxf('font: height 240, name SimSun'))

worksheet.write(count, 3, int(danjia), xlwt.easyxf('font: height 240, name SimSun'))

worksheet.write(count, 4, link, xlwt.easyxf('font: height 240, name SimSun'))

count += 1

wtbook.save(xiaoqu + '.xls')

這里需要一個count，用來指定添加到sheet的哪一行羽峰。

這樣只要事先將小區(qū)名命名的Excel表在py同一個文件夾建立好趟咆，運行程序后可以直接導(dǎo)入sheet，一個月后把sheet名改成201803梅屉。

完整代碼如下：

import requests

from bs4 import BeautifulSoup

import random

import xlwt

import xlrd

from xlutils.copy import copy

ua_list = [

? ? ? ? "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",

? ? ? ? "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",

? ? ? ? "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",

? ? ? ? "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",

? ? ? ? ]

headers = {'User-agent': random.choice(ua_list)}

urls = ['bojuedadi0512', 'guanhuyihao0512', 'hefengyasong']

for u in urls:

? ? ? ? url = 'http://' + u + '.fang.com/chushou/'

? ? ? ? response = requests.get(url, headers=headers, timeout=4)

? ? ? ? soup = BeautifulSoup(response.text, 'lxml')

? ? ? ? xiaoqu = soup.find('a', class_='esfdetailName blueWord').get_text()

? ? ? ? #打開excel

? ? ? ? rdbook = xlrd.open_workbook(xiaoqu + '.xls')

? ? ? ? wtbook = copy(rdbook)

? ? ? ? #添加新sheet

? ? ? ? worksheet = wtbook.add_sheet('201803', cell_overwrite_ok=True)

? ? ? ? #找到最后一頁的頁碼

? ? ? ? last_page = soup.find_all('a', id='PageControl1_hlk_last')

? ? ? ? if len(last_page) != 0:

? ? ? ? ? ? last_url = last_page[0].attrs['href']

? ? ? ? ? ? response_last = requests.get(last_url, headers=headers)

? ? ? ? ? ? soup_last = BeautifulSoup(response_last.text, 'lxml')

? ? ? ? ? ? total_page = soup_last.find('a', class_='pageNow').get_text()

? ? ? ? else:

? ? ? ? ? ? total_page = soup.find('a', class_='pageNow').get_text()

? ? ? ? #開始提取

? ? ? ? count = 0

? ? ? ? for page in range(1, int(total_page)+1):

? ? ? ? ? ? ? ? pageurl = 'http://' + u + '.fang.com/chushou/list/-h330-i3' + str(page) + '/'

? ? ? ? ? ? ? ? res = requests.get(pageurl, headers=headers, timeout=4)

? ? ? ? ? ? ? ? s = BeautifulSoup(res.text, 'lxml')

? ? ? ? ? ? ? ? links = s.find_all('div', class_='fangList')

? ? ? ? ? ? ? ? for i in links:

? ? ? ? ? ? ? ? ? ? link = i.find('a')['href']

? ? ? ? ? ? ? ? ? ? each = BeautifulSoup(str(i), 'lxml')

? ? ? ? ? ? ? ? ? ? title = each.find('p', class_='fangTitle').get_text().replace(',', '').strip()

? ? ? ? ? ? ? ? ? ? mianji = each.find('li').get_text()[:-2]

? ? ? ? ? ? ? ? ? ? zongjia = each.find('span', class_='num').get_text()

? ? ? ? ? ? ? ? ? ? danjia = each.find('li', class_='update').get_text()[:-4]

? ? ? ? ? ? ? ? ? ? worksheet.write(count, 0, title)

? ? ? ? ? ? ? ? ? ? worksheet.write(count, 1, int(zongjia))

? ? ? ? ? ? ? ? ? ? worksheet.write(count, 2, int(mianji))

? ? ? ? ? ? ? ? ? ? worksheet.write(count, 3, int(danjia))

? ? ? ? ? ? ? ? ? ? worksheet.write(count, 4, link)

? ? ? ? ? ? ? ? ? ? count += 1

? ? ? ? ? ? ? ? ? ? print(count, title)

? ? ? ? wtbook.save(xiaoqu + '.xls')

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末值纱，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子坯汤，更是在濱河造成了極大的恐慌计雌，老刑警劉巖，帶你破解...
沈念sama閱讀 206,214評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件玫霎，死亡現(xiàn)場離奇詭異，居然都是意外死亡妈橄，警方通過查閱死者的電腦和手機庶近，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,307評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來眷蚓，“玉大人鼻种，你說我怎么就攤上這事∩橙龋” “怎么了叉钥？”我有些...
開封第一講書人閱讀 152,543評論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長篙贸。經(jīng)常有香客問我投队，道長，這世上最難降的妖魔是什么爵川？我笑而不...
開封第一講書人閱讀 55,221評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任敷鸦，我火速辦了婚禮，結(jié)果婚禮上寝贡，老公的妹妹穿的比我還像新娘扒披。我一直安慰自己，他們只是感情好圃泡，可當(dāng)我...
茶點故事閱讀 64,224評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布碟案。她就那樣靜靜地躺著，像睡著了一般颇蜡。火紅的嫁衣襯著肌膚如雪价说。梳的紋絲不亂的頭發(fā)上辆亏，一...
開封第一講書人閱讀 49,007評論 1贊 284
城市分裂傳說
那天，我揣著相機與錄音熔任，去河邊找鬼褒链。笑死，一個胖子當(dāng)著我的面吹牛疑苔，可吹牛的內(nèi)容都是我干的甫匹。我是一名探鬼主播，決...
沈念sama閱讀 38,313評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼惦费，長吁一口氣：“原來是場噩夢啊……” “哼兵迅！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起薪贫，我...
開封第一講書人閱讀 36,956評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤恍箭，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后瞧省，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體扯夭，經(jīng)...
沈念sama閱讀 43,441評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 35,925評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年鞍匾，在試婚紗的時候發(fā)現(xiàn)自己被綠了交洗。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 38,018評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡橡淑，死狀恐怖构拳，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情梁棠，我是刑警寧澤置森，帶...
沈念sama閱讀 33,685評論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站符糊，受9級特大地震影響凫海，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜男娄，卻給世界環(huán)境...
茶點故事閱讀 39,234評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一盐碱、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧沪伙，春花似錦瓮顽、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,240評論 0贊 19
一樁弒父案暖混，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至翁授，卻和暖如春拣播，著一層夾襖步出監(jiān)牢的瞬間晾咪，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,464評論 1贊 261
情欲美人皮
我被黑心中介騙來泰國打工贮配，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留谍倦，地道東北人。一個月前我還...
沈念sama閱讀 45,467評論 2贊 352
代替公主和親
正文我出身青樓泪勒，卻偏偏與公主長得像昼蛀，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子圆存，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 42,762評論 2贊 345

用Python按月爬取目標(biāo)小區(qū)房源信息

推薦閱讀更多精彩內(nèi)容