鏈家房源爬蟲（含源碼）

鏈家APP上有很多在售房源信息以及成交房源信息，如果可以把這些信息爬下來累颂，可以得到很多有價值的信息侣集。因此本文將講一講如何爬取這些數(shù)據(jù)坛增，并保存下來供以后分析。
本文將介紹以下幾個方面：

程序介紹
使用教程
實現(xiàn)思路
數(shù)據(jù)存儲
可視化分析

程序介紹

該程序支持爬取鏈家在線二手房數(shù)據(jù)雕欺，歷史成交數(shù)據(jù)岛马，在線租房數(shù)據(jù)和指定城市所有小區(qū)數(shù)據(jù)。
數(shù)據(jù)存儲目前支持三種數(shù)據(jù)庫格式（mysql屠列，postgreSql, Sqlite3)啦逆。
由于鏈家網(wǎng)采取對IP限流設(shè)置，所以該程序沒有采取多線程爬取笛洛，并且限制了爬取速度來防止被封夏志。
提供mysql數(shù)據(jù)轉(zhuǎn)到ES的解決方案，方便進行數(shù)據(jù)可視化分析苛让。

使用教程

源碼地址 https://github.com/XuefengHuang/lianjia-scrawler 如果喜歡盲镶，請給個star支持一下，謝謝蝌诡！
下載源碼并安裝依賴包

1. git clone https://github.com/XuefengHuang/lianjia-scrawler.git
2. cd lianjia-scrawler
# If you'd like not to use [virtualenv](https://virtualenv.pypa.io/en/stable/), please skip step 3 and 4.
3. virtualenv lianjia
4. source lianjia/bin/activate
5. pip install -r requirements.txt

設(shè)置數(shù)據(jù)庫信息以及爬取城市行政區(qū)信息（支持三種數(shù)據(jù)庫格式）

DBENGINE = 'mysql' #ENGINE OPTIONS: mysql, sqlite3, postgresql
DBNAME = 'test'
DBUSER = 'root'
DBPASSWORD = ''
DBHOST = '127.0.0.1'
DBPORT = 3306
CITY = 'bj' # only one, shanghai=sh shenzhen=sh......
REGIONLIST = [u'chaoyang', u'xicheng'] # 只支持拼音

運行 python scrawl.py! (請注釋14行如果已爬取完所想要的小區(qū)信息)
可以修改scrawl.py來只爬取在售房源信息或者成交房源信息或者租售房源信息

實現(xiàn)思路

開始抓取前先觀察下目標頁面或網(wǎng)站的結(jié)構(gòu)溉贿，其中比較重要的是URL的結(jié)構(gòu)。鏈家網(wǎng)的二手房列表頁面共有100個浦旱，URL結(jié)構(gòu)為http://bj.lianjia.com/ershoufang/pg9/宇色，其中bj表示城市，/ershoufang/是頻道名稱颁湖，pg9是頁面碼宣蠕。我們要抓取的是北京的二手房頻道，所以前面的部分不會變甥捺，屬于固定部分抢蚀，后面的頁面碼需要在1-100間變化，屬于可變部分镰禾。將URL分為兩部分皿曲，前面的固定部分賦值給url，后面的可變部分使用for循環(huán)吴侦。我們以根據(jù)小區(qū)名字搜索二手房出售情況為例：

BASE_URL = u"http://bj.lianjia.com/"
url = BASE_URL + u"ershoufang/rs" + urllib2.quote(communityname.encode('utf8')) + "/"
total_pages = misc.get_total_pages(url) //獲取總頁數(shù)信息
for page in range(total_pages):
    if page > 0:
        url_page = BASE_URL + u"ershoufang/pg%drs%s/" % (page+1, urllib2.quote(communityname.encode('utf8')))

//獲取總頁數(shù)信息代碼
def get_total_pages(url):
    source_code = get_source_code(url)
    soup = BeautifulSoup(source_code, 'lxml')
    total_pages = 0
    try:
        page_info = soup.find('div',{'class':'page-box house-lst-page-box'})
    except AttributeError as e:
        page_info = None

    if page_info == None:
        return None
    page_info_str = page_info.get('page-data').split(',')[0]  #'{"totalPage":5,"curPage":1}'
    total_pages = int(page_info_str.split(':')[1])
    return total_pages

頁面抓取完成后無法直接閱讀和進行數(shù)據(jù)提取屋休，還需要進行頁面解析。我們使用BeautifulSoup對頁面進行解析备韧。

soup = BeautifulSoup(source_code, 'lxml')
nameList = soup.findAll("li", {"class":"clear"})

完成頁面解析后就可以對頁面中的關(guān)鍵信息進行提取了劫樟。下面我們分別對房源各個信息進行提取。

for name in nameList: # per house loop
    i = i + 1
    info_dict = {}
    try:
        housetitle = name.find("div", {"class":"title"})
        info_dict.update({u'title':housetitle.get_text().strip()})
        info_dict.update({u'link':housetitle.a.get('href')})

        houseaddr = name.find("div", {"class":"address"})
        info = houseaddr.div.get_text().split('|')
        info_dict.update({u'community':info[0].strip()})
        info_dict.update({u'housetype':info[1].strip()})
        info_dict.update({u'square':info[2].strip()})
        info_dict.update({u'direction':info[3].strip()})

        housefloor = name.find("div", {"class":"flood"})
        floor_all = housefloor.div.get_text().split('-')[0].strip().split(' ')
        info_dict.update({u'floor':floor_all[0].strip()})
        info_dict.update({u'years':floor_all[-1].strip()})

        followInfo = name.find("div", {"class":"followInfo"})
        info_dict.update({u'followInfo':followInfo.get_text()})

        tax = name.find("div", {"class":"tag"})
        info_dict.update({u'taxtype':tax.get_text().strip()})

        totalPrice = name.find("div", {"class":"totalPrice"})
        info_dict.update({u'totalPrice':int(totalPrice.span.get_text())})

        unitPrice = name.find("div", {"class":"unitPrice"})
        info_dict.update({u'unitPrice':int(unitPrice.get('data-price'))})
        info_dict.update({u'houseID':unitPrice.get('data-hid')})
    except:
        continue

提取完后，為了之后數(shù)據(jù)分析叠艳，要存進之前配置的數(shù)據(jù)庫中奶陈。

model.Houseinfo.insert(**info_dict).upsert().execute()
model.Hisprice.insert(houseID=info_dict['houseID'], totalPrice=info_dict['totalPrice']).upsert().execute()

數(shù)據(jù)存儲

可支持數(shù)據(jù)庫：mysql，postgreSql, Sqlite3
數(shù)據(jù)庫信息：

Community小區(qū)信息（id, title, link, district, bizcurcle, taglist）

Houseinfo在售房源信息（houseID, title, link, community, years, housetype, square, direction, floor, taxtype, totalPrice, unitPrice, followInfo, validdate)

Hisprice歷史成交信息（houseID附较，totalPrice尿瞭，date）

Sellinfo成交房源信息(houseID, title, link, community, years, housetype, square, direction, floor, status, source,, totalPrice, unitPrice, dealdate, updatedate)

Rentinfo租售房源信息 (houseID, title, link, region, zone, meters, other, subway, decoration, heating, price, pricepre, updatedate)

可視化分析

首先需要同步mysql數(shù)據(jù)到ES里，然后利用kibana進行數(shù)據(jù)分析翅睛。同步的部分可以利用該工具
截圖示例：

房源信息.png

房源信息json格式數(shù)據(jù).png

房源地區(qū)分布圖.png

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末声搁，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子捕发，更是在濱河造成了極大的恐慌疏旨，老刑警劉巖，帶你破解...
沈念sama閱讀 222,729評論 6贊 517
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件扎酷，死亡現(xiàn)場離奇詭異檐涝，居然都是意外死亡，警方通過查閱死者的電腦和手機法挨，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,226評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門谁榜，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人凡纳，你說我怎么就攤上這事窃植。” “怎么了荐糜？”我有些...
開封第一講書人閱讀 169,461評論 0贊 362
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵巷怜，是天一觀的道長。經(jīng)常有香客問我暴氏，道長延塑，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 60,135評論 1贊 300
?港島之戀（遺憾婚禮）
正文為了忘掉前任答渔，我火速辦了婚禮关带，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘沼撕。我一直安慰自己宋雏，他們只是感情好，可當我...
茶點故事閱讀 69,130評論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布端朵。她就那樣靜靜地躺著好芭，像睡著了一般。火紅的嫁衣襯著肌膚如雪冲呢。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,736評論 1贊 312
城市分裂傳說
那天招狸，我揣著相機與錄音敬拓，去河邊找鬼邻薯。笑死，一個胖子當著我的面吹牛乘凸，可吹牛的內(nèi)容都是我干的厕诡。我是一名探鬼主播，決...
沈念sama閱讀 41,179評論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼营勤，長吁一口氣：“原來是場噩夢啊……” “哼灵嫌！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起葛作，我...
開封第一講書人閱讀 40,124評論 0贊 277
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤寿羞，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后赂蠢，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體绪穆，經(jīng)...
沈念sama閱讀 46,657評論 1贊 320
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,723評論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年虱岂，在試婚紗的時候發(fā)現(xiàn)自己被綠了玖院。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,872評論 1贊 353
活死人
序言：一個原本活蹦亂跳的男人離奇死亡第岖，死狀恐怖难菌，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情蔑滓，我是刑警寧澤扔傅，帶...
沈念sama閱讀 36,533評論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站烫饼，受9級特大地震影響猎塞，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜杠纵，卻給世界環(huán)境...
茶點故事閱讀 42,213評論 3贊 336
男人毒藥：我在死后第九天來索命
文/蒙蒙一荠耽、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧比藻，春花似錦铝量、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,700評論 0贊 25
一樁弒父案慢叨，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至务蝠，卻和暖如春拍谐，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,819評論 1贊 274
情欲美人皮
我被黑心中介騙來泰國打工轩拨，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留践瓷，地道東北人。一個月前我還...
沈念sama閱讀 49,304評論 3贊 379
代替公主和親
正文我出身青樓亡蓉，卻偏偏與公主長得像晕翠，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子砍濒，可洞房花燭夜當晚...
茶點故事閱讀 45,876評論 2贊 361

鏈家房源爬蟲（含源碼）

程序介紹

使用教程

實現(xiàn)思路

數(shù)據(jù)存儲

可視化分析

推薦閱讀更多精彩內(nèi)容