scrapy抓取鏈家網(wǎng)二手房成交數(shù)據(jù)

image

學習python爬蟲一周多了,看了看練手例子,突然看到鏈家網(wǎng)的二手房成交數(shù)據(jù)很值得去抓取下贞绳,也正好看看房價走勢

因為最近在學習scrapy舰讹,所以就用scrapyxpath來抓取,抓取的數(shù)據(jù)就存MySQL數(shù)據(jù)庫中鬼贱,方便以后查看。

抓取之前得先去分析下鏈家網(wǎng)二手房成交量頁面,一看額檬某。。螟蝙。

image

這個價格2**萬是怎么回事恢恼,說實話剛看到這個頁面的時候覺得價格得去APP里查看,這還抓**(TM...)啊,不過用開發(fā)者工具仔細看了下頁面胰默,發(fā)現(xiàn)了一個好東西
https://hz.lianjia.com/chengjiao/103102419296.html,點進去發(fā)現(xiàn)原來如此场斑,這時突然覺得鏈家好low啊

意外發(fā)現(xiàn)的鏈接
點進去的網(wǎng)頁
心里突然有點小激動哈!
image

正式開始牵署,我們的思路是首先去列表頁把隱藏的詳情頁漏隐,提取出來,然后進詳情頁奴迅,具體的抓取了青责,抓取的代碼相對簡單:

class Lianjiaspider(scrapy.Spider):
    name = 'lianjia1'
    allowed_domains = ['hz.lianjia.com']
    start_urls = []
    regions = {'xihu': '西湖',
               'xiacheng': '下城',
               'jianggan': '江干',
               'gongshu': '拱墅',
               'shangcheng': '上城',
               'binjiang': '濱江',
               'yuhang': '余杭',
               'xiaoshan': '蕭山',
               'xiasha': '下沙'}
    for region in list(regions.keys()):
        for i in range(1, 11):
            start_urls.append('https://hz.lianjia.com/chengjiao/' + region + '//pg' + str(i) + "/")

    def parse(self, response):
        #把隱藏的詳情HTML拿出來
        li_item = response.xpath('//ul[@class="listContent"]')
        for li in li_item:
            hrefs = li.xpath('//a[@class="img"]/@href').extract()
            for href in hrefs:
                #進入詳情,繼續(xù)抓
                yield scrapy.Request(url=href, callback=self.more, dont_filter=True)

進入隱藏的HTML挨個抓取

 def more(self, response):
        item = LianjiaItem()
        info1 = ''
        # 地區(qū)
        area = response.xpath('//section[1]/div[1]/a[3]/text()').extract()[0]
        item['region'] = area.replace("二手房成交價格", "")
        # 小區(qū)名
        community = response.xpath('//title/text()').extract()[0]
        item['community'] = community[:community.find(" ", 1, len(community))]
        # 成交時間
        deal_time = response.xpath('//div[@class="wrapper"]/span/text()').extract()[0]
        item['deal_time'] = deal_time.replace("鏈家成交", "").strip()
        # 總價
        item['total_price'] = response.xpath('//span[@class="dealTotalPrice"]/i/text()').extract()[
                                  0] + '萬'
        # 單價
        item['unit_price'] = response.xpath('//div[@class="price"]/b/text()').extract()[0] + '元/平'

        # 戶型
        introContent = response.xpath('//div[@class="content"]/ul/li/text()').extract()
        item['style'] = introContent[0].strip()
        # 樓層
        item['floor'] = introContent[1].strip()
        # 大小
        item['size'] = introContent[2].strip()
        # 朝向
        item['orientation'] = introContent[6].strip()
        # 建成年代
        item['build_year'] = introContent[7].strip()
        # 裝修情況
        item['decoration'] = introContent[8].strip()
        # 產(chǎn)權年限
        item['property_time'] = introContent[12].strip()
        # 電梯配備
        item['elevator'] = introContent[13].strip()
        # 其他周邊等信息
        infos = response.xpath('//div[@class="content"]/text()').extract()
        if len(infos) != 0:
            for info in infos:
                info = "".join(info.split())
                info1 += info
            item['info'] = info1
        else:
            item['info'] = '暫無信息'
        return item

在這里我只抓取了110頁的內(nèi)容取具,如果大家想抓全部的內(nèi)容的話還得在抓取之前脖隶,先把總頁數(shù)先抓過來,也不一定都是100者填,xpath

//div[@class="page-box house-lst-page-box"]/@page-data
得到的數(shù)據(jù)是:{"totalPage":87,"curPage":1}類似這樣的信息浩村,具體大家再把87提取出來就可以了
image

抓取過程中可以看到日志:

image

接下來就是把抓取的數(shù)據(jù)存進數(shù)據(jù)庫,說實話我是做android開發(fā)的占哟,對于數(shù)據(jù)庫不是很懂(還想著直接存txt嘿嘿心墅,其實就是懶不想去看)酿矢,搞了半天才搞好,對于python和數(shù)據(jù)庫鏈接怎燥,我用的是peewee瘫筐,一個簡單、輕巧的 Python ORM铐姚。研究了文檔半天突然又發(fā)現(xiàn)這咋和scrapy一起用啊策肝,沒事繼續(xù)研究,發(fā)現(xiàn)也簡單。

image

新建一個model

# -*- coding: utf-8 -*-

from peewee import *

db = MySQLDatabase('lianjia', host='localhost', port=3306, user='root', passwd='12345678',
                   charset='utf8')


# define base model
class BaseModel(Model):
    class Meta:
        database = db

class LianjiaInfo(BaseModel):
    region = CharField()
    community = CharField()
    deal_time = CharField()
    total_price = CharField()
    unit_price = CharField()
    style = CharField()
    floor = CharField()
    size = CharField()
    orientation = CharField()
    build_year = CharField()
    decoration = CharField()
    property_time = CharField()
    elevator = CharField()
    info = TextField()

db.connect()
db.create_tables([LianjiaInfo], safe=True)

在pipelines.py中直接插入數(shù)據(jù)

LianjiaInfo.create(region=item['region'],community=item['community'],deal_time=item['deal_time'],
                           total_price=item['total_price'],unit_price=item['unit_price'],style=item['style'],
                           floor=item['floor'], size=item['size'],orientation=item['orientation'],
                           build_year=item['build_year'],decoration=item['decoration'],property_time=item['property_time'],
                           elevator=item['elevator'],info=item['info'])

ok看看結果:一共2516條數(shù)據(jù)隐绵,按理說一頁30條之众,109個區(qū)有2700條數(shù)據(jù),還有186條數(shù)據(jù)不見了依许,恕我學習python爬蟲沒多久實在是不理解

這是一部分數(shù)據(jù)

全部代碼放在github上棺禾,感興趣的伙伴可以clone下看看

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市峭跳,隨后出現(xiàn)的幾起案子膘婶,更是在濱河造成了極大的恐慌,老刑警劉巖蛀醉,帶你破解...
    沈念sama閱讀 219,039評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件悬襟,死亡現(xiàn)場離奇詭異,居然都是意外死亡拯刁,警方通過查閱死者的電腦和手機脊岳,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,426評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來筛璧,“玉大人逸绎,你說我怎么就攤上這事∝舶” “怎么了?”我有些...
    開封第一講書人閱讀 165,417評論 0 356
  • 文/不壞的土叔 我叫張陵巫糙,是天一觀的道長朗儒。 經(jīng)常有香客問我,道長参淹,這世上最難降的妖魔是什么醉锄? 我笑而不...
    開封第一講書人閱讀 58,868評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮浙值,結果婚禮上恳不,老公的妹妹穿的比我還像新娘。我一直安慰自己开呐,他們只是感情好烟勋,可當我...
    茶點故事閱讀 67,892評論 6 392
  • 文/花漫 我一把揭開白布规求。 她就那樣靜靜地躺著,像睡著了一般卵惦。 火紅的嫁衣襯著肌膚如雪阻肿。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,692評論 1 305
  • 那天沮尿,我揣著相機與錄音丛塌,去河邊找鬼。 笑死畜疾,一個胖子當著我的面吹牛赴邻,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播啡捶,決...
    沈念sama閱讀 40,416評論 3 419
  • 文/蒼蘭香墨 我猛地睜開眼姥敛,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了届慈?” 一聲冷哼從身側響起徒溪,我...
    開封第一講書人閱讀 39,326評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎金顿,沒想到半個月后臊泌,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,782評論 1 316
  • 正文 獨居荒郊野嶺守林人離奇死亡揍拆,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,957評論 3 337
  • 正文 我和宋清朗相戀三年渠概,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片嫂拴。...
    茶點故事閱讀 40,102評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡播揪,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出筒狠,到底是詐尸還是另有隱情猪狈,我是刑警寧澤,帶...
    沈念sama閱讀 35,790評論 5 346
  • 正文 年R本政府宣布辩恼,位于F島的核電站雇庙,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏灶伊。R本人自食惡果不足惜疆前,卻給世界環(huán)境...
    茶點故事閱讀 41,442評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望聘萨。 院中可真熱鬧竹椒,春花似錦、人聲如沸米辐。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,996評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至舶吗,卻和暖如春征冷,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背誓琼。 一陣腳步聲響...
    開封第一講書人閱讀 33,113評論 1 272
  • 我被黑心中介騙來泰國打工检激, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人腹侣。 一個月前我還...
    沈念sama閱讀 48,332評論 3 373
  • 正文 我出身青樓叔收,卻偏偏與公主長得像,于是被迫代替她去往敵國和親傲隶。 傳聞我的和親對象是個殘疾皇子饺律,可洞房花燭夜當晚...
    茶點故事閱讀 45,044評論 2 355