Python實(shí)戰(zhàn) - 第二周作業(yè)

代碼

  • 預(yù)處理部分 - 獲取頻道列表
# pre.py
from bs4 import BeautifulSoup
import requests


#
# 根據(jù)“全部分類”頁面,找到所有的頻道入口
#
def parse_list():
    weburl = 'http://bj.ganji.com/wu/'
    web_data = requests.get(weburl)
    soup = BeautifulSoup(web_data.text, 'lxml', from_encoding="utf-8")
    suburllist = soup.select('#wrapper > div.content > div > div > dl > dt > a')
    for suburl in suburllist:
        print('http://bj.ganji.com' + suburl.get('href'))

# 找到的頻道入口列表
category_list = '''
    http://bj.ganji.com/jiaju/
    http://bj.ganji.com/rirongbaihuo/
    http://bj.ganji.com/shouji/
    http://bj.ganji.com/shoujihaoma/
    http://bj.ganji.com/bangong/
    http://bj.ganji.com/nongyongpin/
    http://bj.ganji.com/jiadian/
    http://bj.ganji.com/ershoubijibendiannao/
    http://bj.ganji.com/ruanjiantushu/
    http://bj.ganji.com/yingyouyunfu/
    http://bj.ganji.com/diannao/
    http://bj.ganji.com/xianzhilipin/
    http://bj.ganji.com/fushixiaobaxuemao/
    http://bj.ganji.com/meironghuazhuang/
    http://bj.ganji.com/shuma/
    http://bj.ganji.com/laonianyongpin/
    http://bj.ganji.com/xuniwupin/
    http://bj.ganji.com/qitawupin/
    http://bj.ganji.com/ershoufree/
    http://bj.ganji.com/wupinjiaohuan/
'''

if __name__ == '__main__':
    parse_list()

  • 解析各頻道列表頁面匾乓,并將url入庫
# splider1.py
from bs4 import BeautifulSoup
from multiprocessing import Pool
import requests
import time
import pymongo
import pre

client = pymongo.MongoClient('localhost', 27017)
ganji = client['ganji']
t_urllist = ganji['t_urllist']


#
# 解析具體的一頁列表信息并入庫
#
def parse_list(url):
    web_data = requests.get(url)
    soup = BeautifulSoup(web_data.text, 'lxml')
    # “轉(zhuǎn)轉(zhuǎn)”列表頁面,并且還有數(shù)據(jù)
    if soup.find('table', 'tbimg'):
        titles = soup.select('#infolist > div.infocon > table > tbody > tr.zzinfo > td.t > a')
        for title in titles:
            t_urllist.insert_one({'title': title.get_text(), 'url': title.get('href'), 'type': 'zz', 'flag': False})
            # print('{} ==> {}'.format(title.get_text(), title.get('href')))
    # 趕集網(wǎng)自身列表頁面又谋,并且還有數(shù)據(jù)
    elif soup.find('div', 'layoutlist') and soup.find('ul', 'pageLink clearfix'):
        titles = soup.select('#wrapper > div.leftBox > div.layoutlist > dl > dt > a')
        for title in titles:
            t_urllist.insert_one({'title': title.get('title'), 'url': title.get('href'), 'type': 'nm', 'flag': False})
            # print('{} ==> {}'.format(title.get('title'), title.get('href')))
    # 此頁無數(shù)據(jù)啦
    else:
        print('后面沒有啦 : ' + url)
        pass
        # Nothing !


#
# 逐頁將某頻道的列表信息解析入庫
#
def process(channel):
    for i in range(1, 100):
        # 第一頁特殊處理拼缝,因?yàn)橹苯悠唇印畂1’將會(huì)打開第二頁而非第一頁
        if i == 1:
            parse_list(channel)
        else:
            parse_list('{}o{}/'.format(channel, str(i)))
        # time.sleep(2)


#
# 程序入口 : 采用多線程將多個(gè)頻道的列表信息解析入庫
#
if __name__ == '__main__':
    # process('http://bj.ganji.com/bangong/')
    pool = Pool()
    pool.map(process, pre.category_list.split())

  • 從數(shù)據(jù)庫獲取url解析各詳情頁面
# splider2.py
from bs4 import BeautifulSoup
from multiprocessing import Pool
import requests
import time
import pymongo

client = pymongo.MongoClient('localhost', 27017)
ganji = client['ganji']
t_urllist = ganji['t_urllist']
t_detail = ganji['t_detail']

#
# 解析基于“轉(zhuǎn)轉(zhuǎn)”平臺(tái)的頁面
#
def parse_zz_detail(url):
    web_data = requests.get(url)
    soup = BeautifulSoup(web_data.text, 'lxml')
    if soup.find('span', 'soldout_btn'):
        print('商品下架啦!' + url)
        pass
        # Nothing !
    else:
        titles = soup.select('body > div.content > div > div.box_left > div.info_lubotu.clearfix > div.box_left_top > h1')
        prices = soup.select('body > div.content > div > div.box_left > div.info_lubotu.clearfix > div.info_massege.left > div.price_li > span > i')
        areas = soup.select('body > div.content > div > div.box_left > div.info_lubotu.clearfix > div.info_massege.left > div.palce_li > span > i')
        categories = soup.select('#nav > div')
        data = {
            'url': url,
            'title': titles[0].get_text().strip(),
            'price': prices[0].get_text().strip(),
            'area': areas[0].get_text().strip(),
            'category': list(categories[0].stripped_strings)[-1]
        }
        # print(data)
        t_detail.insert_one(data)


#
# 解析基于趕集自身平臺(tái)的頁面
#
def parse_nm_detail(url):
    web_data = requests.get(url)
    if web_data.status_code == 404:
        print('商品下架啦彰亥!' + url)
        pass
        # Nothing !
    else:
        soup = BeautifulSoup(web_data.text, 'lxml')
        titles = soup.select(
            '#wrapper > div.content.clearfix > div.leftBox > div.col-cont.title-box > h1')
        prices = soup.select(
            '#wrapper > div.content.clearfix > div.leftBox > div > div > ul > li > i.f22.fc-orange.f-type')
        areas = soup.select(
            '#wrapper > div.content.clearfix > div.leftBox > div:nth-of-type(2) > div > ul > li:nth-of-type(3) > a')
        categories = soup.select('#wrapper > div.content.clearfix > div.leftBox > div:nth-of-type(2) > div > ul > li:nth-of-type(1) > span > a')
        data = {
                'url': url,
            'title': titles[0].get_text().strip(),
            'price': prices[0].get_text().strip(),
            'area': list(map(lambda x:x.text, areas)),
            'category': list(categories[0].stripped_strings)[-1]
        }
        # print(data)
        t_detail.insert_one(data)


#
# 通用解析接口
#
def parse_detail(row):
    print(row)
    if row['type'] == 'zz':
        parse_zz_detail(row['url'])
    else:
        parse_nm_detail(row['url'])

    # 標(biāo)記已處理的記錄
    t_urllist.update({'_id': row['_id']}, {'$set':{'flag': True}})


#
# 程序入口 : 從數(shù)據(jù)庫讀取url咧七,采用多線程進(jìn)行詳情爬取
#
if __name__ == '__main__':
    # parse_detail('http://zhuanzhuan.ganji.com/detail/797106589634494469z.shtml?from=pc&source=ganji&cate=%E5%8C%97%E4%BA%AC%E8%B5%B6%E9%9B%86%7C%E5%8C%97%E4%BA%AC%E4%BA%8C%E6%89%8B%7C%E5%8C%97%E4%BA%AC%E4%BA%8C%E6%89%8B%E6%89%8B%E6%9C%BA&cateurl=bj|wu|shouji', 'zz')
    # parse_detail('http://bj.ganji.com/bangong/2413656831x.htm', 'nm')
    rows = t_urllist.find({'flag': False})
    pool = Pool()
    pool.map(parse_detail, rows)

總結(jié)

  • 趕集網(wǎng)的分頁,第一頁與第二頁的規(guī)則不同剩愧,第一頁不能直接拼接“o1/”作為分頁標(biāo)識(shí)猪叙。
  • 趕集的列表及商品頁面有兩種:基于“轉(zhuǎn)轉(zhuǎn)”平臺(tái)的 和 基于趕集自身平臺(tái)的。在列表識(shí)別以及詳情頁面爬取時(shí)需要予以區(qū)分處理仁卷。
  • 基于轉(zhuǎn)轉(zhuǎn)的列表頁面中穴翩,個(gè)人信息與商家信息的區(qū)分要根據(jù)<tr>標(biāo)簽的css樣式差異。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末锦积,一起剝皮案震驚了整個(gè)濱河市芒帕,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌丰介,老刑警劉巖背蟆,帶你破解...
    沈念sama閱讀 216,544評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件鉴分,死亡現(xiàn)場離奇詭異,居然都是意外死亡带膀,警方通過查閱死者的電腦和手機(jī)志珍,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,430評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來垛叨,“玉大人伦糯,你說我怎么就攤上這事∷栽” “怎么了敛纲?”我有些...
    開封第一講書人閱讀 162,764評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長剂癌。 經(jīng)常有香客問我淤翔,道長,這世上最難降的妖魔是什么佩谷? 我笑而不...
    開封第一講書人閱讀 58,193評(píng)論 1 292
  • 正文 為了忘掉前任旁壮,我火速辦了婚禮,結(jié)果婚禮上琳要,老公的妹妹穿的比我還像新娘寡具。我一直安慰自己秤茅,他們只是感情好稚补,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,216評(píng)論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著框喳,像睡著了一般课幕。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上五垮,一...
    開封第一講書人閱讀 51,182評(píng)論 1 299
  • 那天乍惊,我揣著相機(jī)與錄音,去河邊找鬼放仗。 笑死润绎,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的诞挨。 我是一名探鬼主播莉撇,決...
    沈念sama閱讀 40,063評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼惶傻!你這毒婦竟也來了棍郎?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,917評(píng)論 0 274
  • 序言:老撾萬榮一對情侶失蹤银室,失蹤者是張志新(化名)和其女友劉穎涂佃,沒想到半個(gè)月后励翼,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,329評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡辜荠,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,543評(píng)論 2 332
  • 正文 我和宋清朗相戀三年汽抚,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片伯病。...
    茶點(diǎn)故事閱讀 39,722評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡殊橙,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出狱从,到底是詐尸還是另有隱情膨蛮,我是刑警寧澤,帶...
    沈念sama閱讀 35,425評(píng)論 5 343
  • 正文 年R本政府宣布季研,位于F島的核電站敞葛,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏与涡。R本人自食惡果不足惜惹谐,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,019評(píng)論 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望驼卖。 院中可真熱鬧氨肌,春花似錦、人聲如沸酌畜。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,671評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽桥胞。三九已至恳守,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間贩虾,已是汗流浹背催烘。 一陣腳步聲響...
    開封第一講書人閱讀 32,825評(píng)論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留缎罢,地道東北人伊群。 一個(gè)月前我還...
    沈念sama閱讀 47,729評(píng)論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像策精,于是被迫代替她去往敵國和親舰始。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,614評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 172,077評(píng)論 25 707
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理蛮寂,服務(wù)發(fā)現(xiàn)蔽午,斷路器,智...
    卡卡羅2017閱讀 134,652評(píng)論 18 139
  • 發(fā)現(xiàn) 關(guān)注 消息 iOS 第三方庫酬蹋、插件及老、知名博客總結(jié) 作者大灰狼的小綿羊哥哥關(guān)注 2017.06.26 09:4...
    肇東周閱讀 12,094評(píng)論 4 62
  • 出行前準(zhǔn)備:護(hù)照抽莱、行程安排表、身份證骄恶、換泰銖食铐、泳衣、墨鏡僧鲁、充電寶虐呻、訂機(jī)票、訂酒店寞秃、打印酒店確認(rèn)單斟叼、打印落地簽申請表...
    張小凡是超級(jí)女英雄閱讀 456評(píng)論 5 8
  • 文/源琪琪 賈大方雖然年紀(jì)輕輕朗涩,但卻是出了名的紈绔子弟,家里有點(diǎn)小錢绑改,自己便整天不務(wù)正業(yè)花天酒地谢床,還經(jīng)常和各種名媛...
    源源de源琪琪閱讀 574評(píng)論 0 1