Python實(shí)戰(zhàn)計劃week2_3項目

python實(shí)戰(zhàn)計劃的第七個項目：爬取武漢趕集網(wǎng)店归。

1.任務(wù)介紹

大致可以分為3個層次：

a.第一個層次：獲取類目的各個標(biāo)題鏈接

2_3_a.png

b.第二個層次：爬取進(jìn)入標(biāo)題后溪烤，頁面中所有商品的標(biāo)題鏈接树灶，并存儲在數(shù)據(jù)庫表單中姨俩，我這里是link_sheet表單旨巷。

2_3_b.png

c.進(jìn)入第二層爬取的商品鏈接舶斧，進(jìn)入后爬去商品的標(biāo)題，價格等信息督惰，并存儲在表單中不傅，我這里是info_sheet表單。

2_3_c.png

2.任務(wù)分析

a.

第一層次赏胚，我們要的鏈接都放在channel_list列表中访娶。

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup


def get_all_links():
    url = 'http://wh.ganji.com/wu/'
    url_host = 'http://wh.ganji.com'
    wb_data = requests.get(url)
    soup = BeautifulSoup(wb_data.text, 'lxml')
    links = soup.select('#wrapper > div.content > div > div > dl > dt > a')
    for link in links:
        link = url_host + link.get('href')
        print(link)


get_all_links()

channel_list = ['http://wh.ganji.com/jiaju/',
                'http://wh.ganji.com/rirongbaihuo/',
                'http://wh.ganji.com/shouji/',
                'http://wh.ganji.com/shoujihaoma/',
                'http://wh.ganji.com/bangong/',
                'http://wh.ganji.com/nongyongpin/',
                'http://wh.ganji.com/jiadian/',
                'http://wh.ganji.com/ershoubijibendiannao/',
                'http://wh.ganji.com/ruanjiantushu/',
                'http://wh.ganji.com/yingyouyunfu/',
                'http://wh.ganji.com/diannao/',
                'http://wh.ganji.com/xianzhilipin/',
                'http://wh.ganji.com/fushixiaobaxuemao/',
                'http://wh.ganji.com/meironghuazhuang/',
                'http://wh.ganji.com/shuma/',
                'http://wh.ganji.com/laonianyongpin/',
                'http://wh.ganji.com/xuniwupin/',
                'http://wh.ganji.com/qitawupin/',
                'http://wh.ganji.com/ershoufree/',
                'http://wh.ganji.com/wupinjiaohuan/']

b.

接下來，我要分別進(jìn)入到上面鏈接中觉阅，爬取出商品鏈接崖疤，并不斷翻頁進(jìn)行，將爬到的鏈接存儲到link_sheet表單中典勇。

首先創(chuàng)建get_link()函數(shù)劫哼，接收參數(shù)3個（分類鏈接，頁面割笙，默認(rèn)個人‘o’）权烧。
作用：輸入?yún)?shù)分類鏈接與頁數(shù)后，可以將頁面上私人發(fā)布的商品鏈接全獲取下來伤溉，并存儲到表單中般码，該函數(shù)不會重復(fù)抓取抓過的鏈接。

def get_link(channel, page, who_sell='o'):
    # http://wh.ganji.com/jiaju/  channel個例
    # http://wh.ganji.com/jiaju/o1/  完整參數(shù)個例
    url = '{}{}{}/'.format(channel, who_sell, page)
    wb_data = requests.get(url)
    soup = BeautifulSoup(wb_data.text, 'lxml')
    links = soup.select('li.js-item > a')
    for link in links:
        link = link.get('href')
        # 判斷鏈接是否存在表單中乱顾，防止重復(fù)添加
        # find_one()返回的是一個字典板祝，find()則是一個對象
        if link_sheet.find_one({'url': link}):
            print('已存在，Pass')
        else:
            link_sheet.insert_one({'url': link})
            print('新鏈接糯耍，已添加')

創(chuàng)建get_all_channel_links()函數(shù)扔字，只需輸入類別鏈接，自動爬取1-100頁面的商品鏈接温技。
為了加快爬取得速度革为，這里使用了Pool()函數(shù)和map()函數(shù)。

def get_all_channel_links(channel):
    for i in range(1, 101):
        get_link(channel, i)


if __name__ == '__main__':
    pool = Pool()
    pool.map(get_all_channel_links, channel_list)
    pool.close()
    pool.join()

另外舵鳞，我用一下代碼來打印出目前爬取得商品鏈接的個數(shù)震檩。

import time
from b import link_sheet

while True:
    print(link_sheet.find().count())
    time.sleep(4)

#最后顯示，一共獲取了34775條鏈接

------map()函數(shù)例子蜓堕，注意Python3要在外面加list(),map函數(shù)才會返回一個列表抛虏。

list_a = [1, 2, 3, 4, 5, 6]
def a(x):
    return x * x
b = list(map(a, list_a))
print(b)
#[1, 4, 9, 16, 25, 36]

------pool()進(jìn)程池函數(shù)例子。

    from multiprocessing import Pool
    def f(x):
        for i in range(10):
            print '%s --- %s ' % (i, x)

    def main():
        pool = Pool(processes=3)    # set the processes max number 3
        for i in range(11,20):
            result = pool.apply_async(f, (i,))
        pool.close()
        pool.join()
        if result.successful():
            print 'successful'

    if __name__ == "__main__":
        main()

先創(chuàng)建容量為3的進(jìn)程池套才，然后將f(i)依次傳遞給它迂猴，運(yùn)行腳本后利用ps aux | grep pool.py查看進(jìn)程情況，會發(fā)現(xiàn)最多只會有三個進(jìn)程執(zhí)行背伴。

pool.apply_async()用來向進(jìn)程池提交目標(biāo)請求沸毁，pool.join()是用來等待進(jìn)程池中的worker進(jìn)程執(zhí)行完畢峰髓，防止主進(jìn)程在worker進(jìn)程結(jié)束前結(jié)束。

但必pool.join()必須使用在pool.close()或者pool.terminate()之后息尺。

其中close()跟terminate()的區(qū)別在于close()會等待池中的worker進(jìn)程執(zhí)行結(jié)束再關(guān)閉pool,而terminate()則是直接關(guān)閉携兵。

result.successful()表示整個調(diào)用執(zhí)行的狀態(tài)，如果還有worker沒有執(zhí)行完搂誉，則會拋出AssertionError異常徐紧。

利用multiprocessing下的Pool可以很方便的同時自動處理幾百或者上千個并行操作，腳本的復(fù)雜性也大大降低炭懊。

c.

到了最后并级，也是最有價值的地方，我們要對link_sheet表單中的34775條商品鏈接進(jìn)行信息的收集凛虽。

創(chuàng)建get_item_info()函數(shù)死遭，接收商品鏈接參數(shù)后，返回標(biāo)題等信息凯旋，并存儲在數(shù)據(jù)庫表單info_sheet中呀潭，注意將鏈接也一并添加，好在后面防止重復(fù)抓取至非。

# 一個參數(shù)（單個商品鏈接）钠署，獲取標(biāo)題、價錢荒椭、發(fā)布時間谐鼎、區(qū)域、分類
def get_item_info(url):
    wb_data = requests.get(url)
    if wb_data.status_code != 200:
        return
    soup = BeautifulSoup(wb_data.text, 'lxml')
    title = soup.select('h1.title-name')
    price = soup.select('i.f22.fc-orange.f-type')
    pub_date = soup.select('i.pr-5')
    area = soup.select('ul.det-infor > li:nth-of-type(3) > a')
    cate = soup.select('ul.det-infor > li:nth-of-type(1) > span > a')
    data = {
        'title': title[0].get_text(),
        'price': price[0].get_text(),
        'pub_data': pub_date[0].get_text().strip().split('\xa0')[0],
        'area': [area.text for area in area],
        'cate': [cate.text for cate in cate],
        'url': url
    }
    info_sheet.insert_one(data)
    print(data)

為了保證我們斷開抓取之后趣惠，第二次抓取的鏈接是沒抓取部分的狸棍，rest_of_urls就是我們要抓取的鏈接的集合。

db_url = [item['url'] for item in link_sheet.find()]
index_url = [item['url'] for item in info_sheet.find()]
x = set(db_url)
y = set(index_url)
rest_of_urls = x - y  # rest_of_urls就是沒爬取的鏈接

調(diào)用上面創(chuàng)建的函數(shù)味悄，同樣使用Pool()函數(shù)草戈，如下：

if __name__ == '__main__':
   pool = Pool()
   pool.map(get_item_info, rest_of_urls)
   pool.close()
   pool.join()

過程中被反爬取中斷了幾次，然后繼續(xù)接著開始侍瑟。

最后編輯于：2017.12.03 21:45:30

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末唐片，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子涨颜，更是在濱河造成了極大的恐慌费韭，老刑警劉巖，帶你破解...
沈念sama閱讀 206,311評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件庭瑰，死亡現(xiàn)場離奇詭異星持，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)弹灭，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,339評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門钉汗，熙熙樓的掌柜王于貴愁眉苦臉地迎上來羹令，“玉大人，你說我怎么就攤上這事损痰。” “怎么了酒来？”我有些...
開封第一講書人閱讀 152,671評論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵卢未，是天一觀的道長。經(jīng)常有香客問我堰汉，道長辽社，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 55,252評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任翘鸭，我火速辦了婚禮滴铅，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘就乓。我一直安慰自己汉匙，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 64,253評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布生蚁。她就那樣靜靜地躺著噩翠，像睡著了一般。火紅的嫁衣襯著肌膚如雪邦投。梳的紋絲不亂的頭發(fā)上伤锚，一...
開封第一講書人閱讀 49,031評論 1贊 285
城市分裂傳說
那天，我揣著相機(jī)與錄音志衣，去河邊找鬼屯援。笑死，一個胖子當(dāng)著我的面吹牛念脯，可吹牛的內(nèi)容都是我干的狞洋。我是一名探鬼主播，決...
沈念sama閱讀 38,340評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼和二，長吁一口氣：“原來是場噩夢啊……” “哼徘铝！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起惯吕，我...
開封第一講書人閱讀 36,973評論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤惕它，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后废登，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體淹魄，經(jīng)...
沈念sama閱讀 43,466評論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,937評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年堡距，在試婚紗的時候發(fā)現(xiàn)自己被綠了甲锡。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片兆蕉。...
茶點(diǎn)故事閱讀 38,039評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖缤沦，靈堂內(nèi)的尸體忽然破棺而出虎韵，到底是詐尸還是另有隱情，我是刑警寧澤缸废，帶...
沈念sama閱讀 33,701評論 4贊 323
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布包蓝，位于F島的核電站，受9級特大地震影響企量，放射性物質(zhì)發(fā)生泄漏测萎。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,254評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一届巩、第九天我趴在偏房一處隱蔽的房頂上張望硅瞧。院中可真熱鬧，春花似錦恕汇、人聲如沸腕唧。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,259評論 0贊 19
一樁弒父案拇勃，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽四苇。三九已至，卻和暖如春方咆，著一層夾襖步出監(jiān)牢的瞬間月腋，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,485評論 1贊 262
情欲美人皮
我被黑心中介騙來泰國打工瓣赂，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留榆骚，地道東北人。一個月前我還...
沈念sama閱讀 45,497評論 2贊 354
代替公主和親
正文我出身青樓煌集，卻偏偏與公主長得像妓肢，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子苫纤，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,786評論 2贊 345

Python實(shí)戰(zhàn)計劃week2_3項目

1.任務(wù)介紹

2.任務(wù)分析

a.

b.

c.

推薦閱讀更多精彩內(nèi)容