python實(shí)戰(zhàn)計劃的第七個項目:爬取武漢趕集網(wǎng)店归。
1.任務(wù)介紹
大致可以分為3個層次:
a.第一個層次:獲取類目的各個標(biāo)題鏈接
b.第二個層次:爬取進(jìn)入標(biāo)題后溪烤,頁面中所有商品的標(biāo)題鏈接树灶,并存儲在數(shù)據(jù)庫表單中姨俩,我這里是link_sheet表單旨巷。
c.進(jìn)入第二層爬取的商品鏈接舶斧,進(jìn)入后爬去商品的標(biāo)題,價格等信息督惰,并存儲在表單中不傅,我這里是info_sheet表單。
2.任務(wù)分析
a.
第一層次赏胚,我們要的鏈接都放在channel_list列表中访娶。
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup
def get_all_links():
url = 'http://wh.ganji.com/wu/'
url_host = 'http://wh.ganji.com'
wb_data = requests.get(url)
soup = BeautifulSoup(wb_data.text, 'lxml')
links = soup.select('#wrapper > div.content > div > div > dl > dt > a')
for link in links:
link = url_host + link.get('href')
print(link)
get_all_links()
channel_list = ['http://wh.ganji.com/jiaju/',
'http://wh.ganji.com/rirongbaihuo/',
'http://wh.ganji.com/shouji/',
'http://wh.ganji.com/shoujihaoma/',
'http://wh.ganji.com/bangong/',
'http://wh.ganji.com/nongyongpin/',
'http://wh.ganji.com/jiadian/',
'http://wh.ganji.com/ershoubijibendiannao/',
'http://wh.ganji.com/ruanjiantushu/',
'http://wh.ganji.com/yingyouyunfu/',
'http://wh.ganji.com/diannao/',
'http://wh.ganji.com/xianzhilipin/',
'http://wh.ganji.com/fushixiaobaxuemao/',
'http://wh.ganji.com/meironghuazhuang/',
'http://wh.ganji.com/shuma/',
'http://wh.ganji.com/laonianyongpin/',
'http://wh.ganji.com/xuniwupin/',
'http://wh.ganji.com/qitawupin/',
'http://wh.ganji.com/ershoufree/',
'http://wh.ganji.com/wupinjiaohuan/']
b.
接下來,我要分別進(jìn)入到上面鏈接中觉阅,爬取出商品鏈接崖疤,并不斷翻頁進(jìn)行,將爬到的鏈接存儲到link_sheet表單中典勇。
首先創(chuàng)建get_link()函數(shù)劫哼,接收參數(shù)3個(分類鏈接,頁面割笙,默認(rèn)個人‘o’)权烧。
作用:輸入?yún)?shù)分類鏈接與頁數(shù)后,可以將頁面上私人發(fā)布的商品鏈接全獲取下來伤溉,并存儲到表單中般码,該函數(shù)不會重復(fù)抓取抓過的鏈接。
def get_link(channel, page, who_sell='o'):
# http://wh.ganji.com/jiaju/ channel個例
# http://wh.ganji.com/jiaju/o1/ 完整參數(shù)個例
url = '{}{}{}/'.format(channel, who_sell, page)
wb_data = requests.get(url)
soup = BeautifulSoup(wb_data.text, 'lxml')
links = soup.select('li.js-item > a')
for link in links:
link = link.get('href')
# 判斷鏈接是否存在表單中乱顾,防止重復(fù)添加
# find_one()返回的是一個字典板祝,find()則是一個對象
if link_sheet.find_one({'url': link}):
print('已存在,Pass')
else:
link_sheet.insert_one({'url': link})
print('新鏈接糯耍,已添加')
創(chuàng)建get_all_channel_links()函數(shù)扔字,只需輸入類別鏈接,自動爬取1-100頁面的商品鏈接温技。
為了加快爬取得速度革为,這里使用了Pool()函數(shù)和map()函數(shù)。
def get_all_channel_links(channel):
for i in range(1, 101):
get_link(channel, i)
if __name__ == '__main__':
pool = Pool()
pool.map(get_all_channel_links, channel_list)
pool.close()
pool.join()
另外舵鳞,我用一下代碼來打印出目前爬取得商品鏈接的個數(shù)震檩。
import time
from b import link_sheet
while True:
print(link_sheet.find().count())
time.sleep(4)
#最后顯示,一共獲取了34775條鏈接
------map()函數(shù)例子蜓堕,注意Python3要在外面加list(),map函數(shù)才會返回一個列表抛虏。
list_a = [1, 2, 3, 4, 5, 6]
def a(x):
return x * x
b = list(map(a, list_a))
print(b)
#[1, 4, 9, 16, 25, 36]
------pool()進(jìn)程池函數(shù)例子。
from multiprocessing import Pool
def f(x):
for i in range(10):
print '%s --- %s ' % (i, x)
def main():
pool = Pool(processes=3) # set the processes max number 3
for i in range(11,20):
result = pool.apply_async(f, (i,))
pool.close()
pool.join()
if result.successful():
print 'successful'
if __name__ == "__main__":
main()
先創(chuàng)建容量為3的進(jìn)程池套才,然后將f(i)依次傳遞給它迂猴,運(yùn)行腳本后利用ps aux | grep pool.py查看進(jìn)程情況,會發(fā)現(xiàn)最多只會有三個進(jìn)程執(zhí)行背伴。
pool.apply_async()用來向進(jìn)程池提交目標(biāo)請求沸毁,pool.join()是用來等待進(jìn)程池中的worker進(jìn)程執(zhí)行完畢峰髓,防止主進(jìn)程在worker進(jìn)程結(jié)束前結(jié)束。
但必pool.join()必須使用在pool.close()或者pool.terminate()之后息尺。
其中close()跟terminate()的區(qū)別在于close()會等待池中的worker進(jìn)程執(zhí)行結(jié)束再關(guān)閉pool,而terminate()則是直接關(guān)閉携兵。
result.successful()表示整個調(diào)用執(zhí)行的狀態(tài),如果還有worker沒有執(zhí)行完搂誉,則會拋出AssertionError異常徐紧。
利用multiprocessing下的Pool可以很方便的同時自動處理幾百或者上千個并行操作,腳本的復(fù)雜性也大大降低炭懊。
c.
到了最后并级,也是最有價值的地方,我們要對link_sheet表單中的34775條商品鏈接進(jìn)行信息的收集凛虽。
創(chuàng)建get_item_info()函數(shù)死遭,接收商品鏈接參數(shù)后,返回標(biāo)題等信息凯旋,并存儲在數(shù)據(jù)庫表單info_sheet中呀潭,注意將鏈接也一并添加,好在后面防止重復(fù)抓取至非。
# 一個參數(shù)(單個商品鏈接)钠署,獲取標(biāo)題、價錢荒椭、發(fā)布時間谐鼎、區(qū)域、分類
def get_item_info(url):
wb_data = requests.get(url)
if wb_data.status_code != 200:
return
soup = BeautifulSoup(wb_data.text, 'lxml')
title = soup.select('h1.title-name')
price = soup.select('i.f22.fc-orange.f-type')
pub_date = soup.select('i.pr-5')
area = soup.select('ul.det-infor > li:nth-of-type(3) > a')
cate = soup.select('ul.det-infor > li:nth-of-type(1) > span > a')
data = {
'title': title[0].get_text(),
'price': price[0].get_text(),
'pub_data': pub_date[0].get_text().strip().split('\xa0')[0],
'area': [area.text for area in area],
'cate': [cate.text for cate in cate],
'url': url
}
info_sheet.insert_one(data)
print(data)
為了保證我們斷開抓取之后趣惠,第二次抓取的鏈接是沒抓取部分的狸棍,rest_of_urls就是我們要抓取的鏈接的集合。
db_url = [item['url'] for item in link_sheet.find()]
index_url = [item['url'] for item in info_sheet.find()]
x = set(db_url)
y = set(index_url)
rest_of_urls = x - y # rest_of_urls就是沒爬取的鏈接
調(diào)用上面創(chuàng)建的函數(shù)味悄,同樣使用Pool()函數(shù)草戈,如下:
if __name__ == '__main__':
pool = Pool()
pool.map(get_item_info, rest_of_urls)
pool.close()
pool.join()
過程中被反爬取中斷了幾次,然后繼續(xù)接著開始侍瑟。