作業(yè)代碼:
#!/usr/bin/env python
# coding: utf-8
import time
from bs4 import BeautifulSoup
import requests
from pymongo import MongoClient
client = MongoClient('localhost', 27017)
bj58 = client['bj58']
info_links = bj58['links']
detailinfo = bj58['detailinfo']
def get_links_url():
"""獲取列表頁中所有詳情頁的標(biāo)題和鏈接"""
for num in range(1,117):
url = "http://bj.58.com/shoujihao/pn{}/".format(num)
web_data = requests.get(url)
time.sleep(1)
detail_soup = BeautifulSoup(web_data.text, 'lxml')
if num == 1:
boxlist = detail_soup.select("div.boxlist div.boxlist")[1]
else:
boxlist = detail_soup.select("div.boxlist div.boxlist")[0]
titles = boxlist.select("strong.number")
links = boxlist.select("a.t")
for title,link in zip(titles,links):
data = {"title":title.get_text(), "link":link.get("href")}
info_links.insert_one(data)
print "page %s 已完成"% num
# get_links_url()
def get_item_info():
"""獲取詳情頁url,抓取詳情信息"""
# url 列表
url_lists = [item['link'] for item in info_links.find()]
if detailinfo.find().count() > 0: # 判斷是否中斷過
item_lists = [item['url'] for item in detailinfo.find()]
url_lists = set(url_lists)-set(item_lists) # 獲取未爬取的 url 子集
for url in url_lists:
item_data = requests.get(url)
detail_soup = BeautifulSoup(item_data.text, 'lxml')
number = list(detail_soup.select("h1")[0].stripped_strings)[0]
info_list = number.replace('\t','').replace(' ',"").replace('\n\n\n','\n').split("\n")
# print 'number= ',info_list[0]
# print 'isp= ', info_list[1]
price = list(detail_soup.select(".price")[0].stripped_strings)[0].split(' ')[0]
# print 'price= ', price
seller = detail_soup.select(".vcard a.tx")[0].get_text()
# print seller
telephon = list(detail_soup.select(".arial")[0].stripped_strings)[0]
# print tele
data = {"sell_number": info_list[0],
"isp": info_list[1],
"price": price,
"seller": seller,
"telephon": telephon,
"url": url
}
detailinfo.insert_one(data)
print "%s 已完成"% str(url)
get_item_info()
小結(jié)
- thread & process
單進程單線程,一張一個人的桌子
單進程多線程魔种,一張多個人的桌子
多進程單線程,多張一個人的桌子
多進程多線程墩衙,多張多個人的桌子
一個進程占用一個CPU核心
deciding between subprocess, multiprocessing and thread in Python?
What is the difference between multiprocessing and subprocess?
subprocess + multiprocessing - multiple commands in sequence
threading 官方文檔的說明:
CPython的實現(xiàn)細(xì)節(jié):在CPython中,由于全局解釋器鎖
GIL
的原因,同一時刻只有一個線程可以執(zhí)行Python代碼务嫡。如果想讓應(yīng)用程序更好地利用多核機器的硬件資源,建議使用multiprocessing
。不過,如果想同時運行多個I/O
密集型任務(wù),threading
仍然是一個好的模型漆改。
- 導(dǎo)入需要的庫
可以幫助 Python 調(diào)用電腦 CPU 的多個內(nèi)核完成任務(wù)
from multiprocessing import Pool
- 導(dǎo)入自己寫的模塊
from channel_extract import channel_list
from page_parsing import get_links_from
- 用函數(shù)傳入頁碼
def get_all_links_from():
傳入 channel ,指定頁數(shù)准谚,獲取列表頁的url
- 創(chuàng)建進程池
所有 CPU 都會從進程池中領(lǐng)取任務(wù)
只需要將函數(shù)放入進程池挫剑,就會被分配給 cpu 執(zhí)行
pool = Pool() # 創(chuàng)建進程池
pool.map(get_all_links_from, channel_list.split())
Pool有一個參數(shù),precesses柱衔,明確要開多少進程樊破。并非進程越多效率越高愉棱。如果不指定,會根據(jù)電腦CPU的內(nèi)核數(shù)量自動分配哲戚。
內(nèi)建函數(shù)map()
pool.map()
類似內(nèi)建函數(shù)map()
(它只支持一個iterable參數(shù))奔滑。調(diào)用函數(shù)后會被阻塞,直到得到結(jié)果顺少。
- 創(chuàng)建用來計數(shù)的監(jiān)控程序
導(dǎo)入創(chuàng)建的 集合對象朋其,使用.count()
方法
- iTerm 分屏
command + d
- 作業(yè)的思考
斷點續(xù)傳程序,假設(shè)在抓取過程中網(wǎng)絡(luò)問題導(dǎo)致程序停止脆炎,設(shè)計一個功能梅猿,保證數(shù)據(jù)庫中抓取的數(shù)據(jù)不會重復(fù)
兩種想法:
- 第一種
每次抓取一個帖子或一個頁面,在數(shù)據(jù)庫中查詢秒裕,如果有結(jié)果袱蚓,跳過。
這樣似乎效率很低几蜻?
- 第二種
記錄當(dāng)前位置
- 最后看了作業(yè)提示:
很棒的實現(xiàn)方式
# 設(shè)計思路:
# 1.分兩個數(shù)據(jù)庫喇潘,第一個用于只用于存放抓取下來的 url (ulr_list);第二個則儲存 url 對應(yīng)的物品詳情信息(item_info)
# 2.在抓取過程中在第二個數(shù)據(jù)庫中寫入數(shù)據(jù)的同時梭稚,新增一個字段(key) 'index_url' 即該詳情對應(yīng)的鏈接
# 3.若抓取中斷响蓉,在第二個存放詳情頁信息的數(shù)據(jù)庫中的 url 字段應(yīng)該是第一個數(shù)據(jù)庫中 url 集合的子集
# 4.兩個集合的 url 相減得出圣賢應(yīng)該抓取的 url 還有哪些
db_urls = [item['url'] for item in url_list.find()] # 用列表解析式裝入所有要爬取的鏈接
index_urls = [item['url'] for item in item_info.find()] # 所引出詳情信息數(shù)據(jù)庫中所有的現(xiàn)存的 url 字段
x = set(db_urls) # 轉(zhuǎn)換成集合的數(shù)據(jù)結(jié)構(gòu)
y = set(index_urls)
rest_of_urls = x-y # 相減
于是,在自己的代碼中:
url_lists = [item['link'] for item in info_links.find()]
if detailinfo.find().count() > 0: # 判斷是否中斷過
item_lists = [item['url'] for item in detailinfo.find()]
url_lists = set(url_lists)-set(item_lists) # 獲取未爬取的 url 子集