? ? 最近在做一個(gè)小項(xiàng)目,寫醫(yī)藥生產(chǎn)SOP操作規(guī)程识补。一開始以為只是小case族淮,直到我看了這張清單:
? ? 只有這個(gè)嗎?No~No~No~凭涂,這只是其中一頁祝辣,還有5頁紙,總共有一百多項(xiàng)切油。What? 我一個(gè)人寫完蝙斜?那是不可能滴。我是個(gè)喜歡偷懶的人澎胡,想當(dāng)年孕荠。。攻谁。(此處省略一千字)稚伍。好吧,不瞎扯了巢株,大家時(shí)間都比較寶貴槐瑞,我們直接進(jìn)入主題,用selenium爬取百度文庫文檔連接阁苞,用冰點(diǎn)文庫下載困檩。
? ? 首先祠挫,選擇selenium是因?yàn)榘俣任膸斓姆琅来胧┳龅锰昧恕2粌H如此悼沿,百度文庫還有很變態(tài)的地方等舔,直接搜索得到的結(jié)果不是我想要的,一定要點(diǎn)一下search糟趾!~~~
直接上代碼:
#coding:utf-8
import gevent
import gevent.monkey
gevent.monkey.patch_all()
import gevent.pool
import selenium
import urllib.parse
import selenium.webdriver
import time
import lxml
import lxml.etree
? ? 簡(jiǎn)書的編輯器似乎對(duì)書寫代碼不太友好慌植。這里通過協(xié)程池和無界面瀏覽器加快爬取速度。不過這種策略要網(wǎng)速跟得上才行义郑。下載下來是這樣的:
? ? 這個(gè)該怎么用呢蝶柿?用過冰點(diǎn)文庫的自然懂。下載下來就是這樣的:
? ? 總結(jié):使用selenium在百度文庫搜索關(guān)鍵詞非驮,并下載第一個(gè)界面的所有百度文庫地址(只用第一個(gè)界面是因?yàn)榈谝粋€(gè)網(wǎng)頁的搜索結(jié)果質(zhì)量最高)交汤。得到這些地址列表最后使用冰點(diǎn)文庫批量白嫖。