需求
由于工作需要,公司要求爬取指定的微信公眾號(hào)發(fā)布的文章亏拉,各大銀行官網(wǎng)發(fā)布的營(yíng)銷(xiāo)信息扣蜻。還有招標(biāo)信息。進(jìn)過(guò)調(diào)研后及塘,發(fā)現(xiàn)使用python 的scrapy結(jié)合selenium模擬人工操作莽使。用了一些時(shí)間完成了任務(wù)。特來(lái)記錄一下笙僚。
開(kāi)發(fā)環(huán)境
windows7/10
python 3.5.2
mysql 5.5
scrapy 1.6
pycharm2018
谷歌瀏覽器 70.0.3538.110(正式版本) (64 位)
安裝
在windows上正常安裝python3.5.2芳肌,我選用的是官網(wǎng)的64位版本,詳細(xì)留意:https://www.python.org/search/?q=3.5.2&submit=
1肋层、添加環(huán)境變量:
python所在目錄:C:\Users\user\AppData\Local\Programs\Python\Python35;
pip所在目錄:C:\Users\user\AppData\Local\Programs\Python\Python35\Scripts;
解析:添加上述的2個(gè)路徑到環(huán)境變量當(dāng)中亿笤。
2、pycharm安裝栋猖。
使用pycharm作為編輯器净薛,是因?yàn)椋袕?qiáng)大的導(dǎo)入功能掂铐。他的一些導(dǎo)入包非常方便管理自己導(dǎo)入的第三方的包罕拂。
*******************************注意*****************************
如果在下載安裝scrapy的時(shí)候,報(bào)出Twisted 版本的錯(cuò)誤導(dǎo)致pip不成功的時(shí)候可以手動(dòng)安裝Twisted-18.9.0-cp35-cp35m-win_amd64.whl
1)保證你的pip版本是最新的
2)運(yùn)行 pip install 你的路徑\Twisted-18.7.0-cp37-cp37m-win_amd64.whl
參考:http://www.reibang.com/p/a294a4b2bcde
參考:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
Twisted-18.7.0-cp37-cp37m-win_amd64.whl這個(gè)我是在上述鏈接下載的
3全陨、要使用selenium作為模擬人工操作的自動(dòng)話測(cè)試爆班,需要先下載對(duì)應(yīng)瀏覽器的驅(qū)動(dòng)
因?yàn)槲沂褂霉雀铻g覽器的,所以我下載的也是谷歌瀏覽器的驅(qū)動(dòng)
參考:http://npm.taobao.org/mirrors/chromedriver/
參考:https://blog.csdn.net/yoyocat915/article/details/80580066
現(xiàn)在你可以正式工作了H枰獭(手動(dòng)狗頭)
爬取微信搜狗
因?yàn)槲⑿殴娞?hào)發(fā)布得最新文章柿菩,可以在微信搜狗頁(yè)面上查到指定公眾號(hào)發(fā)布的最新內(nèi)容,所以我們的目標(biāo)很明確雨涛,是在微信搜狗上爬取公眾號(hào)發(fā)布的最新消息枢舶。
1懦胞、確定爬取鏈接
經(jīng)過(guò)分析,帶爬取的鏈接有如下特點(diǎn):
鏈接構(gòu)成:https://weixin.sogou.com/weixin?type=1&s_from=input&query=公眾號(hào)號(hào)碼
使用scrapy爬取到該鏈接對(duì)應(yīng)的靜態(tài)內(nèi)容后凉泄,你會(huì)發(fā)現(xiàn)躏尉,鏈接對(duì)應(yīng)的a標(biāo)簽會(huì)重定向到302輸入驗(yàn)證碼的頁(yè)面,可能是微信搜狗的反扒技術(shù)吧后众。(不過(guò)有辦法解決)
這個(gè)時(shí)候我們要用強(qiáng)大的selenium作為模擬人工點(diǎn)擊的自動(dòng)化測(cè)試工具胀糜。這個(gè)第三方包在python能下載到。
直接上代碼
class SeleniumMiddleware(object):
def __init__(self):
self.cookies_file_path = COOKIES_FILE_PATH
def process_request(self, request, spider):
options = webdriver.ChromeOptions()
# 設(shè)置中文
options.add_argument('lang=zh_CN.UTF-8')
#options.add_argument('--headless')
#options.add_argument('--disable-gpu')
#options.add_argument('--remote-debugging-port=9222')
# 更換頭部
options.add_argument('user-agent='+request.headers['User-Agent'].decode(encoding='utf-8'))
browser = webdriver.Chrome(
executable_path=SELENIUM_CHROME_DIRVER_LOCAL_PATH,
chrome_options=options)
wait = WebDriverWait(browser, 15)
browser.get(request.url)
'''設(shè)置selenium瀏覽器的cookie'''
with open(self.cookies_file_path, 'r')as f:
listCookie = json.loads(f.read())
time.sleep(1)
browser.delete_all_cookies();
for cookiein listCookie:
browser.add_cookie({
# 'domain': cookie['domain'],
# 'httpOnly': cookie['httpOnly'],
'name': cookie['name'],
# 'path': cookie['path'],
# 'secure': cookie['secure'],
'value': cookie['value'],
# 'expiry': None if 'expiry' not in cookie else cookie['expiry']
})
# browser.close()
browser.get(request.url)
time.sleep(5)
# 根據(jù)公眾號(hào)查找
gzhDetail = wait.until(EC.element_to_be_clickable(
(By.CSS_SELECTOR, 'ul.news-list2>li:first-child>div.gzh-box2>div.txt-box>p:first-child>a')))
gzhDetail.click()
time.sleep(3)
# 更換到剛點(diǎn)擊開(kāi)的頁(yè)面
newWindowHandler = browser.window_handles[-1]
browser.switch_to.window(newWindowHandler)
#返回頁(yè)面
true_page = browser.page_source
res=HtmlResponse(request.url,body = true_page,encoding ='utf-8',request = request,)
#記錄搜狗微信公眾臨時(shí)生成的gotoLink的地址蒂誉,注意該地址是微信搜狗經(jīng)常會(huì)切換的地址教藻。
res.meta['wxsgGzhDetailUrl']=browser.current_url
browser.quit()
return res
def process_response(self, request, response, spider):
return CodeMiddleware().process_response(request,response,spider)
若果成功模擬人工點(diǎn)擊是不會(huì)跳到302輸入驗(yàn)證碼的,這樣就少了必須使用打碼平臺(tái)的考慮右锨。成功點(diǎn)擊后進(jìn)入公眾號(hào)的發(fā)布文章頁(yè)面括堤,這個(gè)時(shí)候就可以將公眾號(hào)發(fā)布過(guò)的文章的標(biāo)題,簡(jiǎn)介绍移,圖片爬取下來(lái)啦悄窃。(到了這個(gè)頁(yè)面可以直接引用a標(biāo)簽進(jìn)入到詳細(xì)的文章內(nèi)部,意味著具體的文章內(nèi)容可以爬取下來(lái)啦登夫。)
最后
我的github:里面有更加詳細(xì)的代碼广匙。記得給個(gè)星星哦,還有其他的例子恼策。本文例子在weixinsougou文件夾里面
備注
1鸦致、解決windows 命令行找不到pip命令的方法:
1)找到安裝python.exe的文件夾
2)添加Script文件夾路徑到環(huán)境變量當(dāng)中。環(huán)境:C:\Users\user\AppData\Local\Programs\Python\Python35\Scripts
2涣楷、解決安裝scrapy會(huì)出現(xiàn)不能安裝問(wèn)題分唾,報(bào)出Twisted 版本的錯(cuò)誤時(shí):
1)手動(dòng)安裝Twisted-18.9.0-cp35-cp35m-win_amd64.whl文件即可解決
2)運(yùn)行 pip install 你的路徑\Twisted-18.7.0-cp37-cp37m-win_amd64.whl
參考:http://www.reibang.com/p/a294a4b2bcde
參考:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
3、本項(xiàng)目使用selenium狮斗,所以安裝谷歌瀏覽器绽乔。以及相應(yīng)的谷歌瀏覽器的驅(qū)動(dòng)。
參考:http://npm.taobao.org/mirrors/chromedriver/
參考:https://blog.csdn.net/yoyocat915/article/details/80580066