python 爬蟲(chóng) scrapy+selenium+mysql帽撑,爬取微信搜狗泼各,各個(gè)銀行發(fā)布的公眾號(hào)文章

需求

由于工作需要,公司要求爬取指定的微信公眾號(hào)發(fā)布的文章亏拉,各大銀行官網(wǎng)發(fā)布的營(yíng)銷(xiāo)信息扣蜻。還有招標(biāo)信息。進(jìn)過(guò)調(diào)研后及塘,發(fā)現(xiàn)使用python 的scrapy結(jié)合selenium模擬人工操作莽使。用了一些時(shí)間完成了任務(wù)。特來(lái)記錄一下笙僚。


開(kāi)發(fā)環(huán)境

windows7/10

python 3.5.2

mysql 5.5

scrapy 1.6

pycharm2018

谷歌瀏覽器 70.0.3538.110(正式版本) (64 位)


安裝

在windows上正常安裝python3.5.2芳肌,我選用的是官網(wǎng)的64位版本,詳細(xì)留意:https://www.python.org/search/?q=3.5.2&submit=

1肋层、添加環(huán)境變量:

image

python所在目錄:C:\Users\user\AppData\Local\Programs\Python\Python35;

pip所在目錄:C:\Users\user\AppData\Local\Programs\Python\Python35\Scripts;

解析:添加上述的2個(gè)路徑到環(huán)境變量當(dāng)中亿笤。

image
image

2、pycharm安裝栋猖。

使用pycharm作為編輯器净薛,是因?yàn)椋袕?qiáng)大的導(dǎo)入功能掂铐。他的一些導(dǎo)入包非常方便管理自己導(dǎo)入的第三方的包罕拂。

image
image

*******************************注意*****************************

如果在下載安裝scrapy的時(shí)候,報(bào)出Twisted 版本的錯(cuò)誤導(dǎo)致pip不成功的時(shí)候可以手動(dòng)安裝Twisted-18.9.0-cp35-cp35m-win_amd64.whl

1)保證你的pip版本是最新的

2)運(yùn)行 pip install 你的路徑\Twisted-18.7.0-cp37-cp37m-win_amd64.whl

參考:http://www.reibang.com/p/a294a4b2bcde

參考:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

Twisted-18.7.0-cp37-cp37m-win_amd64.whl這個(gè)我是在上述鏈接下載的

3全陨、要使用selenium作為模擬人工操作的自動(dòng)話測(cè)試爆班,需要先下載對(duì)應(yīng)瀏覽器的驅(qū)動(dòng)

因?yàn)槲沂褂霉雀铻g覽器的,所以我下載的也是谷歌瀏覽器的驅(qū)動(dòng)

參考:http://npm.taobao.org/mirrors/chromedriver/

參考:https://blog.csdn.net/yoyocat915/article/details/80580066


現(xiàn)在你可以正式工作了H枰獭(手動(dòng)狗頭)


爬取微信搜狗

image
image
image

因?yàn)槲⑿殴娞?hào)發(fā)布得最新文章柿菩,可以在微信搜狗頁(yè)面上查到指定公眾號(hào)發(fā)布的最新內(nèi)容,所以我們的目標(biāo)很明確雨涛,是在微信搜狗上爬取公眾號(hào)發(fā)布的最新消息枢舶。

1懦胞、確定爬取鏈接

經(jīng)過(guò)分析,帶爬取的鏈接有如下特點(diǎn):

鏈接構(gòu)成:https://weixin.sogou.com/weixin?type=1&s_from=input&query=公眾號(hào)號(hào)碼

使用scrapy爬取到該鏈接對(duì)應(yīng)的靜態(tài)內(nèi)容后凉泄,你會(huì)發(fā)現(xiàn)躏尉,鏈接對(duì)應(yīng)的a標(biāo)簽會(huì)重定向到302輸入驗(yàn)證碼的頁(yè)面,可能是微信搜狗的反扒技術(shù)吧后众。(不過(guò)有辦法解決)

image
image
image

這個(gè)時(shí)候我們要用強(qiáng)大的selenium作為模擬人工點(diǎn)擊的自動(dòng)化測(cè)試工具胀糜。這個(gè)第三方包在python能下載到。

直接上代碼


class SeleniumMiddleware(object):

def __init__(self):

self.cookies_file_path = COOKIES_FILE_PATH

def process_request(self, request, spider):

options = webdriver.ChromeOptions()

# 設(shè)置中文

        options.add_argument('lang=zh_CN.UTF-8')

#options.add_argument('--headless')

#options.add_argument('--disable-gpu')

#options.add_argument('--remote-debugging-port=9222')

        # 更換頭部

        options.add_argument('user-agent='+request.headers['User-Agent'].decode(encoding='utf-8'))

browser = webdriver.Chrome(

executable_path=SELENIUM_CHROME_DIRVER_LOCAL_PATH,

            chrome_options=options)

wait = WebDriverWait(browser, 15)

browser.get(request.url)

'''設(shè)置selenium瀏覽器的cookie'''

        with open(self.cookies_file_path, 'r')as f:

listCookie = json.loads(f.read())

time.sleep(1)

browser.delete_all_cookies();

for cookiein listCookie:

browser.add_cookie({

# 'domain': cookie['domain'],

# 'httpOnly': cookie['httpOnly'],

                'name': cookie['name'],

              # 'path': cookie['path'],

# 'secure': cookie['secure'],

                'value': cookie['value'],

              # 'expiry': None if 'expiry' not in cookie else cookie['expiry']

            })

# browser.close()

        browser.get(request.url)

time.sleep(5)

# 根據(jù)公眾號(hào)查找

        gzhDetail = wait.until(EC.element_to_be_clickable(

(By.CSS_SELECTOR, 'ul.news-list2>li:first-child>div.gzh-box2>div.txt-box>p:first-child>a')))

gzhDetail.click()

time.sleep(3)

# 更換到剛點(diǎn)擊開(kāi)的頁(yè)面

        newWindowHandler = browser.window_handles[-1]

browser.switch_to.window(newWindowHandler)

#返回頁(yè)面

        true_page = browser.page_source

res=HtmlResponse(request.url,body = true_page,encoding ='utf-8',request = request,)

#記錄搜狗微信公眾臨時(shí)生成的gotoLink的地址蒂誉,注意該地址是微信搜狗經(jīng)常會(huì)切換的地址教藻。

        res.meta['wxsgGzhDetailUrl']=browser.current_url

browser.quit()

return res

def process_response(self, request, response, spider):

return CodeMiddleware().process_response(request,response,spider)

若果成功模擬人工點(diǎn)擊是不會(huì)跳到302輸入驗(yàn)證碼的,這樣就少了必須使用打碼平臺(tái)的考慮右锨。成功點(diǎn)擊后進(jìn)入公眾號(hào)的發(fā)布文章頁(yè)面括堤,這個(gè)時(shí)候就可以將公眾號(hào)發(fā)布過(guò)的文章的標(biāo)題,簡(jiǎn)介绍移,圖片爬取下來(lái)啦悄窃。(到了這個(gè)頁(yè)面可以直接引用a標(biāo)簽進(jìn)入到詳細(xì)的文章內(nèi)部,意味著具體的文章內(nèi)容可以爬取下來(lái)啦登夫。)

最后

我的github:里面有更加詳細(xì)的代碼广匙。記得給個(gè)星星哦,還有其他的例子恼策。本文例子在weixinsougou文件夾里面

備注

1鸦致、解決windows 命令行找不到pip命令的方法:

  1)找到安裝python.exe的文件夾

  2)添加Script文件夾路徑到環(huán)境變量當(dāng)中。環(huán)境:C:\Users\user\AppData\Local\Programs\Python\Python35\Scripts

2涣楷、解決安裝scrapy會(huì)出現(xiàn)不能安裝問(wèn)題分唾,報(bào)出Twisted 版本的錯(cuò)誤時(shí):

  1)手動(dòng)安裝Twisted-18.9.0-cp35-cp35m-win_amd64.whl文件即可解決

  2)運(yùn)行 pip install 你的路徑\Twisted-18.7.0-cp37-cp37m-win_amd64.whl

參考:http://www.reibang.com/p/a294a4b2bcde

參考:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

3、本項(xiàng)目使用selenium狮斗,所以安裝谷歌瀏覽器绽乔。以及相應(yīng)的谷歌瀏覽器的驅(qū)動(dòng)。

參考:http://npm.taobao.org/mirrors/chromedriver/

參考:https://blog.csdn.net/yoyocat915/article/details/80580066

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末碳褒,一起剝皮案震驚了整個(gè)濱河市折砸,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌沙峻,老刑警劉巖睦授,帶你破解...
    沈念sama閱讀 219,589評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異摔寨,居然都是意外死亡去枷,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,615評(píng)論 3 396
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)删顶,“玉大人竖螃,你說(shuō)我怎么就攤上這事《河啵” “怎么了特咆?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,933評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)猎荠。 經(jīng)常有香客問(wèn)我坚弱,道長(zhǎng),這世上最難降的妖魔是什么关摇? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,976評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮碾阁,結(jié)果婚禮上输虱,老公的妹妹穿的比我還像新娘。我一直安慰自己脂凶,他們只是感情好宪睹,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,999評(píng)論 6 393
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著蚕钦,像睡著了一般亭病。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上嘶居,一...
    開(kāi)封第一講書(shū)人閱讀 51,775評(píng)論 1 307
  • 那天罪帖,我揣著相機(jī)與錄音,去河邊找鬼邮屁。 笑死整袁,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的佑吝。 我是一名探鬼主播坐昙,決...
    沈念sama閱讀 40,474評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼芋忿!你這毒婦竟也來(lái)了炸客?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,359評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤戈钢,失蹤者是張志新(化名)和其女友劉穎痹仙,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體逆趣,經(jīng)...
    沈念sama閱讀 45,854評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡蝶溶,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,007評(píng)論 3 338
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片抖所。...
    茶點(diǎn)故事閱讀 40,146評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡梨州,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出田轧,到底是詐尸還是另有隱情暴匠,我是刑警寧澤,帶...
    沈念sama閱讀 35,826評(píng)論 5 346
  • 正文 年R本政府宣布傻粘,位于F島的核電站每窖,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏弦悉。R本人自食惡果不足惜窒典,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,484評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望稽莉。 院中可真熱鬧瀑志,春花似錦、人聲如沸污秆。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,029評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)良拼。三九已至战得,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間庸推,已是汗流浹背常侦。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,153評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留予弧,地道東北人刮吧。 一個(gè)月前我還...
    沈念sama閱讀 48,420評(píng)論 3 373
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像掖蛤,于是被迫代替她去往敵國(guó)和親杀捻。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,107評(píng)論 2 356