python3 scrapy爬取微信公眾號及歷史信息V1.0

妹子圖.png

環(huán)境:

python3 scrapy

目的

寫這篇文章主要是做一下紀(jì)念肄满,畢竟是搞了快兩天的東西了谴古,今天加大了量,使用scrapy爬取100多個(gè)微信公眾號稠歉,然后出現(xiàn)IP被封的情況下掰担,當(dāng)然了,這種情況并不是沒有辦法解決怒炸,只需要在scrapy中進(jìn)行設(shè)置一下就可以了带饱,主要是在本地進(jìn)行調(diào)試,然后IP代理池那一塊暫時(shí)找不到好的質(zhì)量高的IP横媚,只是爬取了各大網(wǎng)站的免費(fèi)IP纠炮,并沒有很好的解決效果月趟,這個(gè)版本只要在IP中稍微進(jìn)行下設(shè)置調(diào)整灯蝴,可以不愧為一個(gè)很好的爬取微信公眾號歷史消息的一個(gè)小案例。

爬取步驟

  1. 找到公眾號


    image.png
  2. 獲取歷史消息


    image.png
  3. 獲取詳情頁內(nèi)容


    image.png

還有第4步:

將詳情頁內(nèi)容解析出來孝宗,圖片穷躁,文字都單獨(dú)拎出來,現(xiàn)在暫時(shí)不做處理,因?yàn)檫@一塊有些麻煩的问潭。邏輯整體就是這樣猿诸。

python代碼

這里是spider的代碼,其他的就不用貼出來了:

spiders/WeChatSogou.py

# -*- coding: utf-8 -*-
# @Time    : 2018/2/25 14:24
# @Author  : 蛇崽
# @Email   : 643435675@QQ.com
# @File    : WeChatSogou.py(微信公眾號爬蟲:不包含瀏覽量跟評論)
import scrapy
import re
import time
import json
import requests
from fake_useragent import UserAgent
from scrapy import Request
from scrapy_redis.spiders import RedisSpider
from News_scrapy.items import NewsItem
from News_scrapy.constants.WeChatSource import WXSource

class WeChatSogouSpider(scrapy.Spider):
    name = "WeChat"
    allowed_domains = ["weixin.sogou.com",'mp.weixin.qq.com']
    start_urls = ['http://weixin.sogou.com/']

    def parse(self, response):

        wx_source = WXSource.get_dict()
        for v_wx_source in wx_source:
            print('wx_source ===',v_wx_source)
            try:
                type = v_wx_source.split('-')[0]
                channel = v_wx_source.split('-')[1]
                print("正在抓取:", type, channel)
                v_main_url = 'http://weixin.sogou.com/weixin?type=1&s_from=input&query={}'.format(channel)
                print('v_main_url',v_main_url)
                yield scrapy.Request(url=str(v_main_url),callback=self.parse_main_link,meta={'type':type})
            except:
                continue
                print('wx_source error ===', v_wx_source)


    def parse_main_link(self,response):
        print('parse_main_link ====  ',response.body)
        target_url = response.xpath("http://*['txt-box']/p[@class='tit']/a/@href").extract_first()
        print('===== start =====')
        print('target_url',target_url)
        print('==== end =====')
        if target_url:
            yield scrapy.Request(url=target_url,callback=self.parse_list_gzhao)


    def parse_list_gzhao(self,response):
        print('resonse:  ',response)
        req_text = response.text

        reg_content_url = r'"content_url":"(.*?)",'
        m_infos = re.findall(reg_content_url, req_text, re.S)
        print(len(m_infos))
        for v_info in m_infos:
            v_info = 'https://mp.weixin.qq.com' + re.sub('&', '&', v_info)
            print(v_info)
            yield scrapy.Request(url=v_info,callback=self.parse_detail)

    def parse_detail(self, response):
        print('parse_detail ===== ',response.text)


注意事項(xiàng):
1 allowed_domains = ["weixin.sogou.com",'mp.weixin.qq.com'] 

2  reg_content_url = r'"content_url":"(.*?)",'
 這里通過正則方式獲取每個(gè)詳情頁鏈接的url狡忙,因?yàn)樵挠玫膉s動(dòng)態(tài)加載的梳虽,

下面這是注意事項(xiàng)2的截圖:

image.png

很蛋疼吧,哈哈灾茁,哎窜觉。

放上自己小小的學(xué)習(xí)交流群吧
Python自學(xué)交流群(702689263)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市北专,隨后出現(xiàn)的幾起案子禀挫,更是在濱河造成了極大的恐慌,老刑警劉巖拓颓,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件语婴,死亡現(xiàn)場離奇詭異,居然都是意外死亡驶睦,警方通過查閱死者的電腦和手機(jī)砰左,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來啥繁,“玉大人菜职,你說我怎么就攤上這事∑烀觯” “怎么了酬核?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長适室。 經(jīng)常有香客問我嫡意,道長,這世上最難降的妖魔是什么捣辆? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任蔬螟,我火速辦了婚禮,結(jié)果婚禮上汽畴,老公的妹妹穿的比我還像新娘旧巾。我一直安慰自己,他們只是感情好忍些,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布鲁猩。 她就那樣靜靜地躺著,像睡著了一般罢坝。 火紅的嫁衣襯著肌膚如雪廓握。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天,我揣著相機(jī)與錄音隙券,去河邊找鬼男应。 笑死,一個(gè)胖子當(dāng)著我的面吹牛娱仔,可吹牛的內(nèi)容都是我干的沐飘。 我是一名探鬼主播,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼牲迫,長吁一口氣:“原來是場噩夢啊……” “哼薪铜!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起恩溅,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤隔箍,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后脚乡,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蜒滩,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年奶稠,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了俯艰。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,117評論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡锌订,死狀恐怖竹握,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情辆飘,我是刑警寧澤啦辐,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布,位于F島的核電站蜈项,受9級特大地震影響芹关,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜紧卒,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一侥衬、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧跑芳,春花似錦轴总、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至坡倔,卻和暖如春漂佩,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背罪塔。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工投蝉, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人征堪。 一個(gè)月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓瘩缆,卻偏偏與公主長得像,于是被迫代替她去往敵國和親佃蚜。 傳聞我的和親對象是個(gè)殘疾皇子庸娱,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內(nèi)容