實(shí)現(xiàn)微博品牌kol圖片间驮、微博內(nèi)容爬蟲(chóng)

經(jīng)過(guò)對(duì)微博品牌的頁(yè)面進(jìn)行分析,數(shù)據(jù)返回一共分為兩種形式马昨,js封裝頁(yè)面代碼渲染在預(yù)加載頁(yè)面中竞帽,鼠標(biāo)向下滑動(dòng)過(guò)程中會(huì)再次請(qǐng)求服務(wù)器,返回json數(shù)據(jù)鸿捧,對(duì)微博內(nèi)容進(jìn)行渲染屹篓,json數(shù)據(jù)一共請(qǐng)求兩次

1.首先對(duì)微博頁(yè)面預(yù)加載數(shù)據(jù)進(jìn)行分析

在這里插入圖片描述

2.然后向下滑動(dòng),繼續(xù)請(qǐng)求json數(shù)據(jù)匙奴,獲取請(qǐng)求鏈接堆巧,拼接請(qǐng)求參數(shù)
在這里插入圖片描述

以下是模擬請(qǐng)求獲取到的結(jié)果示例:
微博內(nèi)容:
在這里插入圖片描述

圖片內(nèi)容:
在這里插入圖片描述

詳細(xì)代碼我上傳到了github, 項(xiàng)目地址

https://github.com/17521659186/weibo_spider

部分代碼如下:

def get_response(self, page):
        """微博每頁(yè)的數(shù)據(jù)分三次請(qǐng)求,初始頁(yè)面為js渲染html恳邀,下拉請(qǐng)求json數(shù)據(jù)渲染懦冰,需要拼接參數(shù)"""
        requests.packages.urllib3.disable_warnings()
        http = urllib3.PoolManager()
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36',
            'Cookie': self.cookie,
            "X-Requested-With": "XMLHttpRequest"
        }
        start_url = 'https://weibo.com/{profile}?pids=Pl_Official_MyProfileFeed__23&is_search=0&visible=0&is_hot=1&is_tag=0&profile_ftype=1&page={page}&ajaxpagelet=1&ajaxpagelet_v6=1&__ref=%2Fperfectdiary%3Fis_search%3D0%26visible%3D0%26is_hot%3D1%26is_tag%3D0%26profile_ftype%3D1%26page%3D3%23feedtop&_t=FM_157441560856733'.format(
            profile=self.profile, page=page)

        r = http.request('GET', start_url, headers=headers)
        data = json.loads(r.data.decode().strip()[23:-10]).get("html")
        soup = BeautifulSoup(data, 'html.parser', from_encoding='utf-8')

        result0 = soup.find_all("div", attrs={"action-type": "feed_list_item"})

        for pagebar in [0, 1]:
            json_url = "https://weibo.com/p/aj/v6/mblog/mbloglist?ajwvr=6&domain=100606&is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page={page}&pagebar={pagebar}&pl_name=Pl_Official_MyProfileFeed__23&id=1006066020329578&script_uri={script_uri}&feed_type=0&pre_page={pre_page}&domain_op=100606&__rnd=1575859271326".format(
                page=page, pagebar=pagebar, pre_page=page, script_uri=self.script_uri)
            res = http.request('GET', json_url, headers=headers)
            json_data = json.loads(res.data.decode().strip()).get("data")
            json_soup = BeautifulSoup(json_data, 'html.parser', from_encoding='utf-8')
            result0 += json_soup.find_all("div", attrs={"action-type": "feed_list_item"})
        return result0

Ps:需要注意的一點(diǎn),微博默認(rèn)返回的圖片是縮略圖谣沸,清晰圖不高刷钢,想要獲取到高清大圖,需要解析到微博大圖的地址乳附,我在代碼中處理了此類(lèi)問(wèn)題内地,替換了url的地址,以方便獲取高清大圖


在這里插入圖片描述
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末赋除,一起剝皮案震驚了整個(gè)濱河市阱缓,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌举农,老刑警劉巖荆针,帶你破解...
    沈念sama閱讀 217,084評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異颁糟,居然都是意外死亡航背,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,623評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén)棱貌,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)玖媚,“玉大人,你說(shuō)我怎么就攤上這事婚脱〗衲В” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,450評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵障贸,是天一觀(guān)的道長(zhǎng)错森。 經(jīng)常有香客問(wèn)我,道長(zhǎng)篮洁,這世上最難降的妖魔是什么问词? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,322評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮嘀粱,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘辰狡。我一直安慰自己锋叨,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,370評(píng)論 6 390
  • 文/花漫 我一把揭開(kāi)白布宛篇。 她就那樣靜靜地躺著娃磺,像睡著了一般。 火紅的嫁衣襯著肌膚如雪叫倍。 梳的紋絲不亂的頭發(fā)上偷卧,一...
    開(kāi)封第一講書(shū)人閱讀 51,274評(píng)論 1 300
  • 那天豺瘤,我揣著相機(jī)與錄音,去河邊找鬼听诸。 笑死坐求,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的晌梨。 我是一名探鬼主播桥嗤,決...
    沈念sama閱讀 40,126評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼仔蝌!你這毒婦竟也來(lái)了泛领?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 38,980評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤敛惊,失蹤者是張志新(化名)和其女友劉穎渊鞋,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體瞧挤,經(jīng)...
    沈念sama閱讀 45,414評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡锡宋,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,599評(píng)論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了皿伺。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片员辩。...
    茶點(diǎn)故事閱讀 39,773評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖鸵鸥,靈堂內(nèi)的尸體忽然破棺而出奠滑,到底是詐尸還是另有隱情,我是刑警寧澤妒穴,帶...
    沈念sama閱讀 35,470評(píng)論 5 344
  • 正文 年R本政府宣布宋税,位于F島的核電站,受9級(jí)特大地震影響讼油,放射性物質(zhì)發(fā)生泄漏杰赛。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,080評(píng)論 3 327
  • 文/蒙蒙 一矮台、第九天 我趴在偏房一處隱蔽的房頂上張望乏屯。 院中可真熱鬧,春花似錦瘦赫、人聲如沸辰晕。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,713評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)含友。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間窘问,已是汗流浹背辆童。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,852評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留惠赫,地道東北人把鉴。 一個(gè)月前我還...
    沈念sama閱讀 47,865評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像汉形,于是被迫代替她去往敵國(guó)和親纸镊。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,689評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容

  • 今天是2017年12月21日概疆,離2018還有最后9天逗威,回首2017這一年走過(guò)的每一天,成績(jī)不算很理想岔冀,但也算...
    曾娜姐閱讀 163評(píng)論 0 1
  • 值寒思?jí)襞瘢瑹粲罢招躏w。 野曠鳥(niǎo)聲寂使套,鄉(xiāng)關(guān)客路違罐呼。 寒林萬(wàn)木靜,一叢梅花肥侦高。 冰釋入塵后嫉柴,心系百姓歸。
    慕愚堂閱讀 2,975評(píng)論 68 167
  • 1奉呛、思考:A 和 B 的局域網(wǎng) IP 都是192.168.31.11,當(dāng)他們都訪(fǎng)問(wèn)百度瀏覽網(wǎng)頁(yè)時(shí)计螺,百度服務(wù)器回復(fù)數(shù)...
    RM_乾笙閱讀 1,957評(píng)論 0 4
  • 畢竟是搶劫界的初哥,出于我們離開(kāi)后報(bào)警這種可能的擔(dān)憂(yōu)瞧壮,三個(gè)大孩子帶著我跟劉森在丹江路到東風(fēng)路之間的小巷里到處亂轉(zhuǎn)著...
    半點(diǎn)正經(jīng)閱讀 256評(píng)論 0 1
  • > Hbase 在大數(shù)據(jù)的體系中扮演著DB角色登馒,不得不說(shuō)是重要的一員,在上一篇咆槽,大豬 已經(jīng)給大家演示了 [Hado...
    kikiki5閱讀 149評(píng)論 0 2