利用python爬取微博數(shù)據(jù)

僅為練手之作，代碼十分粗糙吏廉，只是進(jìn)行一個思路的總結(jié)泞遗，勿噴，接受指點

爬取微博電腦版的難度很大(不要問耙蔑，問就不會)盐股，我們退而求其次選擇手機(jī)版微博
手機(jī)版微博網(wǎng)址
在這里我們選擇湖南省博物館進(jìn)行爬取
在chrome或者新edge(賽高！７柚牲尺！)中找到湖南省博物館主頁打開
在檢查模式中我們不斷下拉觀察network中xhr的變化

第一個

第二個

我們發(fā)現(xiàn)在頁面動態(tài)加載的過程中 sice_id的變化標(biāo)志著頁面的變化，那么sice_id的規(guī)律在哪呢幌蚊？

example

我們發(fā)現(xiàn)sice_id在上一個中cardlistInfo這個字典中有相關(guān)的數(shù)據(jù)
而在mblog中有我們想要的數(shù)據(jù)

example

程序?qū)崿F(xiàn)

url太長現(xiàn)在不寫了就

導(dǎo)入相關(guān)的庫

import requests

import json
import pprint
import re

請求url谤碳，獲取json數(shù)據(jù)

url = ''
while True:
    headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) +'
                          'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163+'
                          ' Safari/537.36 Edg/80.0.361.111' }
    req = requests.get(url, headers=headers).text

    data = json.loads(req)

獲取data下的cards， cardlistInfo

 users = data['data']['cards']
 since_id = data['data']['cardlistInfo']
 #print(type(since_id))

我們可以知道sice_id是一個字典溢豆，獲取其中的since_id

 for k, v in since_id.items():
        if k == 'since_id':
            a = v

對url中的since_id進(jìn)行變換

url = '......since_id='+str(a)

獲取點贊蜒简，評論，轉(zhuǎn)發(fā)沫换，微博內(nèi)容等臭蚁，并以字典形式存儲、打印

    mblog = []

    for user in users:
        # pprint.pprint(user['mblog'])
        mblog.append(user['mblog'])
    dic = {}
    for text in mblog:
        #正則表達(dá)式去除無用標(biāo)簽
        span = re.sub('<span(.*?)</span>', '', text['text'])
        word = re.sub('<a(.*?)</a>', '', span)
        information = re.sub('<br(.*?)<br />', '', word)
        i = i+1
        dic['序號: '] = i
        dic['時間: '] = text['created_at']
        dic['點贊: '] = text['attitudes_count']
        dic['評論: '] = text['comments_count']
        dic['轉(zhuǎn)發(fā): '] = text['reposts_count']
        dic['內(nèi)容: '] = information
        for k, v in dic.items():
            print(k, v)

整個程序需要完善的地方還有很多（比如while循環(huán)無跳出）讯赏，在代碼效率垮兑，數(shù)據(jù)存儲，防反爬取等方面還有很多的不足漱挎，接受批評指正一起共同進(jìn)步

郵箱:lingsy74@foxmail.com

最后編輯于：2020.04.15 16:17:23

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

禁止轉(zhuǎn)載系枪，如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者。

人面猴
序言：七十年代末磕谅，一起剝皮案震驚了整個濱河市私爷，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌膊夹，老刑警劉巖衬浑，帶你破解...
沈念sama閱讀 217,277評論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異放刨，居然都是意外死亡工秩，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,689評論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門进统，熙熙樓的掌柜王于貴愁眉苦臉地迎上來助币，“玉大人，你說我怎么就攤上這事螟碎∶剂猓” “怎么了？”我有些...
開封第一講書人閱讀 163,624評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵掉分，是天一觀的道長俭缓。經(jīng)常有香客問我，道長酥郭，這世上最難降的妖魔是什么尔崔？我笑而不...
開封第一講書人閱讀 58,356評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮褥民，結(jié)果婚禮上季春，老公的妹妹穿的比我還像新娘。我一直安慰自己消返，他們只是感情好载弄，可當(dāng)我...
茶點故事閱讀 67,402評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著撵颊，像睡著了一般宇攻。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上倡勇，一...
開封第一講書人閱讀 51,292評論 1贊 301
城市分裂傳說
那天逞刷，我揣著相機(jī)與錄音，去河邊找鬼。笑死夸浅，一個胖子當(dāng)著我的面吹牛仑最，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播帆喇，決...
沈念sama閱讀 40,135評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼警医，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了坯钦？” 一聲冷哼從身側(cè)響起预皇，我...
開封第一講書人閱讀 38,992評論 0贊 275
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎婉刀，沒想到半個月后吟温，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,429評論 1贊 314
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡突颊，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,636評論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年溯街，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片洋丐。...
茶點故事閱讀 39,785評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡呈昔，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出友绝，到底是詐尸還是另有隱情堤尾，我是刑警寧澤，帶...
沈念sama閱讀 35,492評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布迁客，位于F島的核電站郭宝，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏掷漱。R本人自食惡果不足惜粘室，卻給世界環(huán)境...
茶點故事閱讀 41,092評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望卜范。院中可真熱鬧衔统，春花似錦、人聲如沸海雪。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,723評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽奥裸。三九已至险掀，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間湾宙，已是汗流浹背樟氢。一陣腳步聲響...
開封第一講書人閱讀 32,858評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工冈绊，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人埠啃。一個月前我還...
沈念sama閱讀 47,891評論 2贊 370
代替公主和親
正文我出身青樓死宣，卻偏偏與公主長得像，于是被迫代替她去往敵國和親霸妹。傳聞我的和親對象是個殘疾皇子十电，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,713評論 2贊 354

利用python爬取微博數(shù)據(jù)

程序?qū)崿F(xiàn)

推薦閱讀更多精彩內(nèi)容