利用python爬取微博數(shù)據(jù)

僅為練手之作,代碼十分粗糙吏廉,只是進(jìn)行一個思路的總結(jié)泞遗,勿噴,接受指點


  • 爬取微博電腦版的難度很大(不要問耙蔑,問就不會)盐股,我們退而求其次選擇手機(jī)版微博
    手機(jī)版微博網(wǎng)址
  • 在這里我們選擇湖南省博物館進(jìn)行爬取
  • 在chrome或者新edge(賽高!7柚牲尺!)中找到湖南省博物館主頁打開
  • 在檢查模式中我們不斷下拉觀察network中xhr的變化


    第一個
第二個
  • 我們發(fā)現(xiàn)在頁面動態(tài)加載的過程中 sice_id的變化標(biāo)志著頁面的變化,那么sice_id的規(guī)律在哪呢幌蚊?


    example

    我們發(fā)現(xiàn)sice_id在上一個中cardlistInfo這個字典中有相關(guān)的數(shù)據(jù)

  • 而在mblog中有我們想要的數(shù)據(jù)
example

程序?qū)崿F(xiàn)

url太長現(xiàn)在不寫了就

  • 導(dǎo)入相關(guān)的庫
import requests

import json
import pprint
import re
  • 請求url谤碳,獲取json數(shù)據(jù)
url = ''
while True:
    headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) +'
                          'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163+'
                          ' Safari/537.36 Edg/80.0.361.111' }
    req = requests.get(url, headers=headers).text

    data = json.loads(req)
  • 獲取data下的cards, cardlistInfo
 users = data['data']['cards']
 since_id = data['data']['cardlistInfo']
 #print(type(since_id))
  • 我們可以知道sice_id是一個字典溢豆,獲取其中的since_id
 for k, v in since_id.items():
        if k == 'since_id':
            a = v
  • 對url中的since_id進(jìn)行變換
url = '......since_id='+str(a)
  • 獲取點贊蜒简,評論,轉(zhuǎn)發(fā)沫换,微博內(nèi)容等臭蚁,并以字典形式存儲、打印
    mblog = []

    for user in users:
        # pprint.pprint(user['mblog'])
        mblog.append(user['mblog'])
    dic = {}
    for text in mblog:
        #正則表達(dá)式去除無用標(biāo)簽
        span = re.sub('<span(.*?)</span>', '', text['text'])
        word = re.sub('<a(.*?)</a>', '', span)
        information = re.sub('<br(.*?)<br />', '', word)
        i = i+1
        dic['序號: '] = i
        dic['時間: '] = text['created_at']
        dic['點贊: '] = text['attitudes_count']
        dic['評論: '] = text['comments_count']
        dic['轉(zhuǎn)發(fā): '] = text['reposts_count']
        dic['內(nèi)容: '] = information
        for k, v in dic.items():
            print(k, v)


整個程序需要完善的地方還有很多(比如while循環(huán)無跳出)讯赏,在代碼效率垮兑,數(shù)據(jù)存儲,防反爬取等方面還有很多的不足漱挎,接受批評指正一起共同進(jìn)步

郵箱:lingsy74@foxmail.com

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
禁止轉(zhuǎn)載系枪,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者。
  • 序言:七十年代末磕谅,一起剝皮案震驚了整個濱河市私爷,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌膊夹,老刑警劉巖衬浑,帶你破解...
    沈念sama閱讀 217,277評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異放刨,居然都是意外死亡工秩,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評論 3 393
  • 文/潘曉璐 我一進(jìn)店門进统,熙熙樓的掌柜王于貴愁眉苦臉地迎上來助币,“玉大人,你說我怎么就攤上這事螟碎∶剂猓” “怎么了?”我有些...
    開封第一講書人閱讀 163,624評論 0 353
  • 文/不壞的土叔 我叫張陵掉分,是天一觀的道長俭缓。 經(jīng)常有香客問我,道長酥郭,這世上最難降的妖魔是什么尔崔? 我笑而不...
    開封第一講書人閱讀 58,356評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮褥民,結(jié)果婚禮上季春,老公的妹妹穿的比我還像新娘。我一直安慰自己消返,他們只是感情好载弄,可當(dāng)我...
    茶點故事閱讀 67,402評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著撵颊,像睡著了一般宇攻。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上倡勇,一...
    開封第一講書人閱讀 51,292評論 1 301
  • 那天逞刷,我揣著相機(jī)與錄音,去河邊找鬼。 笑死夸浅,一個胖子當(dāng)著我的面吹牛仑最,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播帆喇,決...
    沈念sama閱讀 40,135評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼警医,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了坯钦?” 一聲冷哼從身側(cè)響起预皇,我...
    開封第一講書人閱讀 38,992評論 0 275
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎婉刀,沒想到半個月后吟温,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,429評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡突颊,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,636評論 3 334
  • 正文 我和宋清朗相戀三年溯街,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片洋丐。...
    茶點故事閱讀 39,785評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡呈昔,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出友绝,到底是詐尸還是另有隱情堤尾,我是刑警寧澤,帶...
    沈念sama閱讀 35,492評論 5 345
  • 正文 年R本政府宣布迁客,位于F島的核電站郭宝,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏掷漱。R本人自食惡果不足惜粘室,卻給世界環(huán)境...
    茶點故事閱讀 41,092評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望卜范。 院中可真熱鬧衔统,春花似錦、人聲如沸海雪。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽奥裸。三九已至险掀,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間湾宙,已是汗流浹背樟氢。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評論 1 269
  • 我被黑心中介騙來泰國打工冈绊, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人埠啃。 一個月前我還...
    沈念sama閱讀 47,891評論 2 370
  • 正文 我出身青樓死宣,卻偏偏與公主長得像,于是被迫代替她去往敵國和親霸妹。 傳聞我的和親對象是個殘疾皇子十电,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,713評論 2 354

推薦閱讀更多精彩內(nèi)容