用Requests+正則表達(dá)式爬取糗事百科段子

一、介紹

爬取貓眼電影的翻版勺卢,練練手的同時也有新發(fā)現(xiàn)

二裙犹、流程

  • 用瀏覽器打開糗事百科尽狠,分析站點

  • 抓取單頁內(nèi)容
    利用Requests請求目標(biāo)站點,得到單個網(wǎng)頁HTML代碼叶圃,返回結(jié)果

  • 正則表達(dá)式分析
    根據(jù)HTML代碼分析得到的用戶名稱袄膏、段子文本、點贊人數(shù)掺冠、評論人數(shù)等信息

1.png
  • 保存至文件
    通過文件的形式將結(jié)果保存沉馆,每一部電影一個結(jié)果一行Json字符串

  • 開啟循環(huán)及多線程
    對多頁內(nèi)容遍歷,開啟多線程提高抓取速度 德崭,這里為了保證獲取文本信息格式的一致性斥黑,我就沒有不用多線程了

三、代碼

import requests
import re
import json
from requests.exceptions import RequestException
import time

def get_one_page(url):
    use_agent='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36'  
    Headers={'User-Agent':use_agent}
    #如果不加報頭直接抓取源代碼似乎會報錯眉厨,所以我偽裝了一下锌奴,打開chrome進(jìn)入糗事百科,再右鍵打開檢查->network->request headers憾股,把User-Agent復(fù)制了
    try:
        response=requests.get(url,headers=Headers)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        return None

def parse_one_page(html):
    pattern = re.compile('<h2>(.*?)</h2>.*?<span>(.*?)</span>.*?<i cla'
                         + 'ss="number">(.*?)</i> (.*?)</span>.*?<i class="number">(.*?)</i>(.*?)</a>', re.S)
    items=re.findall(pattern,str(html))  #這里要對html用str()函數(shù)鹿蜀,不然會報錯 TypeError: expected string or bytes-like object
    #print(items)
    for item in items:
        yield {
            'name':item[0].strip(),
            'text':item[1].replace("<br/>",",").strip(),   #替換掉網(wǎng)頁中的<br/>轉(zhuǎn)行標(biāo)簽,去掉換行符
            'vote':(item[2]+item[3]),
            'comments':(item[4]+item[5]).strip()
        }

def write_to_file(content):
    with open('result.text','a',encoding='utf-8') as f:
        f.write(json.dumps(content,ensure_ascii=False)+'\n')
        f.close()

def main():
    for i in range(1, 14):
        url = 'https://www.qiushibaike.com/hot/page/' + str(i) #把循環(huán)放在這里服球,不要弄在main()里
        print('當(dāng)前處理頁數(shù):',i)
        get_one_page(url)
        html=get_one_page(url)
        for item in parse_one_page(html):
            print(item)
            write_to_file(item)
        time.sleep(3)

if __name__=='__main__':
        main()      #這是標(biāo)準(zhǔn)的main格式

四耻姥、最后得到的text文件

2.png

五、總結(jié)

1.磕磕碰碰的做出來有咨,很開心
2.在這里非常感謝皮皮哥琐簇、風(fēng)、Luffy等大佬的悉心指導(dǎo)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市婉商,隨后出現(xiàn)的幾起案子似忧,更是在濱河造成了極大的恐慌,老刑警劉巖丈秩,帶你破解...
    沈念sama閱讀 217,277評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件盯捌,死亡現(xiàn)場離奇詭異,居然都是意外死亡蘑秽,警方通過查閱死者的電腦和手機饺著,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評論 3 393
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來肠牲,“玉大人幼衰,你說我怎么就攤上這事∽忽ǎ” “怎么了渡嚣?”我有些...
    開封第一講書人閱讀 163,624評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長肥印。 經(jīng)常有香客問我识椰,道長,這世上最難降的妖魔是什么深碱? 我笑而不...
    開封第一講書人閱讀 58,356評論 1 293
  • 正文 為了忘掉前任腹鹉,我火速辦了婚禮,結(jié)果婚禮上敷硅,老公的妹妹穿的比我還像新娘功咒。我一直安慰自己,他們只是感情好竞膳,可當(dāng)我...
    茶點故事閱讀 67,402評論 6 392
  • 文/花漫 我一把揭開白布航瞭。 她就那樣靜靜地躺著,像睡著了一般坦辟。 火紅的嫁衣襯著肌膚如雪刊侯。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,292評論 1 301
  • 那天锉走,我揣著相機與錄音滨彻,去河邊找鬼。 笑死挪蹭,一個胖子當(dāng)著我的面吹牛亭饵,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播梁厉,決...
    沈念sama閱讀 40,135評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼辜羊,長吁一口氣:“原來是場噩夢啊……” “哼踏兜!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起八秃,我...
    開封第一講書人閱讀 38,992評論 0 275
  • 序言:老撾萬榮一對情侶失蹤碱妆,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后昔驱,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體疹尾,經(jīng)...
    沈念sama閱讀 45,429評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,636評論 3 334
  • 正文 我和宋清朗相戀三年骤肛,在試婚紗的時候發(fā)現(xiàn)自己被綠了纳本。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,785評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡腋颠,死狀恐怖繁成,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情秕豫,我是刑警寧澤朴艰,帶...
    沈念sama閱讀 35,492評論 5 345
  • 正文 年R本政府宣布观蓄,位于F島的核電站混移,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏侮穿。R本人自食惡果不足惜歌径,卻給世界環(huán)境...
    茶點故事閱讀 41,092評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望亲茅。 院中可真熱鬧回铛,春花似錦、人聲如沸克锣。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽袭祟。三九已至验残,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間巾乳,已是汗流浹背您没。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留胆绊,地道東北人氨鹏。 一個月前我還...
    沈念sama閱讀 47,891評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像压状,于是被迫代替她去往敵國和親仆抵。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,713評論 2 354

推薦閱讀更多精彩內(nèi)容