Python爬蟲-爬取殺破狼豆瓣影評(píng)并小作分析~

也是前幾天看到一個(gè)公眾號(hào)推了一篇文章,是爬取戰(zhàn)狼的影評(píng)。今天自己也來試一下
我選擇爬的是《殺破狼》

image.png

然后就是打開短評(píng)頁面荚板,可以看到comment-item,這就是影評(píng)了

image.png

現(xiàn)在已經(jīng)找到想要的了吩屹,但是這僅僅是第一頁的跪另,可以看到一共有六千多條記錄,那么怎么拿到其他的呢煤搜,頁面拉到下方的后頁免绿,可以看到地址欄變成了下面的這個(gè)地址

image.png

所以可以知道limit應(yīng)該是每頁記錄數(shù),start是從第幾條開始擦盾,知道這個(gè)我們就知道了所有的地址啦

url_list = ['https://movie.douban.com/subject/26826398/comments?' \
            'start={}&limit=20&sort=new_score&status=P' .format(x)for x in range(0, 6317, 20)]

爬取過程就是利用bs4拿到想要的就ok

response = requests.get(url=url, headers=header)
            response.encoding = 'utf-8'
            html = BeautifulSoup(response.text, 'html.parser')
            comment_items = html.select('div.comment-item')
            for item in comment_items:
                comment = item.find('p')

然后把爬取的文本寫入txt中最后用來作數(shù)據(jù)分析

image.png

要作數(shù)據(jù)分析首先到網(wǎng)上找個(gè)停用詞表嘲驾,然后利用jieba來分析,代碼如下(這里也是看了羅羅攀的文章:http://www.reibang.com/p/b277199346ae)

def fenci():
    path = '/Users/mocokoo/Documents/shapolang.txt'
    with open(path, mode='r', encoding='utf-8') as f:
        content = f.read()
        analyse.set_stop_words('/Users/mocokoo /Documents/tycibiao.txt')
        tags = analyse.extract_tags(content, topK=100, withWeight=True)
        for item in tags:
            print(item[0] + '\t' + str(int(item[1] * 1000)))

image.png

最后利用這個(gè)網(wǎng)站來制作一下輸出結(jié)果
https://wordart.com/create

image.png

最后附上完整代碼:

#!usr/bin/env python3
# -*- coding:utf-8-*-

import requests
from bs4 import BeautifulSoup
import jieba.analyse as analyse

header = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Connection': 'keep-alive',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 '
                  '(KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}


url_list = ['https://movie.douban.com/subject/26826398/comments?' \
            'start={}&limit=20&sort=new_score&status=P' .format(x)for x in range(0, 6317, 20)]

# 爬取所有短評(píng)寫入文件中


def get_comments():
    with open(file='/Users/mocokoo/Documents/shapolang.txt', mode='w', encoding='utf-8') as f:
        i = 1
        for url in url_list:
            print('正在爬取殺破狼影評(píng)第_%d_頁' % i)
            response = requests.get(url=url, headers=header)
            response.encoding = 'utf-8'
            html = BeautifulSoup(response.text, 'html.parser')
            comment_items = html.select('div.comment-item')
            for item in comment_items:
                comment = item.find('p')
                f.write(comment.get_text().strip() + '\n')
            print('第_%d_頁完成' % i)
            i += 1
# 分詞


def fenci():
    path = '/Users/mocokoo/Documents/shapolang.txt'
    with open(path, mode='r', encoding='utf-8') as f:
        content = f.read()
        analyse.set_stop_words('/Users/mocokoo/Documents/tycibiao.txt')
        tags = analyse.extract_tags(content, topK=100, withWeight=True)
        for item in tags:
            print(item[0] + '\t' + str(int(item[1] * 1000)))

if __name__ == '__main__':
    get_comments() # 將影評(píng)寫入文檔中
    # fenci()
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末迹卢,一起剝皮案震驚了整個(gè)濱河市辽故,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌腐碱,老刑警劉巖誊垢,帶你破解...
    沈念sama閱讀 223,207評(píng)論 6 521
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異症见,居然都是意外死亡喂走,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,455評(píng)論 3 400
  • 文/潘曉璐 我一進(jìn)店門谋作,熙熙樓的掌柜王于貴愁眉苦臉地迎上來芋肠,“玉大人,你說我怎么就攤上這事瓷们∫嫡ぃ” “怎么了?”我有些...
    開封第一講書人閱讀 170,031評(píng)論 0 366
  • 文/不壞的土叔 我叫張陵谬晕,是天一觀的道長碘裕。 經(jīng)常有香客問我,道長攒钳,這世上最難降的妖魔是什么帮孔? 我笑而不...
    開封第一講書人閱讀 60,334評(píng)論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上文兢,老公的妹妹穿的比我還像新娘晤斩。我一直安慰自己,他們只是感情好姆坚,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,322評(píng)論 6 398
  • 文/花漫 我一把揭開白布澳泵。 她就那樣靜靜地躺著,像睡著了一般兼呵。 火紅的嫁衣襯著肌膚如雪兔辅。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,895評(píng)論 1 314
  • 那天击喂,我揣著相機(jī)與錄音维苔,去河邊找鬼。 笑死懂昂,一個(gè)胖子當(dāng)著我的面吹牛介时,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播凌彬,決...
    沈念sama閱讀 41,300評(píng)論 3 424
  • 文/蒼蘭香墨 我猛地睜開眼沸柔,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了铲敛?” 一聲冷哼從身側(cè)響起勉失,我...
    開封第一講書人閱讀 40,264評(píng)論 0 277
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎原探,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體顽素,經(jīng)...
    沈念sama閱讀 46,784評(píng)論 1 321
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡咽弦,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,870評(píng)論 3 343
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了胁出。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片型型。...
    茶點(diǎn)故事閱讀 40,989評(píng)論 1 354
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖全蝶,靈堂內(nèi)的尸體忽然破棺而出闹蒜,到底是詐尸還是另有隱情,我是刑警寧澤抑淫,帶...
    沈念sama閱讀 36,649評(píng)論 5 351
  • 正文 年R本政府宣布绷落,位于F島的核電站,受9級(jí)特大地震影響始苇,放射性物質(zhì)發(fā)生泄漏砌烁。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,331評(píng)論 3 336
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望函喉。 院中可真熱鬧避归,春花似錦、人聲如沸管呵。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,814評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽捐下。三九已至账锹,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間蔑担,已是汗流浹背牌废。 一陣腳步聲響...
    開封第一講書人閱讀 33,940評(píng)論 1 275
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留啤握,地道東北人鸟缕。 一個(gè)月前我還...
    沈念sama閱讀 49,452評(píng)論 3 379
  • 正文 我出身青樓,卻偏偏與公主長得像排抬,于是被迫代替她去往敵國和親懂从。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,995評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容