Python分析《孤注一擲》豆瓣評(píng)論數(shù)據(jù)斥黑,看看它為什么值得看揖盘?

前言

嗨嘍~大家好呀,這里是魔王吶 ? ~!

環(huán)境使用

  • Python 3.8 解釋器

  • Pycharm 編輯器

所需模塊

  • import parsel >>> pip install parsel

  • import requests >>> pip install requests

  • import csv

代碼實(shí)現(xiàn)步驟:

基本四大步驟 --> 發(fā)送請(qǐng)求,獲取數(shù)據(jù),解析數(shù)據(jù),保存數(shù)據(jù)

  1. 發(fā)送請(qǐng)求, 模擬瀏覽器對(duì)于url地址發(fā)送請(qǐng)求

    https://movie.douban.com/subject/35267208/comments?limit=20&status=P&sort=new_score

  2. 獲取數(shù)據(jù), 獲取服務(wù)器返回響應(yīng)數(shù)據(jù)

    開發(fā)者工具 --> response

  3. 解析數(shù)據(jù), 提取我們想要的數(shù)據(jù)內(nèi)容

    評(píng)論相關(guān)數(shù)據(jù)

  4. 保存數(shù)據(jù), 把數(shù)據(jù)內(nèi)容保存表格文件里面

評(píng)論數(shù)據(jù)獲取

發(fā)送請(qǐng)求, 模擬瀏覽器對(duì)于url地址發(fā)送請(qǐng)求

返回<Response [200]>表示請(qǐng)求成功

# 請(qǐng)求鏈接
url = f'https://movie.douban.com/subject/35267224/comments?start=20&limit=20&status=P&sort=new_score'
# 偽裝模擬
headers = {
    # User-Agent 用戶代理, 表示瀏覽器基本身份標(biāo)識(shí)
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}
# 發(fā)送請(qǐng)求
response = requests.get(url=url, headers=headers)
print(response)

解析數(shù)據(jù)

解析方法:

  • 正則re --> 直接對(duì)于字符串?dāng)?shù)據(jù)進(jìn)行解析
  • css選擇器 --> 根據(jù)標(biāo)簽屬性提取數(shù)據(jù)
  • xpath節(jié)點(diǎn)提取 --> 根據(jù)標(biāo)簽節(jié)點(diǎn)提取數(shù)據(jù)

把獲取下來html字符串?dāng)?shù)據(jù) <response.text>, 轉(zhuǎn)成可解析對(duì)象

selector = parsel.Selector(response.text) 
# 第一次提取, 所有div標(biāo)簽
divs = selector.css('div.comment-item')
# for循環(huán)遍歷, 把列表里面元素一個(gè)一個(gè)提取出來
for div in divs:
    name = div.css('.comment-info a::text').get()  # 昵稱
    rating = div.css('.rating::attr(title)').get()  # 推薦
    date = div.css('.comment-time::attr(title)').get()  # 時(shí)間
    area = div.css('.comment-location::text').get()  # 地區(qū)
    votes = div.css('.votes::text').get()  # 有用
    short = div.css('.short::text').get().replace('\n', '')  # 評(píng)論
    # 數(shù)據(jù)存字典里面
    dit = {
        '昵稱': name,
        '推薦': rating,
        '時(shí)間': date,
        '地區(qū)': area,
        '有用': votes,
        '評(píng)論': short,
    }
    # 寫入數(shù)據(jù)
    print(name, rating, date, area, votes, short)

保存數(shù)據(jù)

  • data.csv --> 文件名

  • mode=a --> 保存方式 追加保存

  • encoding=‘utf-8’ --> 編碼格式

  • newline --> 換行符

  • f --> 文件對(duì)象

f = open('data10.csv', mode='a', encoding='utf-8-sig', newline='')
csv_writer = csv.DictWriter(f, fieldnames=[
    '昵稱',
    '推薦',
    '時(shí)間',
    '地區(qū)',
    '有用',
    '評(píng)論',
])
# 寫入表頭
csv_writer.writeheader()

分析評(píng)論數(shù)據(jù)

導(dǎo)入模塊

import pandas as pd
import jieba
import wordcloud

讀取數(shù)據(jù)

df = pd.read_csv('data10.csv')
df.head()

推薦分布

import pyecharts.options as opts
from pyecharts.charts import Pie

data_pair = [list(z) for z in zip(evaluate_type, evaluate_num)]
完整源碼/教程/資料加V:qian97378免費(fèi)獲取
data_pair.sort(key=lambda x: x[1])

c = (
    Pie(init_opts=opts.InitOpts(bg_color="#2c343c"))
    .add(
        series_name="豆瓣影評(píng)",
        data_pair=data_pair,
        rosetype="radius",
        radius="55%",
        center=["50%", "50%"],
        label_opts=opts.LabelOpts(is_show=False, position="center"),
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(
            title="推薦分布",
            pos_left="center",
            pos_top="20",
            title_textstyle_opts=opts.TextStyleOpts(color="#fff"),
        ),
        legend_opts=opts.LegendOpts(is_show=False),
    )
    .set_series_opts(
        tooltip_opts=opts.TooltipOpts(
            trigger="item", formatter="{a} <br/>锌奴: {c} (upiiivt%)"
        ),
        label_opts=opts.LabelOpts(color="rgba(255, 255, 255, 0.3)"),
    )
)
c.render_notebook()

地區(qū)分布

import pyecharts.options as opts
from pyecharts.charts import Pie

data_pair = [list(z) for z in zip(area_type, area_num)]
data_pair.sort(key=lambda x: x[1])

d = (
    Pie(init_opts=opts.InitOpts(bg_color="#2c343c"))
    .add(
        series_name="豆瓣影評(píng)",
        data_pair=data_pair,
        rosetype="radius",
        radius="55%",
        center=["50%", "50%"],
        label_opts=opts.LabelOpts(is_show=False, position="center"),
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(
            title="地區(qū)分布",
            pos_left="center",
            pos_top="20",
            title_textstyle_opts=opts.TextStyleOpts(color="#fff"),
        ),
        legend_opts=opts.LegendOpts(is_show=False),
    )
    .set_series_opts(
        tooltip_opts=opts.TooltipOpts(
            trigger="item", formatter="{a} <br/>兽狭: {c} (amfeevi%)"
        ),
        label_opts=opts.LabelOpts(color="rgba(255, 255, 255, 0.3)"),
    )
)
d.render_notebook()

尾語(yǔ)

感謝你觀看我的文章吶~本次航班到這里就結(jié)束啦 ??

希望本篇文章有對(duì)你帶來幫助 ??,有學(xué)習(xí)到一點(diǎn)知識(shí)~

躲起來的星星??也在努力發(fā)光鹿蜀,你也要努力加油(讓我們一起努力叭)箕慧。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市茴恰,隨后出現(xiàn)的幾起案子颠焦,更是在濱河造成了極大的恐慌,老刑警劉巖往枣,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蒸健,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡婉商,警方通過查閱死者的電腦和手機(jī)似忧,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來丈秩,“玉大人盯捌,你說我怎么就攤上這事∧⒒啵” “怎么了饺著?”我有些...
    開封第一講書人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)肠牲。 經(jīng)常有香客問我幼衰,道長(zhǎng),這世上最難降的妖魔是什么缀雳? 我笑而不...
    開封第一講書人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任渡嚣,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘识椰。我一直安慰自己绝葡,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開白布腹鹉。 她就那樣靜靜地躺著藏畅,像睡著了一般。 火紅的嫁衣襯著肌膚如雪功咒。 梳的紋絲不亂的頭發(fā)上愉阎,一...
    開封第一講書人閱讀 48,970評(píng)論 1 284
  • 那天,我揣著相機(jī)與錄音力奋,去河邊找鬼榜旦。 笑死,一個(gè)胖子當(dāng)著我的面吹牛刊侯,可吹牛的內(nèi)容都是我干的章办。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼滨彻,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼藕届!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起亭饵,我...
    開封第一講書人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤休偶,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后辜羊,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體踏兜,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年八秃,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了碱妆。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡昔驱,死狀恐怖疹尾,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情骤肛,我是刑警寧澤纳本,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站腋颠,受9級(jí)特大地震影響繁成,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜淑玫,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一巾腕、第九天 我趴在偏房一處隱蔽的房頂上張望面睛。 院中可真熱鬧,春花似錦祠墅、人聲如沸侮穿。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至回铛,卻和暖如春狗准,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背茵肃。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來泰國(guó)打工腔长, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人验残。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓捞附,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親您没。 傳聞我的和親對(duì)象是個(gè)殘疾皇子鸟召,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容