python爬取3萬+條評論谭羔,解讀貓眼評分9.5的《海王》是否值得一看华糖?

海王

前言

2018年12月7日,本年度最后一部壓軸大片《海王》如期上映瘟裸,目前貓眼評分達到9.5分客叉,靠著1.5億美金的制作成本,以小博大话告,目前票房接近9億兼搏,本文爬取了貓眼3w+條評論,多方位帶你解讀是否值得一看I彻佛呻!其實(yin)我(wei)也(mei)沒(qian)看!


海王

數(shù)據(jù)爬取

現(xiàn)在貓眼電影網(wǎng)頁似乎已經(jīng)全部服務(wù)端渲染了,沒有發(fā)現(xiàn)相應(yīng)的評論接口病线,參考了之前其他文章中對于貓眼數(shù)據(jù)的爬取方法吓著,找到了評論接口鲤嫡!
http://m.maoyan.com/mmdb/comments/movie/249342.json?v=yes&offset=15&startTime=2018-1208%2019%3A17%3A16%E3%80%82

檢查網(wǎng)頁發(fā)現(xiàn)無評論鏈接.png

接口有了,但是沒有對應(yīng)的電影id绑莺,不過這難不倒我們暖眼,使用貓眼app+charles,我們成功找到海王對應(yīng)的電影ID纺裁;


電影id獲取

接下來爬取評論:

#獲取數(shù)據(jù)
def get_data(url):
    headrs = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"
    }
    html = request(method='GET',url=url,headers=headrs)
    if html.status_code == 200:
        return html.content
    else:
        return None

解析接口返回數(shù)據(jù)

#處理接口返回數(shù)據(jù)
def parse_data(html):
    json_data = json.loads(html,encoding='utf-8')['cmts']
    comments = []
    try:
        for item in json_data:
            comment = {
                'nickName':item['nickName'],
                'cityName':item['cityName'] if 'cityName' in item else '',
                'content':item['content'].strip().replace('\n',''),
                'score':item['score'],
                'startTime': item['startTime']
            }
            comments.append(comment)
        return comments
    except Exception as e:
        print(e)

處理鏈接及存儲數(shù)據(jù)

def change_url_and_save():
    start_time = time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time())).replace(' ','%20')
    end_time = '2018-12-07 00:00:00'
    while start_time > end_time:
        url = "http://m.maoyan.com/mmdb/comments/movie/249342.json?v=yes&offset=15&startTime="+start_time
        html = None
        try:
            html = get_data(url)
        except Exception as e:
            time.sleep(0.5)
            html = get_data(url)
        else:
            time.sleep(0.1)
        comments = parse_data(html)
        start_time = comments[14]['startTime']
        print(start_time)
        t = datetime.datetime.now()
        start_time = time.strptime(start_time,'%Y-%m-%d %H:%M:%S')
        start_time = datetime.datetime.fromtimestamp(time.mktime(start_time))+datetime.timedelta(seconds=-1)
        start_time = time.mktime(start_time.timetuple())
        start_time = time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(start_time)).replace(' ', '%20')
        for item in comments:
            print(item)
            with open('/Users/mac/Desktop/H5DOC/H5learn/REPTILE/comments.txt', 'a', encoding='utf-8')as f:
                f.write(item['nickName'] + ',' + item['cityName'] + ',' + item['content'] + ',' + str(item['score']) +','+ item[
                    'startTime'] + '\n')

最終我們獲取到了大約33000條數(shù)據(jù)


評論數(shù)據(jù).png

數(shù)據(jù)分析

數(shù)據(jù)分析我們使用了百度的pyecharts诫肠、excel以及使用wordcloud生成詞云
首先看一下,評論分布熱力圖:


觀眾分布熱力圖

京津冀对扶、長三角区赵、珠三角等在各種榜單長期霸榜單的區(qū)域,在熱力圖中浪南,依然占據(jù)著重要地位。而新一線的川渝漱受、鄭州武漢緊隨其后络凿!
下面是評論數(shù)前20的城市


評論數(shù)主要分布城市

評論全國分布圖:


評論分布城市

由圖中可以看出基本與熱力圖相似,主要分布在各大一線昂羡、新一線城市絮记,對于杭州為何會排在第17的位置,我覺得可能是阿里大本營虐先,大家都用淘票票的緣故吧怨愤!????
接下來是評分占比情況


評分占比.png

由圖中可以看出,評分在4以上的占比達到了94%蛹批,而平均評分也達到4.68分W础!腐芍!
再來看一下各城市評分情況:


各城市評分

看了評分再來看看評論的詞云情況:


哈哈哈

詞云1

詞云2

詞云出現(xiàn)較多的是好看差导、特效、劇情猪勇、震撼等设褐,可以看出大家對此電影對特效和劇情還是十分認同的,畢竟爛番茄新鮮度73%泣刹,1.5億美元對制作能做到如此實屬不易助析,我還是決定這周末去影院刷一下的!

詞云代碼

def data_wordclound():
    comments = ''
    with open('comments.txt','r') as f:
        rows = f.readlines()
        try:
            for row in rows:
                lit = row.split(',')
                if len(lit) >= 3:
                    comment = lit[2]
                    if comment != '':
                        comments += ' '.join(jieba.cut(comment.strip()))
            # print(comments)
        except Exception as  e:
            print(e)

    hai_coloring = imread('hai.jpeg')
    # 多慮沒用的停止詞
    stopwords = STOPWORDS.copy()
    stopwords.add('電影')
    stopwords.add('一部')
    stopwords.add('一個')
    stopwords.add('沒有')
    stopwords.add('什么')
    stopwords.add('有點')
    stopwords.add('感覺')
    stopwords.add('海王')
    stopwords.add('就是')
    stopwords.add('覺得')
    stopwords.add('DC')
    bg_image = plt.imread('hai.jpeg')
    font_path = '/System/Library/Fonts/STHeiti Light.ttc'
    wc = WordCloud(width=1024, height=768, background_color='white', mask=bg_image, font_path=font_path,
                   stopwords=stopwords, max_font_size=400, random_state=50)

    wc.generate(comments)
    images_colors = ImageColorGenerator(hai_coloring)
    plt.figure()
    plt.imshow(wc.recolor(color_func=images_colors))
    plt.axis('off')
    plt.show()

綜上椅您,我覺得沒看的小伙伴可以跟我一樣一起周末去貢獻一下票房了外冀!哈哈哈哈

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市襟沮,隨后出現(xiàn)的幾起案子锥惋,更是在濱河造成了極大的恐慌昌腰,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,907評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件膀跌,死亡現(xiàn)場離奇詭異遭商,居然都是意外死亡,警方通過查閱死者的電腦和手機捅伤,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,987評論 3 395
  • 文/潘曉璐 我一進店門劫流,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人丛忆,你說我怎么就攤上這事祠汇。” “怎么了熄诡?”我有些...
    開封第一講書人閱讀 164,298評論 0 354
  • 文/不壞的土叔 我叫張陵可很,是天一觀的道長。 經(jīng)常有香客問我凰浮,道長我抠,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,586評論 1 293
  • 正文 為了忘掉前任袜茧,我火速辦了婚禮菜拓,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘笛厦。我一直安慰自己纳鼎,他們只是感情好,可當我...
    茶點故事閱讀 67,633評論 6 392
  • 文/花漫 我一把揭開白布裳凸。 她就那樣靜靜地躺著贱鄙,像睡著了一般。 火紅的嫁衣襯著肌膚如雪登舞。 梳的紋絲不亂的頭發(fā)上贰逾,一...
    開封第一講書人閱讀 51,488評論 1 302
  • 那天,我揣著相機與錄音菠秒,去河邊找鬼疙剑。 笑死,一個胖子當著我的面吹牛践叠,可吹牛的內(nèi)容都是我干的言缤。 我是一名探鬼主播,決...
    沈念sama閱讀 40,275評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼禁灼,長吁一口氣:“原來是場噩夢啊……” “哼管挟!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起弄捕,我...
    開封第一講書人閱讀 39,176評論 0 276
  • 序言:老撾萬榮一對情侶失蹤僻孝,失蹤者是張志新(化名)和其女友劉穎导帝,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體穿铆,經(jīng)...
    沈念sama閱讀 45,619評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡您单,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,819評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了荞雏。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片虐秦。...
    茶點故事閱讀 39,932評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖凤优,靈堂內(nèi)的尸體忽然破棺而出悦陋,到底是詐尸還是另有隱情,我是刑警寧澤筑辨,帶...
    沈念sama閱讀 35,655評論 5 346
  • 正文 年R本政府宣布俺驶,位于F島的核電站,受9級特大地震影響棍辕,放射性物質(zhì)發(fā)生泄漏痒钝。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,265評論 3 329
  • 文/蒙蒙 一痢毒、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧蚕甥,春花似錦哪替、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,871評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至爱沟,卻和暖如春帅霜,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背呼伸。 一陣腳步聲響...
    開封第一講書人閱讀 32,994評論 1 269
  • 我被黑心中介騙來泰國打工身冀, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人括享。 一個月前我還...
    沈念sama閱讀 48,095評論 3 370
  • 正文 我出身青樓搂根,卻偏偏與公主長得像,于是被迫代替她去往敵國和親铃辖。 傳聞我的和親對象是個殘疾皇子剩愧,可洞房花燭夜當晚...
    茶點故事閱讀 44,884評論 2 354

推薦閱讀更多精彩內(nèi)容