python爬取3萬+條評論谭羔，解讀貓眼評分9.5的《海王》是否值得一看华糖？

海王

前言

2018年12月7日，本年度最后一部壓軸大片《海王》如期上映瘟裸，目前貓眼評分達到9.5分客叉，靠著1.5億美金的制作成本，以小博大话告，目前票房接近9億兼搏，本文爬取了貓眼3w+條評論，多方位帶你解讀是否值得一看Ｉ彻佛呻！其實(yin)我(wei)也(mei)沒(qian)看!

海王

數(shù)據(jù)爬取

現(xiàn)在貓眼電影網(wǎng)頁似乎已經(jīng)全部服務(wù)端渲染了，沒有發(fā)現(xiàn)相應(yīng)的評論接口病线，參考了之前其他文章中對于貓眼數(shù)據(jù)的爬取方法吓著，找到了評論接口鲤嫡！
http://m.maoyan.com/mmdb/comments/movie/249342.json?v=yes&offset=15&startTime=2018-1208%2019%3A17%3A16%E3%80%82

檢查網(wǎng)頁發(fā)現(xiàn)無評論鏈接.png

接口有了，但是沒有對應(yīng)的電影id绑莺，不過這難不倒我們暖眼，使用貓眼app+charles，我們成功找到海王對應(yīng)的電影ID纺裁；

電影id獲取

接下來爬取評論：

#獲取數(shù)據(jù)
def get_data(url):
    headrs = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"
    }
    html = request(method='GET',url=url,headers=headrs)
    if html.status_code == 200:
        return html.content
    else:
        return None

解析接口返回數(shù)據(jù)

#處理接口返回數(shù)據(jù)
def parse_data(html):
    json_data = json.loads(html,encoding='utf-8')['cmts']
    comments = []
    try:
        for item in json_data:
            comment = {
                'nickName':item['nickName'],
                'cityName':item['cityName'] if 'cityName' in item else '',
                'content':item['content'].strip().replace('\n',''),
                'score':item['score'],
                'startTime': item['startTime']
            }
            comments.append(comment)
        return comments
    except Exception as e:
        print(e)

處理鏈接及存儲數(shù)據(jù)

def change_url_and_save():
    start_time = time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time())).replace(' ','%20')
    end_time = '2018-12-07 00:00:00'
    while start_time > end_time:
        url = "http://m.maoyan.com/mmdb/comments/movie/249342.json?v=yes&offset=15&startTime="+start_time
        html = None
        try:
            html = get_data(url)
        except Exception as e:
            time.sleep(0.5)
            html = get_data(url)
        else:
            time.sleep(0.1)
        comments = parse_data(html)
        start_time = comments[14]['startTime']
        print(start_time)
        t = datetime.datetime.now()
        start_time = time.strptime(start_time,'%Y-%m-%d %H:%M:%S')
        start_time = datetime.datetime.fromtimestamp(time.mktime(start_time))+datetime.timedelta(seconds=-1)
        start_time = time.mktime(start_time.timetuple())
        start_time = time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(start_time)).replace(' ', '%20')
        for item in comments:
            print(item)
            with open('/Users/mac/Desktop/H5DOC/H5learn/REPTILE/comments.txt', 'a', encoding='utf-8')as f:
                f.write(item['nickName'] + ',' + item['cityName'] + ',' + item['content'] + ',' + str(item['score']) +','+ item[
                    'startTime'] + '\n')

最終我們獲取到了大約33000條數(shù)據(jù)

評論數(shù)據(jù).png

數(shù)據(jù)分析

數(shù)據(jù)分析我們使用了百度的pyecharts诫肠、excel以及使用wordcloud生成詞云
首先看一下，評論分布熱力圖：

觀眾分布熱力圖

京津冀对扶、長三角区赵、珠三角等在各種榜單長期霸榜單的區(qū)域，在熱力圖中浪南，依然占據(jù)著重要地位。而新一線的川渝漱受、鄭州武漢緊隨其后络凿！
下面是評論數(shù)前20的城市

評論數(shù)主要分布城市

評論全國分布圖：

評論分布城市

由圖中可以看出基本與熱力圖相似，主要分布在各大一線昂羡、新一線城市絮记，對于杭州為何會排在第17的位置，我覺得可能是阿里大本營虐先，大家都用淘票票的緣故吧怨愤！????
接下來是評分占比情況

評分占比.png

由圖中可以看出，評分在4以上的占比達到了94%蛹批，而平均評分也達到4.68分Ｗ础！腐芍！
再來看一下各城市評分情況：

各城市評分

看了評分再來看看評論的詞云情況：

哈哈哈

詞云1

詞云2

詞云出現(xiàn)較多的是好看差导、特效、劇情猪勇、震撼等设褐，可以看出大家對此電影對特效和劇情還是十分認同的，畢竟爛番茄新鮮度73%泣刹，1.5億美元對制作能做到如此實屬不易助析，我還是決定這周末去影院刷一下的！

詞云代碼

def data_wordclound():
    comments = ''
    with open('comments.txt','r') as f:
        rows = f.readlines()
        try:
            for row in rows:
                lit = row.split(',')
                if len(lit) >= 3:
                    comment = lit[2]
                    if comment != '':
                        comments += ' '.join(jieba.cut(comment.strip()))
            # print(comments)
        except Exception as  e:
            print(e)

    hai_coloring = imread('hai.jpeg')
    # 多慮沒用的停止詞
    stopwords = STOPWORDS.copy()
    stopwords.add('電影')
    stopwords.add('一部')
    stopwords.add('一個')
    stopwords.add('沒有')
    stopwords.add('什么')
    stopwords.add('有點')
    stopwords.add('感覺')
    stopwords.add('海王')
    stopwords.add('就是')
    stopwords.add('覺得')
    stopwords.add('DC')
    bg_image = plt.imread('hai.jpeg')
    font_path = '/System/Library/Fonts/STHeiti Light.ttc'
    wc = WordCloud(width=1024, height=768, background_color='white', mask=bg_image, font_path=font_path,
                   stopwords=stopwords, max_font_size=400, random_state=50)

    wc.generate(comments)
    images_colors = ImageColorGenerator(hai_coloring)
    plt.figure()
    plt.imshow(wc.recolor(color_func=images_colors))
    plt.axis('off')
    plt.show()

綜上椅您，我覺得沒看的小伙伴可以跟我一樣一起周末去貢獻一下票房了外冀！哈哈哈哈

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市襟沮，隨后出現(xiàn)的幾起案子锥惋，更是在濱河造成了極大的恐慌昌腰，老刑警劉巖，帶你破解...
沈念sama閱讀 217,907評論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件膀跌，死亡現(xiàn)場離奇詭異遭商，居然都是意外死亡，警方通過查閱死者的電腦和手機捅伤，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,987評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門劫流，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人丛忆，你說我怎么就攤上這事祠汇。” “怎么了熄诡？”我有些...
開封第一講書人閱讀 164,298評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵可很，是天一觀的道長。經(jīng)常有香客問我凰浮，道長我抠，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,586評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任袜茧，我火速辦了婚禮菜拓，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘笛厦。我一直安慰自己纳鼎，他們只是感情好，可當我...
茶點故事閱讀 67,633評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布裳凸。她就那樣靜靜地躺著贱鄙，像睡著了一般。火紅的嫁衣襯著肌膚如雪登舞。梳的紋絲不亂的頭發(fā)上贰逾，一...
開封第一講書人閱讀 51,488評論 1贊 302
城市分裂傳說
那天，我揣著相機與錄音菠秒，去河邊找鬼疙剑。笑死，一個胖子當著我的面吹牛践叠，可吹牛的內(nèi)容都是我干的言缤。我是一名探鬼主播，決...
沈念sama閱讀 40,275評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼禁灼，長吁一口氣：“原來是場噩夢啊……” “哼管挟！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起弄捕，我...
開封第一講書人閱讀 39,176評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤僻孝，失蹤者是張志新（化名）和其女友劉穎导帝，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體穿铆，經(jīng)...
沈念sama閱讀 45,619評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡您单，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,819評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了荞雏。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片虐秦。...
茶點故事閱讀 39,932評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖凤优，靈堂內(nèi)的尸體忽然破棺而出悦陋，到底是詐尸還是另有隱情，我是刑警寧澤筑辨，帶...
沈念sama閱讀 35,655評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布俺驶，位于F島的核電站，受9級特大地震影響棍辕，放射性物質(zhì)發(fā)生泄漏痒钝。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,265評論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一痢毒、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧蚕甥，春花似錦哪替、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,871評論 0贊 22
一樁弒父案凭舶，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至爱沟，卻和暖如春帅霜，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背呼伸。一陣腳步聲響...
開封第一講書人閱讀 32,994評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工身冀，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人括享。一個月前我還...
沈念sama閱讀 48,095評論 3贊 370
代替公主和親
正文我出身青樓搂根，卻偏偏與公主長得像，于是被迫代替她去往敵國和親铃辖。傳聞我的和親對象是個殘疾皇子剩愧，可洞房花燭夜當晚...
茶點故事閱讀 44,884評論 2贊 354

python爬取3萬+條評論蟹但，解讀貓眼評分9.5的《海王》是否值得一看？

python爬取3萬+條評論谭羔，解讀貓眼評分9.5的《海王》是否值得一看华糖？

前言

數(shù)據(jù)爬取

數(shù)據(jù)分析

推薦閱讀更多精彩內(nèi)容