用python爬取N部電影饲漾,你才我發(fā)現(xiàn)了什么?

2019年就這么匆匆過去了缕溉,就在前幾天國家電影局發(fā)布了2019年中國電影市場數(shù)據(jù)考传,數(shù)據(jù)顯示去年總票房為642.66億元,同比增長5.4%证鸥;國產(chǎn)電影總票房411.75億元僚楞,同比增長8.65%,市場占比 64.07%枉层;城市院線觀影人次17.27億泉褐,同比增長0.64%。

看上去似乎是一片大好對不對鸟蜡?不過作為一名嚴(yán)謹(jǐn)求實的數(shù)據(jù)分析師膜赃,我從官方數(shù)據(jù)中看出了一點端倪: 國產(chǎn)票房增幅都已經(jīng)高達(dá)8.65%了,為什么觀影人次增長不足1%揉忘?

到底為什么會出現(xiàn)這樣的現(xiàn)象跳座,最好的辦法就是從數(shù)據(jù)中找答案端铛。我們說干就干,按照老規(guī)矩疲眷,先用python爬取數(shù)據(jù)禾蚕、再用BI進(jìn)行數(shù)據(jù)分析,最終事情的真相就會顯現(xiàn)在我們面前狂丝。

一换淆、分析目的和分析指標(biāo)

首先明確我們數(shù)據(jù)分析的目的,根據(jù)2019年電影的數(shù)據(jù)分析國內(nèi)電影市場美侦,主要是為了找到票房與觀影人次的關(guān)系。

怎么去衡量一部電影的好壞呢魂奥?懂電影的人應(yīng)該都知道這么幾個指標(biāo):“電影票房”菠剩、“票房占比”、“上座率”耻煤、“排片比”具壮、“評分”等等,其中我們的數(shù)據(jù)源就用貓眼電影吧哈蝇,但是因為貓眼評分門檻很低棺妓,可能充斥著很多水軍,所以這次就不用“評分”這個指標(biāo)了炮赦。

image

二怜跑、python爬取

下面就要開始爬取數(shù)據(jù)了,因為貓眼電影的網(wǎng)頁結(jié)構(gòu)比較簡單吠勘,爬取操作比較簡單性芬,所以這里我就不詳細(xì)展示了,只說幾步需要注意的地方就行剧防。

注:想要源代碼的植锉,后臺私信我吧,這里就不放了

1峭拘、先看看結(jié)構(gòu)

從貓眼電影上可以看到我們要爬取的網(wǎng)頁俊庇,首先要提取出這個網(wǎng)頁的信息,在了解了大體的情況之后鸡挠,就右鍵選擇查看網(wǎng)頁的源代碼辉饱,看一下我們需要爬取的數(shù)據(jù)信息在源代碼中的什么地方。

image

2拣展、偽裝成瀏覽器進(jìn)行數(shù)據(jù)請求

這個方法就是老生常談的事情了鞋囊,這里不細(xì)講了,在發(fā)送請求前加上headers參數(shù)即可瞎惫。

image

3溜腐、提取數(shù)據(jù)

貓眼里的電影票房等都是加密后的字體译株,因此我們需要解密字體。雖然字符的編碼是變化的挺益,但是對象是不變的歉糜。那么我們可以通過第一次下載一個字體文件origin.ttf,并把對應(yīng)編碼的字體寫出來望众,當(dāng)?shù)诙螐木W(wǎng)上重新下載一個字體文件online_base64.ttf 的時候匪补,可以對比對象信息,如果對象是一樣的烂翰,那么就把第一次編碼對應(yīng)的文字賦值給第二次的編碼夯缺,這樣即可。

image

4甘耿、主程序調(diào)用保存在excel中

首先需要建立一個空列表踊兜,將所有的數(shù)據(jù)添加到里面去。在之前的提取數(shù)據(jù)那個函數(shù)的時候佳恬,將print(data)捏境,改寫成yield data,將所有的數(shù)據(jù)添加到一個列表之后就可以保存數(shù)據(jù)了毁葱。

image

5垫言、需要注意的地方

  • 下載一個基本字體路徑,找到它對應(yīng)的數(shù)字及其編碼
  • 每一次爬取網(wǎng)頁時倾剿,都要先下載該網(wǎng)頁的字體文件筷频,然后與基本字體文件作對比,獲得爬取網(wǎng)頁的數(shù)字對應(yīng)編碼前痘。

三截驮、BI分析

有了源文件,我們就可以進(jìn)行BI分析了际度,至于為什么不用python是因為比較麻煩葵袭,像我們?nèi)绻龆朔治瞿P停a寫起來還是比較麻煩的乖菱,日常共工作中不太能滿足需求坡锡。

所以一般來說我現(xiàn)在都是用專業(yè)的BI工具進(jìn)行數(shù)據(jù)分析。目前市場上的BI工具十分繁多窒所,但是性能也參差不齊鹉勒,這里我就以國產(chǎn)BI工具的優(yōu)秀代表 [FineBI]為例。

1吵取、數(shù)據(jù)連接

首先導(dǎo)入我們需要分析的數(shù)據(jù)禽额,finebi可以連接Excel,CSV,XML脯倒,以及各類數(shù)據(jù)庫实辑,這里因為有了python爬取到的excel表,所以直接選擇excel導(dǎo)入即可藻丢。

image

2剪撬、數(shù)據(jù)加工

我們爬取到的數(shù)據(jù)可能需要第二次加工,比如臟數(shù)據(jù)處理悠反、數(shù)據(jù)合并残黑、過濾等等,F(xiàn)ineBI是通過自助數(shù)據(jù)集的方式斋否,根據(jù)需求對原數(shù)據(jù)進(jìn)行再加工處理梨水,新建一個用于分析的數(shù)據(jù)集,再處理包括選擇字段茵臭、過濾疫诽、分組匯總、新增列笼恰、字段設(shè)置踊沸、排序歇终、合并的操作社证。

image

3、數(shù)據(jù)可視化

因為本次涉及到的指標(biāo)比較簡單评凝,所以基本通過FineBI拖拽數(shù)據(jù)字段即可呈現(xiàn)可視化追葡。

image

四、結(jié)論分析

不說廢話奕短,先放結(jié)論:

  • 國內(nèi)電影市場接近飽和宜肉,今年的成績是虛假繁榮;
  • 頭部效應(yīng)加劇翎碑,大多數(shù)電影票房慘淡谬返,市場成績不佳;
  • 票房的增長基本是靠電影價格拉動起來的日杈,觀影人次基本沒有增長遣铝,電影寒冬到來;

1莉擒、票房排名前二十的電影

image

今年票房前二十名中一半以上都是國產(chǎn)電影酿炸,看似繁榮,但其實從上圖的區(qū)間柱狀圖中能夠看出涨冀,《哪吒》填硕、《流浪地球》、《復(fù)聯(lián)4》三部電影屬于第一梯隊鹿鳖,票房在40億以上扁眯;《我和我的祖國》壮莹、《中國機長》、《瘋狂的外星人》恋拍、《海王》屬于第二梯隊垛孔,票房在20-30億左右;剩下的電影中基本在20億以下施敢,排名20的《銀行補習(xí)班》只有8億周荐。

整體來說,去年國內(nèi)電影市場爆款較多僵娃,但是整體呈現(xiàn)階梯狀概作,斷崖較多,大部分集中于前五名之中默怨,大體上符合二八法則讯榕。

2、票房的帕累托模型

為了搞清是否真的符合帕累托法則匙睹,我特意用FineBI加入了一條票房累積百分比:

image

結(jié)果很明顯愚屁,排名前20%的電影占據(jù)了整個市場80%以上的票房總量,也就是說痕檬,去年國內(nèi)市場的票房總量基本上靠著幾大爆款電影撐起來的霎槐,票房分布越來越集中絕對不是一件好事,這意味大多數(shù)的電影成績慘淡梦谜,根本沒有生存空間丘跌。

3、票房占比唁桩、排片率與票房的關(guān)系

  • 票房占比:電影票房收入占總收入的比例闭树,票房占比越高,說明電影質(zhì)量越好荒澡,人們越想看报辱;
  • 排片率:排片率高、票房低就是爛片单山,而排片率低碍现、票房高的電影才是黑馬;
image

這張圖我們可以跟排名前二十的柱狀圖對比一下饥侵,真正意義上高票房鸵赫、高票房占比、低排片率的黑馬電影有哪些呢躏升?答案只有一部《流浪地球》辩棒。

《哪吒》的排片率高是因為上映同期沒有什么優(yōu)質(zhì)電影與之競爭,所以《哪吒》的成功一半要歸功于人和,一半要歸功于天時一睁;《瘋狂外星人》的表現(xiàn)中規(guī)中矩钻弄,《海王》屬于典型的商業(yè)片,《我和我的祖國》屬于特殊情況者吁,不能一概而論窘俺。

4、上座率與票房的關(guān)系

  • 上座率:即一部影片獲得觀眾人次的多少复凳,優(yōu)秀的影片上座率就高瘤泪,反之則低
image

為了方便對比,我在圖中加入了一條平均上座率的警戒線育八,其中上座率最高的是《我和我的祖國》对途、《我為你犧牲》,原因就不說了髓棋,大家應(yīng)該都明白实檀;其中比較奇怪的是《飛馳人生》、《新喜劇之王》按声、《攀登者》膳犹,上座率非常高,票房成績卻不如人意签则,應(yīng)該是得益于其導(dǎo)演须床、主演的號召力。

《流浪地球》上座率在平均值以上怀愧,無論從哪個角度看都是一部好電影侨颈,無懈可擊余赢。

值得欣慰的是芯义,上座率排名靠前的基本都是國產(chǎn)電影,看的出來國外電影尚不能滿足大多數(shù)人的口味妻柒。

5扛拨、做點其他分析

image

電影類型與上座率的關(guān)系

喜劇電影一騎絕塵,動畫電影黑馬突起举塔,科幻電影方興未艾绑警,驚悚抵代、懸疑胖眷、歷史等小眾題材的電影仍然慘淡無比。

image

顏色越深代表上座率越高藏杖,字體越大代表票房越高

陳凱歌現(xiàn)在雖然經(jīng)常被爛片之王所詬病芽丹,但是不得不說他的成績還是很不錯的北启,另外像寧浩、韓寒、郭帆咕村、陳國輝等人都是國產(chǎn)電影的希望场钉。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市懈涛,隨后出現(xiàn)的幾起案子逛万,更是在濱河造成了極大的恐慌,老刑警劉巖批钠,帶你破解...
    沈念sama閱讀 212,884評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件宇植,死亡現(xiàn)場離奇詭異,居然都是意外死亡埋心,警方通過查閱死者的電腦和手機当纱,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,755評論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來踩窖,“玉大人坡氯,你說我怎么就攤上這事⊙笕” “怎么了箫柳?”我有些...
    開封第一講書人閱讀 158,369評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長啥供。 經(jīng)常有香客問我悯恍,道長,這世上最難降的妖魔是什么伙狐? 我笑而不...
    開封第一講書人閱讀 56,799評論 1 285
  • 正文 為了忘掉前任涮毫,我火速辦了婚禮,結(jié)果婚禮上贷屎,老公的妹妹穿的比我還像新娘罢防。我一直安慰自己,他們只是感情好唉侄,可當(dāng)我...
    茶點故事閱讀 65,910評論 6 386
  • 文/花漫 我一把揭開白布咒吐。 她就那樣靜靜地躺著,像睡著了一般属划。 火紅的嫁衣襯著肌膚如雪恬叹。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 50,096評論 1 291
  • 那天同眯,我揣著相機與錄音绽昼,去河邊找鬼。 笑死须蜗,一個胖子當(dāng)著我的面吹牛硅确,可吹牛的內(nèi)容都是我干的肿孵。 我是一名探鬼主播,決...
    沈念sama閱讀 39,159評論 3 411
  • 文/蒼蘭香墨 我猛地睜開眼疏魏,長吁一口氣:“原來是場噩夢啊……” “哼停做!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起大莫,我...
    開封第一講書人閱讀 37,917評論 0 268
  • 序言:老撾萬榮一對情侶失蹤蛉腌,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后只厘,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體烙丛,經(jīng)...
    沈念sama閱讀 44,360評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,673評論 2 327
  • 正文 我和宋清朗相戀三年羔味,在試婚紗的時候發(fā)現(xiàn)自己被綠了河咽。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,814評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡赋元,死狀恐怖忘蟹,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情搁凸,我是刑警寧澤媚值,帶...
    沈念sama閱讀 34,509評論 4 334
  • 正文 年R本政府宣布,位于F島的核電站护糖,受9級特大地震影響褥芒,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜嫡良,卻給世界環(huán)境...
    茶點故事閱讀 40,156評論 3 317
  • 文/蒙蒙 一锰扶、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧寝受,春花似錦坷牛、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽锨亏。三九已至痴怨,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間器予,已是汗流浹背浪藻。 一陣腳步聲響...
    開封第一講書人閱讀 32,123評論 1 267
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留乾翔,地道東北人爱葵。 一個月前我還...
    沈念sama閱讀 46,641評論 2 362
  • 正文 我出身青樓施戴,卻偏偏與公主長得像,于是被迫代替她去往敵國和親萌丈。 傳聞我的和親對象是個殘疾皇子赞哗,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,728評論 2 351

推薦閱讀更多精彩內(nèi)容

  • 這篇文章,寫給石家莊辆雾。石家莊肪笋,又名國際莊。 對石家莊的第一印象停留在了2015年1月10日的紅旗大街度迂,那是河北省美...
    因為我是小可愛啊閱讀 781評論 0 1
  • 印象最深刻三個部分 1張楓釵同學(xué)的精彩講課 2老師犀利的眼神 3知覺的基本特性 為什么印象深刻藤乙? 1因為張楓釵同學(xué)...
    bnjytes閱讀 237評論 1 0
  • 4.23是世界讀書日,相信很多人會被媒體的蹭熱點刷出一陣買書讀書的熱情惭墓,而我為了蹭這個熱點也是為大家精心準(zhǔn)備了一份...
    _小小眾_閱讀 273評論 0 0
  • ?熱身:抓烏龜 ??感悟:如果在教室里坛梁,孩子的注意力放到不被抓到和抓別人身上,那么他將聽不到教學(xué)內(nèi)容是什么腊凶。 ?互...
    Miki盧盧閱讀 248評論 0 0
  • 歲月似乎就躲在眼簾前划咐,躲在眼睫纖細(xì)的前端,當(dāng)執(zhí)著去尋找它钧萍,隱隱約約能見到些影子尖殃,一點點模糊軌跡,而當(dāng)把它忘諸腦后划煮,...
    林爔櫟閱讀 443評論 4 3