2019年就這么匆匆過去了缕溉,就在前幾天國家電影局發(fā)布了2019年中國電影市場數(shù)據(jù)考传,數(shù)據(jù)顯示去年總票房為642.66億元,同比增長5.4%证鸥;國產(chǎn)電影總票房411.75億元僚楞,同比增長8.65%,市場占比 64.07%枉层;城市院線觀影人次17.27億泉褐,同比增長0.64%。
看上去似乎是一片大好對不對鸟蜡?不過作為一名嚴(yán)謹(jǐn)求實的數(shù)據(jù)分析師膜赃,我從官方數(shù)據(jù)中看出了一點端倪: 國產(chǎn)票房增幅都已經(jīng)高達(dá)8.65%了,為什么觀影人次增長不足1%揉忘?
到底為什么會出現(xiàn)這樣的現(xiàn)象跳座,最好的辦法就是從數(shù)據(jù)中找答案端铛。我們說干就干,按照老規(guī)矩疲眷,先用python爬取數(shù)據(jù)禾蚕、再用BI進(jìn)行數(shù)據(jù)分析,最終事情的真相就會顯現(xiàn)在我們面前狂丝。
一换淆、分析目的和分析指標(biāo)
首先明確我們數(shù)據(jù)分析的目的,根據(jù)2019年電影的數(shù)據(jù)分析國內(nèi)電影市場美侦,主要是為了找到票房與觀影人次的關(guān)系。
怎么去衡量一部電影的好壞呢魂奥?懂電影的人應(yīng)該都知道這么幾個指標(biāo):“電影票房”菠剩、“票房占比”、“上座率”耻煤、“排片比”具壮、“評分”等等,其中我們的數(shù)據(jù)源就用貓眼電影吧哈蝇,但是因為貓眼評分門檻很低棺妓,可能充斥著很多水軍,所以這次就不用“評分”這個指標(biāo)了炮赦。
二怜跑、python爬取
下面就要開始爬取數(shù)據(jù)了,因為貓眼電影的網(wǎng)頁結(jié)構(gòu)比較簡單吠勘,爬取操作比較簡單性芬,所以這里我就不詳細(xì)展示了,只說幾步需要注意的地方就行剧防。
注:想要源代碼的植锉,后臺私信我吧,這里就不放了
1峭拘、先看看結(jié)構(gòu)
從貓眼電影上可以看到我們要爬取的網(wǎng)頁俊庇,首先要提取出這個網(wǎng)頁的信息,在了解了大體的情況之后鸡挠,就右鍵選擇查看網(wǎng)頁的源代碼辉饱,看一下我們需要爬取的數(shù)據(jù)信息在源代碼中的什么地方。
2拣展、偽裝成瀏覽器進(jìn)行數(shù)據(jù)請求
這個方法就是老生常談的事情了鞋囊,這里不細(xì)講了,在發(fā)送請求前加上headers參數(shù)即可瞎惫。
3溜腐、提取數(shù)據(jù)
貓眼里的電影票房等都是加密后的字體译株,因此我們需要解密字體。雖然字符的編碼是變化的挺益,但是對象是不變的歉糜。那么我們可以通過第一次下載一個字體文件origin.ttf,并把對應(yīng)編碼的字體寫出來望众,當(dāng)?shù)诙螐木W(wǎng)上重新下載一個字體文件online_base64.ttf 的時候匪补,可以對比對象信息,如果對象是一樣的烂翰,那么就把第一次編碼對應(yīng)的文字賦值給第二次的編碼夯缺,這樣即可。
4甘耿、主程序調(diào)用保存在excel中
首先需要建立一個空列表踊兜,將所有的數(shù)據(jù)添加到里面去。在之前的提取數(shù)據(jù)那個函數(shù)的時候佳恬,將print(data)捏境,改寫成yield data,將所有的數(shù)據(jù)添加到一個列表之后就可以保存數(shù)據(jù)了毁葱。
5垫言、需要注意的地方
- 下載一個基本字體路徑,找到它對應(yīng)的數(shù)字及其編碼
- 每一次爬取網(wǎng)頁時倾剿,都要先下載該網(wǎng)頁的字體文件筷频,然后與基本字體文件作對比,獲得爬取網(wǎng)頁的數(shù)字對應(yīng)編碼前痘。
三截驮、BI分析
有了源文件,我們就可以進(jìn)行BI分析了际度,至于為什么不用python是因為比較麻煩葵袭,像我們?nèi)绻龆朔治瞿P停a寫起來還是比較麻煩的乖菱,日常共工作中不太能滿足需求坡锡。
所以一般來說我現(xiàn)在都是用專業(yè)的BI工具進(jìn)行數(shù)據(jù)分析。目前市場上的BI工具十分繁多窒所,但是性能也參差不齊鹉勒,這里我就以國產(chǎn)BI工具的優(yōu)秀代表 [FineBI]為例。
1吵取、數(shù)據(jù)連接
首先導(dǎo)入我們需要分析的數(shù)據(jù)禽额,finebi可以連接Excel,CSV,XML脯倒,以及各類數(shù)據(jù)庫实辑,這里因為有了python爬取到的excel表,所以直接選擇excel導(dǎo)入即可藻丢。
2剪撬、數(shù)據(jù)加工
我們爬取到的數(shù)據(jù)可能需要第二次加工,比如臟數(shù)據(jù)處理悠反、數(shù)據(jù)合并残黑、過濾等等,F(xiàn)ineBI是通過自助數(shù)據(jù)集的方式斋否,根據(jù)需求對原數(shù)據(jù)進(jìn)行再加工處理梨水,新建一個用于分析的數(shù)據(jù)集,再處理包括選擇字段茵臭、過濾疫诽、分組匯總、新增列笼恰、字段設(shè)置踊沸、排序歇终、合并的操作社证。
3、數(shù)據(jù)可視化
因為本次涉及到的指標(biāo)比較簡單评凝,所以基本通過FineBI拖拽數(shù)據(jù)字段即可呈現(xiàn)可視化追葡。
四、結(jié)論分析
不說廢話奕短,先放結(jié)論:
- 國內(nèi)電影市場接近飽和宜肉,今年的成績是虛假繁榮;
- 頭部效應(yīng)加劇翎碑,大多數(shù)電影票房慘淡谬返,市場成績不佳;
- 票房的增長基本是靠電影價格拉動起來的日杈,觀影人次基本沒有增長遣铝,電影寒冬到來;
1莉擒、票房排名前二十的電影
今年票房前二十名中一半以上都是國產(chǎn)電影酿炸,看似繁榮,但其實從上圖的區(qū)間柱狀圖中能夠看出涨冀,《哪吒》填硕、《流浪地球》、《復(fù)聯(lián)4》三部電影屬于第一梯隊鹿鳖,票房在40億以上扁眯;《我和我的祖國》壮莹、《中國機長》、《瘋狂的外星人》恋拍、《海王》屬于第二梯隊垛孔,票房在20-30億左右;剩下的電影中基本在20億以下施敢,排名20的《銀行補習(xí)班》只有8億周荐。
整體來說,去年國內(nèi)電影市場爆款較多僵娃,但是整體呈現(xiàn)階梯狀概作,斷崖較多,大部分集中于前五名之中默怨,大體上符合二八法則讯榕。
2、票房的帕累托模型
為了搞清是否真的符合帕累托法則匙睹,我特意用FineBI加入了一條票房累積百分比:
結(jié)果很明顯愚屁,排名前20%的電影占據(jù)了整個市場80%以上的票房總量,也就是說痕檬,去年國內(nèi)市場的票房總量基本上靠著幾大爆款電影撐起來的霎槐,票房分布越來越集中絕對不是一件好事,這意味大多數(shù)的電影成績慘淡梦谜,根本沒有生存空間丘跌。
3、票房占比唁桩、排片率與票房的關(guān)系
- 票房占比:電影票房收入占總收入的比例闭树,票房占比越高,說明電影質(zhì)量越好荒澡,人們越想看报辱;
- 排片率:排片率高、票房低就是爛片单山,而排片率低碍现、票房高的電影才是黑馬;
這張圖我們可以跟排名前二十的柱狀圖對比一下饥侵,真正意義上高票房鸵赫、高票房占比、低排片率的黑馬電影有哪些呢躏升?答案只有一部《流浪地球》辩棒。
《哪吒》的排片率高是因為上映同期沒有什么優(yōu)質(zhì)電影與之競爭,所以《哪吒》的成功一半要歸功于人和,一半要歸功于天時一睁;《瘋狂外星人》的表現(xiàn)中規(guī)中矩钻弄,《海王》屬于典型的商業(yè)片,《我和我的祖國》屬于特殊情況者吁,不能一概而論窘俺。
4、上座率與票房的關(guān)系
- 上座率:即一部影片獲得觀眾人次的多少复凳,優(yōu)秀的影片上座率就高瘤泪,反之則低
為了方便對比,我在圖中加入了一條平均上座率的警戒線育八,其中上座率最高的是《我和我的祖國》对途、《我為你犧牲》,原因就不說了髓棋,大家應(yīng)該都明白实檀;其中比較奇怪的是《飛馳人生》、《新喜劇之王》按声、《攀登者》膳犹,上座率非常高,票房成績卻不如人意签则,應(yīng)該是得益于其導(dǎo)演须床、主演的號召力。
《流浪地球》上座率在平均值以上怀愧,無論從哪個角度看都是一部好電影侨颈,無懈可擊余赢。
值得欣慰的是芯义,上座率排名靠前的基本都是國產(chǎn)電影,看的出來國外電影尚不能滿足大多數(shù)人的口味妻柒。
5扛拨、做點其他分析
電影類型與上座率的關(guān)系
喜劇電影一騎絕塵,動畫電影黑馬突起举塔,科幻電影方興未艾绑警,驚悚抵代、懸疑胖眷、歷史等小眾題材的電影仍然慘淡無比。
顏色越深代表上座率越高藏杖,字體越大代表票房越高
陳凱歌現(xiàn)在雖然經(jīng)常被爛片之王所詬病芽丹,但是不得不說他的成績還是很不錯的北启,另外像寧浩、韓寒、郭帆咕村、陳國輝等人都是國產(chǎn)電影的希望场钉。