1. 項(xiàng)目介紹
來(lái)自Kaggle社區(qū)上的數(shù)據(jù)集矫户,TMDB 5000 Movie Dataset溪王。
2. 提出問(wèn)題
a. 電影的類(lèi)型會(huì)隨著時(shí)間變化嗎?若變化睦疫,是如何變化的?
b. 對(duì)于不同的電影類(lèi)型鞭呕,支出與利潤(rùn)的關(guān)系是如何的蛤育?
c. 原創(chuàng)電影與改編電影的對(duì)比情況是如何的?
3. 數(shù)據(jù)分析
3.1 獲取數(shù)據(jù)
從Kaggle社區(qū)葫松,下載數(shù)據(jù)集瓦糕。
3.2 導(dǎo)入數(shù)據(jù)
3.3 查看數(shù)據(jù)
3.4 數(shù)據(jù)清洗
3.4.1 合并數(shù)據(jù)
3.4.2 留下需要的數(shù)據(jù)
根據(jù)前面所提出的問(wèn)題,只留下自己所關(guān)心的數(shù)據(jù)腋么,并添加一列 “利潤(rùn)” 數(shù)據(jù)咕娄,由收入減去支出獲得。
3.4.3 處理缺失值
整個(gè)數(shù)據(jù)較為完整珊擂,只有release_date列中缺失了一個(gè)數(shù)據(jù)圣勒,所以徐块,打算通過(guò)original_title搜索出其對(duì)應(yīng)的release_date。
3.4.3.1 定位缺失值
3.4.3.2 填補(bǔ)缺失值
3.4.4 轉(zhuǎn)換數(shù)據(jù)類(lèi)型
此數(shù)據(jù)集中包含json類(lèi)型灾而,是我之前沒(méi)有接觸過(guò)的胡控,便在網(wǎng)上借鑒了一些處理的方法。
將genres列中所包括的類(lèi)型存入genres_list中旁趟。
3.5 數(shù)據(jù)可視化
3.5.1?電影的類(lèi)型會(huì)隨著時(shí)間變化嗎昼激?若變化,是如何變化的锡搜?
把release_date列中的時(shí)間(年-月-日)轉(zhuǎn)換為 年 橙困。
向數(shù)據(jù)集中的列屬性中添加所有的電影類(lèi)別,1為此電影屬于此類(lèi)型耕餐,0則反之凡傅。
以年份為索引,電影類(lèi)型為列屬性肠缔,創(chuàng)建一個(gè)名為genre_year的dataframe夏跷。并以年為單位計(jì)算出各類(lèi)別之和。
降序排列各類(lèi)別之和明未。
電影類(lèi)型隨時(shí)間的變化趨勢(shì)槽华。
從圖中可看出,1915-1990內(nèi)各電影數(shù)量沒(méi)有多大的起伏趟妥,但從1990年之后有很多數(shù)量的電影開(kāi)始迅速增長(zhǎng)猫态。但還是有少數(shù)類(lèi)型增長(zhǎng)的速度并不迅速。整體來(lái)看披摄,不管什么類(lèi)型的電影亲雪,數(shù)量都呈上升趨勢(shì)。
電影類(lèi)型隨時(shí)間的變化趨勢(shì)(前5名)
由于第一張圖中電影類(lèi)型繁多疚膊,不容易區(qū)分是哪種電影的上升趨勢(shì)最迅猛义辕,故特地選取了在2005年中增長(zhǎng)速度最快的5種電影類(lèi)型。選取2005年的原因是酿联,大多數(shù)電影在這一年度都達(dá)到了頂峰终息,所以是最能代表變化趨勢(shì)的一年。如圖贞让,變化趨勢(shì)的前5名由快到慢的結(jié)果依次為Drama、Comedy柳譬、Thriller喳张、Romance和Action。
現(xiàn)在美澳,我們對(duì)各個(gè)電影類(lèi)型的數(shù)量隨年份的變化情況有了了解销部,那么摸航,從整體來(lái)看,到底哪個(gè)電影的類(lèi)型數(shù)量是最多的舅桩?
從圖中可看出酱虎,排名前5的類(lèi)型為Drama、Comedy擂涛、Thriller读串、Action和Romance。其中即使是排名前5的類(lèi)型中撒妈,每一類(lèi)型之間的差距也不算小恢暖。Drama類(lèi)穩(wěn)穩(wěn)的在榜首。
有意思的現(xiàn)象是狰右,電影總數(shù)量中的前5名與2005年度的前5名中的類(lèi)型是一模一樣的杰捂,說(shuō)明2005年度的快速發(fā)展幾乎奠定了之后的結(jié)果,可見(jiàn)2005年度的前后幾年對(duì)于電影業(yè)是個(gè)極其重要的一段時(shí)間棋蚌。
3.5.2 對(duì)于不同的電影類(lèi)型嫁佳,支出與利潤(rùn)的關(guān)系是如何的?
整理出各個(gè)電影類(lèi)型的平均支出谷暮、平均利潤(rùn)脱拼。
電影類(lèi)型與支出、利潤(rùn)的關(guān)系坷备。
圖中的信息完美地印證了一句話(huà)熄浓,要想得到高利潤(rùn)就要有高支出。除了Family類(lèi)的電影用了中上游的支出得到了高額的利潤(rùn)之外省撑,其他的類(lèi)型電影幾乎都是高付出和高利潤(rùn)一一對(duì)應(yīng)的赌蔑。
但請(qǐng)記住,圖中的信息是通過(guò)5000部的數(shù)據(jù)平均得出來(lái)的結(jié)果竟秫,你永遠(yuǎn)不知道如果你投資了一部電影娃惯,你是拉低平均數(shù)還是達(dá)到平均數(shù)水平亦或是超出平均數(shù)。平均得出來(lái)的結(jié)果肥败,只是決策中的參考趾浅,提供給我們的僅是一個(gè)較可靠的思路與方案。
3.5.3 原創(chuàng)電影與改編電影的對(duì)比情況是如何的馒稍?
keywords中的 ?‘based on novel’ ?可以幫助我們提取到需要的信息皿哨。同樣也涉及到了json。
原創(chuàng)電影與改編電影所占比例纽谒。
由圖可看出证膨,原創(chuàng)電影占據(jù)了幾乎所有的市場(chǎng),只有少部分為改編電影鼓黔⊙肜眨或許是因?yàn)楦木庪娪皶?huì)承擔(dān)過(guò)多的壓力不见,因?yàn)樵饕呀?jīng)有了一定的粉絲基礎(chǔ),在改編過(guò)程中稍加不慎就會(huì)不受粉絲待見(jiàn)崔步,眾口難調(diào)稳吮,且改編難度較大。
整理原創(chuàng)與改編電影的支出井濒、收入和利潤(rùn)灶似。
下圖由Excel畫(huà)出。
由圖可以看出眼虱,改編電影的支出要高于原創(chuàng)電影喻奥,且對(duì)應(yīng)的收入和利潤(rùn)也要高于原創(chuàng)電影。這也印證了之前得出的“高投資高利潤(rùn)”捏悬。
但是撞蚕,由于改編電影在這5000部電影的數(shù)據(jù)集中占得份額太少,鑒于以少量的數(shù)據(jù)得到的平均數(shù)沒(méi)有大量數(shù)據(jù)可靠过牙,這個(gè)分析的準(zhǔn)確性還有待商榷甥厦。不過(guò),絲毫不妨礙其參考價(jià)值寇钉。
4. 總結(jié)
1. 深刻的理解了 “所有的數(shù)據(jù)分析是建立在業(yè)務(wù)的理解上” 這句話(huà)刀疙。對(duì)電影行業(yè)的深刻理解會(huì)有助于此次數(shù)據(jù)分 ????析的深入探索。
2. 此次數(shù)據(jù)分析的目的實(shí)則是為了熟悉Python的用法扫倡,但在分析過(guò)程中谦秧,也有了其他的感悟。比如最后一個(gè)旋風(fēng)圖撵溃,我還沒(méi)有掌握如何用Python畫(huà)出此圖疚鲤,便使用了Excel。
? ? Python也好缘挑,Excel也罷集歇,都是幫助我們實(shí)現(xiàn)分析想法的工具,在不同的情境下要使用合適的工具去落實(shí)數(shù)據(jù) ????分析師的想法语淘。之前或多或少會(huì)有Python相比Excel很高大上的想法诲宇,但最近我越來(lái)越能感覺(jué)到Excel的強(qiáng)之處。