Kaggle5000部電影數(shù)據(jù)分析



1. 項(xiàng)目介紹

來(lái)自Kaggle社區(qū)上的數(shù)據(jù)集矫户,TMDB 5000 Movie Dataset溪王。


2. 提出問(wèn)題

a. 電影的類(lèi)型會(huì)隨著時(shí)間變化嗎?若變化睦疫,是如何變化的?

b. 對(duì)于不同的電影類(lèi)型鞭呕,支出與利潤(rùn)的關(guān)系是如何的蛤育?

c. 原創(chuàng)電影與改編電影的對(duì)比情況是如何的?


3. 數(shù)據(jù)分析

3.1 獲取數(shù)據(jù)

從Kaggle社區(qū)葫松,下載數(shù)據(jù)集瓦糕。

3.2 導(dǎo)入數(shù)據(jù)

3.3 查看數(shù)據(jù)

3.4 數(shù)據(jù)清洗

3.4.1 合并數(shù)據(jù)

3.4.2 留下需要的數(shù)據(jù)

根據(jù)前面所提出的問(wèn)題,只留下自己所關(guān)心的數(shù)據(jù)腋么,并添加一列 “利潤(rùn)” 數(shù)據(jù)咕娄,由收入減去支出獲得。

3.4.3 處理缺失值

整個(gè)數(shù)據(jù)較為完整珊擂,只有release_date列中缺失了一個(gè)數(shù)據(jù)圣勒,所以徐块,打算通過(guò)original_title搜索出其對(duì)應(yīng)的release_date。

3.4.3.1 定位缺失值

3.4.3.2 填補(bǔ)缺失值

3.4.4 轉(zhuǎn)換數(shù)據(jù)類(lèi)型

此數(shù)據(jù)集中包含json類(lèi)型灾而,是我之前沒(méi)有接觸過(guò)的胡控,便在網(wǎng)上借鑒了一些處理的方法。

將genres列中所包括的類(lèi)型存入genres_list中旁趟。

3.5 數(shù)據(jù)可視化

3.5.1?電影的類(lèi)型會(huì)隨著時(shí)間變化嗎昼激?若變化,是如何變化的锡搜?

把release_date列中的時(shí)間(年-月-日)轉(zhuǎn)換為 年 橙困。

向數(shù)據(jù)集中的列屬性中添加所有的電影類(lèi)別,1為此電影屬于此類(lèi)型耕餐,0則反之凡傅。

以年份為索引,電影類(lèi)型為列屬性肠缔,創(chuàng)建一個(gè)名為genre_year的dataframe夏跷。并以年為單位計(jì)算出各類(lèi)別之和。

降序排列各類(lèi)別之和明未。

電影類(lèi)型隨時(shí)間的變化趨勢(shì)槽华。

從圖中可看出,1915-1990內(nèi)各電影數(shù)量沒(méi)有多大的起伏趟妥,但從1990年之后有很多數(shù)量的電影開(kāi)始迅速增長(zhǎng)猫态。但還是有少數(shù)類(lèi)型增長(zhǎng)的速度并不迅速。整體來(lái)看披摄,不管什么類(lèi)型的電影亲雪,數(shù)量都呈上升趨勢(shì)。

電影類(lèi)型隨時(shí)間的變化趨勢(shì)(前5名)

由于第一張圖中電影類(lèi)型繁多疚膊,不容易區(qū)分是哪種電影的上升趨勢(shì)最迅猛义辕,故特地選取了在2005年中增長(zhǎng)速度最快的5種電影類(lèi)型。選取2005年的原因是酿联,大多數(shù)電影在這一年度都達(dá)到了頂峰终息,所以是最能代表變化趨勢(shì)的一年。如圖贞让,變化趨勢(shì)的前5名由快到慢的結(jié)果依次為Drama、Comedy柳譬、Thriller喳张、Romance和Action。

現(xiàn)在美澳,我們對(duì)各個(gè)電影類(lèi)型的數(shù)量隨年份的變化情況有了了解销部,那么摸航,從整體來(lái)看,到底哪個(gè)電影的類(lèi)型數(shù)量是最多的舅桩?


從圖中可看出酱虎,排名前5的類(lèi)型為Drama、Comedy擂涛、Thriller读串、Action和Romance。其中即使是排名前5的類(lèi)型中撒妈,每一類(lèi)型之間的差距也不算小恢暖。Drama類(lèi)穩(wěn)穩(wěn)的在榜首。

有意思的現(xiàn)象是狰右,電影總數(shù)量中的前5名與2005年度的前5名中的類(lèi)型是一模一樣的杰捂,說(shuō)明2005年度的快速發(fā)展幾乎奠定了之后的結(jié)果,可見(jiàn)2005年度的前后幾年對(duì)于電影業(yè)是個(gè)極其重要的一段時(shí)間棋蚌。


3.5.2 對(duì)于不同的電影類(lèi)型嫁佳,支出與利潤(rùn)的關(guān)系是如何的?

整理出各個(gè)電影類(lèi)型的平均支出谷暮、平均利潤(rùn)脱拼。

電影類(lèi)型與支出、利潤(rùn)的關(guān)系坷备。

圖中的信息完美地印證了一句話(huà)熄浓,要想得到高利潤(rùn)就要有高支出。除了Family類(lèi)的電影用了中上游的支出得到了高額的利潤(rùn)之外省撑,其他的類(lèi)型電影幾乎都是高付出和高利潤(rùn)一一對(duì)應(yīng)的赌蔑。

但請(qǐng)記住,圖中的信息是通過(guò)5000部的數(shù)據(jù)平均得出來(lái)的結(jié)果竟秫,你永遠(yuǎn)不知道如果你投資了一部電影娃惯,你是拉低平均數(shù)還是達(dá)到平均數(shù)水平亦或是超出平均數(shù)。平均得出來(lái)的結(jié)果肥败,只是決策中的參考趾浅,提供給我們的僅是一個(gè)較可靠的思路與方案。

3.5.3 原創(chuàng)電影與改編電影的對(duì)比情況是如何的馒稍?

keywords中的 ?‘based on novel’ ?可以幫助我們提取到需要的信息皿哨。同樣也涉及到了json。

原創(chuàng)電影與改編電影所占比例纽谒。


由圖可看出证膨,原創(chuàng)電影占據(jù)了幾乎所有的市場(chǎng),只有少部分為改編電影鼓黔⊙肜眨或許是因?yàn)楦木庪娪皶?huì)承擔(dān)過(guò)多的壓力不见,因?yàn)樵饕呀?jīng)有了一定的粉絲基礎(chǔ),在改編過(guò)程中稍加不慎就會(huì)不受粉絲待見(jiàn)崔步,眾口難調(diào)稳吮,且改編難度較大。

整理原創(chuàng)與改編電影的支出井濒、收入和利潤(rùn)灶似。

下圖由Excel畫(huà)出。

由圖可以看出眼虱,改編電影的支出要高于原創(chuàng)電影喻奥,且對(duì)應(yīng)的收入和利潤(rùn)也要高于原創(chuàng)電影。這也印證了之前得出的“高投資高利潤(rùn)”捏悬。

但是撞蚕,由于改編電影在這5000部電影的數(shù)據(jù)集中占得份額太少,鑒于以少量的數(shù)據(jù)得到的平均數(shù)沒(méi)有大量數(shù)據(jù)可靠过牙,這個(gè)分析的準(zhǔn)確性還有待商榷甥厦。不過(guò),絲毫不妨礙其參考價(jià)值寇钉。

4. 總結(jié)

1. 深刻的理解了 “所有的數(shù)據(jù)分析是建立在業(yè)務(wù)的理解上” 這句話(huà)刀疙。對(duì)電影行業(yè)的深刻理解會(huì)有助于此次數(shù)據(jù)分 ????析的深入探索。

2. 此次數(shù)據(jù)分析的目的實(shí)則是為了熟悉Python的用法扫倡,但在分析過(guò)程中谦秧,也有了其他的感悟。比如最后一個(gè)旋風(fēng)圖撵溃,我還沒(méi)有掌握如何用Python畫(huà)出此圖疚鲤,便使用了Excel。

? ? Python也好缘挑,Excel也罷集歇,都是幫助我們實(shí)現(xiàn)分析想法的工具,在不同的情境下要使用合適的工具去落實(shí)數(shù)據(jù) ????分析師的想法语淘。之前或多或少會(huì)有Python相比Excel很高大上的想法诲宇,但最近我越來(lái)越能感覺(jué)到Excel的強(qiáng)之處。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末惶翻,一起剝皮案震驚了整個(gè)濱河市姑蓝,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌维贺,老刑警劉巖它掂,帶你破解...
    沈念sama閱讀 218,755評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異溯泣,居然都是意外死亡虐秋,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,305評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)垃沦,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)客给,“玉大人,你說(shuō)我怎么就攤上這事肢簿“薪#” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,138評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵池充,是天一觀的道長(zhǎng)桩引。 經(jīng)常有香客問(wèn)我,道長(zhǎng)收夸,這世上最難降的妖魔是什么坑匠? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,791評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮卧惜,結(jié)果婚禮上厘灼,老公的妹妹穿的比我還像新娘。我一直安慰自己咽瓷,他們只是感情好设凹,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,794評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著茅姜,像睡著了一般闪朱。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上钻洒,一...
    開(kāi)封第一講書(shū)人閱讀 51,631評(píng)論 1 305
  • 那天奋姿,我揣著相機(jī)與錄音,去河邊找鬼航唆。 笑死胀蛮,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的糯钙。 我是一名探鬼主播粪狼,決...
    沈念sama閱讀 40,362評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼任岸!你這毒婦竟也來(lái)了再榄?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,264評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤享潜,失蹤者是張志新(化名)和其女友劉穎百揭,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體济蝉,經(jīng)...
    沈念sama閱讀 45,724評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評(píng)論 3 336
  • 正文 我和宋清朗相戀三年澜术,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片猬腰。...
    茶點(diǎn)故事閱讀 40,040評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡鸟废,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出姑荷,到底是詐尸還是另有隱情盒延,我是刑警寧澤,帶...
    沈念sama閱讀 35,742評(píng)論 5 346
  • 正文 年R本政府宣布鼠冕,位于F島的核電站添寺,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏懈费。R本人自食惡果不足惜计露,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,364評(píng)論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望楞捂。 院中可真熱鬧薄坏,春花似錦、人聲如沸寨闹。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,944評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)繁堡。三九已至沈善,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間椭蹄,已是汗流浹背闻牡。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,060評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留绳矩,地道東北人罩润。 一個(gè)月前我還...
    沈念sama閱讀 48,247評(píng)論 3 371
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像翼馆,于是被迫代替她去往敵國(guó)和親割以。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,979評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容