前幾天接觸了一下pyspider,最近又在復習pandas,所以打算拿豆瓣的數(shù)據(jù)來練練手砂心。
這次我的目標是分析一下豆瓣2016年國產(chǎn)影視劇的情況,所以我以標簽的方式來抓取影視勆咭(2016+中國)辩诞,但是不得不讓我吐槽的是,豆瓣對標簽的使用還是有些不太嚴謹纺涤,有些老電影也會打上2016年的標簽译暂,有些明明是中國拍的卻沒有帶“中國”的標簽,比如“爵跡”洒琢。所以我不得的進行數(shù)據(jù)清洗秧秉,去掉了不是2016年的影視劇, 也人工篩選了一部分帶有中國標簽的,但主要由國外制作的影視勊ヒ帧(比如功夫熊貓)象迎。至于“爵跡”這類因為沒有中國標簽而無法抓取的影片這次就先暫不考慮。
更新:發(fā)現(xiàn)用制片地區(qū)信息來判斷是否國產(chǎn)比用標簽判斷更準確,所以重新抓取了2016的所有影視劇作品數(shù)據(jù)砾淌,保留了制片地區(qū)優(yōu)先為中國的電影(比如功夫熊貓這種是“美國/中國”啦撮,這種情況就排除,只有中國/美國的時候才認為是國產(chǎn)影視勍舫)赃春,這樣上述提到過一些遺漏的影視劇也被重新包括了。
整體評分分布
在有效的644部影視節(jié)目中劫乱,最低分2.2分织中,從直方圖來看,其實分布還算均勻衷戈,9-10分影視劇作品偏少狭吼。
前二十和后二十名
豆瓣電影中有兩個主要變量可以影視劇作品的表現(xiàn)——得分和評分人數(shù)。我決定按照這兩項表現(xiàn)取對數(shù)之和作為參考標注殖妇,做出一個2016年國產(chǎn)影視劇排行榜刁笙。最終,前二十的影視劇作品如下(“index”就是我新建的指數(shù)):
4/10/2017修正:之前index取值方法是rate和audience取對數(shù)谦趣,但實際情況還是audience對排名比重影響最大疲吸,所以用極大極小值重新歸一化,將rate和audience的取值范圍限定于0到1之內(nèi)前鹅,所以前二十和后二十都有略微變化摘悴。
基本上2016年好的片子都排進前20了,整體評分也都較高嫡纠,不過前二十中也出現(xiàn)了擺渡人長城這種得分較低的片子(可憐的王導張導)烦租,但是由于觀眾數(shù)量很大延赌,所以也能擠入這個榜單除盏。再來看一下倒數(shù)前20的影視劇作品,反正我是一部都沒看過(不過有些名字看著挺刺激的):
更新:因為發(fā)現(xiàn)后二十的影片實在是觀影人數(shù)太少了挫以,所以取了第一四分位數(shù) (Q1)——225人者蠕,225人以上的影片才考慮,所以最新的后二十如下:
更新后的后二十排行榜比之前更為靠譜掐松,均是些低分電影踱侣。
類型分析
豆瓣電影中對影視劇作的類型分析還是比較正規(guī)的,但是有一個問題大磺,一部作品可以有多個類型抡句。比如既是劇情片,又是科幻片杠愧,還可能是愛情片待榔。一開始我想取每部電影的第一個類型作為它的類型,但又考慮到大多數(shù)影視劇的第一個類型往往是劇情類,這么做可能會減少電影類型的多樣化锐锣,所以最后對于電影類型的分析我就直接按照類型名分類腌闯,不做額外處理。
從這張餅圖中我們可以看出雕憔,2016年影視劇作品中劇情片數(shù)量最多姿骏,愛情其次,喜劇第三斤彼,值得注意的是第四名的真人秀分瘦。
在觀影人數(shù)方面(評分人數(shù)),犯罪片琉苇,動作片擅腰,奇幻片獲得前三。
在的平均得分方面翁潘,紀錄片平均得分最高趁冈,傳記其次,脫口秀拜马,戲曲渗勘,短片也有比較多的好評,得分最差的是恐怖片俩莽,驚悚片和情色片旺坠。
導演
再來看看排名前二十的導演:
基本上這個排名和之前的影視劇排名類似,除了個別導演一年內(nèi)出了兩部作品扮超,導致了排名上下有波動取刃。周星馳憑借著美人魚成為成為了2016年指數(shù)最高的導演。按照慣例出刷,我們來認識下指數(shù)后二十導演璧疗。
更新:導演指數(shù)后二十也做了調(diào)整
演員
上圖是不同演員的整體情況圖,大部分的演員平均作品得分集中在6分左右馁龟。圓圈的大小表示2016年的作品數(shù)量崩侠,圓圈越大,說明2016的作品越多坷檩。嗯却音,最大的那個圓圈就是薛之謙。我們來看看哪個演藝圈明星在2016年最忙:
因為選取了單年的數(shù)據(jù)矢炼,所以演員的指數(shù)排名基本和影視指數(shù)排名相似系瓢,前幾名的都是出演指數(shù)最高影視劇的演員,比如美人魚句灌,驢得水滴铅,大魚海棠,七月與安生和火鍋英雄的演員违柏。不過候址,我統(tǒng)計了下出演作品大于2的演員情況:
后續(xù)研究
- 重新抓取后的數(shù)據(jù)包括了所有地區(qū)國家,下次有機會按照國別對數(shù)據(jù)再來進行研究。
- 這次只是研究了2016的整體情況,并沒有研究不同年份之間的數(shù)據(jù),下次可以從時間維度方面對影視劇的數(shù)據(jù)進行研究枷邪。