豆瓣網(wǎng)是一個(gè)國(guó)內(nèi)用戶(hù)分享交流電影而芥、書(shū)籍等文化活動(dòng)的社交平臺(tái)。該網(wǎng)站以書(shū)影音起家耕姊,提供關(guān)于書(shū)籍桶唐、電影、音樂(lè)等作品的信息茉兰,無(wú)論描述還是評(píng)論都由用戶(hù)提供(User-generated content尤泽,UGC),是Web 2.0網(wǎng)站中具有特色的一個(gè)網(wǎng)站规脸。
豆瓣電影評(píng)分的定位相當(dāng)于中國(guó)國(guó)內(nèi)的IMDb
(互聯(lián)網(wǎng)電影數(shù)據(jù)庫(kù))坯约,而其針對(duì)了國(guó)內(nèi)用戶(hù)區(qū)別于國(guó)外的文化差異、人群受眾莫鸭、網(wǎng)絡(luò)交流環(huán)境等各方面因素在電影評(píng)價(jià)上產(chǎn)生了一定的差異闹丐,能更貼切地反映國(guó)人對(duì)于電影的理解。
本文為豆瓣電影TOP250榜單的分析以及展示數(shù)據(jù)背后的意義被因。
目標(biāo)網(wǎng)頁(yè)地址
https://movie.douban.com/top250
項(xiàng)目流程如下:
- 數(shù)據(jù)收集 —— 運(yùn)用
Python
的requests
,lxml
等庫(kù)抓取豆瓣網(wǎng)頁(yè)數(shù)據(jù)卿拴,并導(dǎo)出為csv
文件作為數(shù)據(jù)庫(kù)。 - 數(shù)據(jù)處理 —— 使用
Python
的Numpy
,Pandas
庫(kù)整理數(shù)據(jù)梨与。 - 分析與展示 —— 根據(jù)處理后的數(shù)據(jù)做分析巍棱,并使用
matplotlib
和sklearn
庫(kù)做相應(yīng)的可視化展示與回歸分析,使得文章更直觀反映數(shù)據(jù)背后的意義蛋欣。 - 總結(jié) —— 作出結(jié)論航徙。
其中數(shù)據(jù)收集、處理這兩部分的文章內(nèi)容主要側(cè)重于技術(shù)實(shí)現(xiàn)陷虎,分析與展示這部分的內(nèi)容則相對(duì)側(cè)重可視化表現(xiàn)以及數(shù)據(jù)背后的意義到踏。