python爬蟲—豆瓣電影top250及數據可視化!

豆瓣電影top250榜單想必大家都不陌生,上榜的電影都是經過時間的沉淀留下來比較經典企巢。本次教程就是利用requests庫實現對于top250榜單電影數據爬取,并對爬取的數據繪制圖表進行可視化让蕾,做簡單的數據分析浪规。文章將分為兩個部分:top250數據爬取和數據可視化或听。

top250數據爬取:

首先笋婿,打開豆瓣電影top250的網頁誉裆,利用開發(fā)者工具對頁面的數據進行簡單的分析,用開發(fā)者選擇項來選取要提取的數據(電影名字缸濒、上映時間足丢、上映地區(qū)、評分庇配、電影主題標語等等)

其次斩跌,要爬取全部數據,需要實現翻頁功能讨永;這里提供兩種思路:第一種是每個頁面的url是類似的滔驶,都有相似的構造結構,因此這里可以利用for循環(huán)實現翻頁操作卿闹;第二種因為每一頁(除了最后一頁)都會有下一頁標簽揭糕,可以提取網頁源碼中標簽隱藏的 鏈接進而訪問。這里我采取的是第一種方式锻霎。

進而著角,后續(xù)我需要關于一些參演演員的名字,所以需要訪問每部電影的二級網頁旋恼,提取每部電影的導演和參演人員吏口;

最后,爬取的時候加一下相應的headers(User-Agent冰更、Cookies)产徊,設置一下爬取頻率(time.sleep(5))會更為保險一點。最終爬取結果如下:

數據可視化

為了后續(xù)更好實現數據可視化蜀细,我將取的數據儲存到mongodb中舟铜,將以電影評分、上映時間奠衔、上映地區(qū)谆刨、類型......方面來對這250部電影進行簡單的數據分析,這里實現可視化利用的是pyecharts包归斤。

這些經典電影的上映時間基本是從1990年開始到現在痊夭,每年都會產生一些不錯的電影,其中2010年上映的好片數量最多脏里,有13部之多(很尷尬她我,圖中的標題寫錯了)。

產生這個現象可能取決于兩個方面,一方面是源于制作電影技術的發(fā)展番舆,不僅在場景轉換根吁,還是特效加成方面都能給片子加一些不一樣的感覺;第二方面就是娛樂占比在人類社會中越來越大合蔽,當我們物質基本需求得到滿足時,就要轉向精神方面的層次介返,而對于電影的質量的追求也越來越高拴事。

這張圖展示的時豆瓣平臺給某一部電影評價的人數統(tǒng)計,這里我篩選出來了評價人數最多的20部的電影圣蝎;位居第一的是《肖申克的救贖》刃宵,共有1430010位網友評價;位于第最后一名的時《阿凡達》共有750249位網友評價驾胆。

從爬取的數據中對這些經典電影的導演做了一個簡單的統(tǒng)計放坏,對于導演作品數量進行了一個排名玫荣,取了前十名;本人對于導演大咖并不熟悉坦袍,在這個名單中只認識3名:宮崎駿作品7部(很牛),王家衛(wèi)5部(了不起)等太,李安4部(厚積薄發(fā))捂齐。

上圖是根據演員的參演作品數量做了一個“漏斗圖”,在這250部經典電影中缩抡,參演作品數量最多就是哥哥張國榮奠宜,一共8部之多,我們這個時代的偶像瞻想,接下來就是張曼玉压真,參演過7部,而星爺跟劉嘉玲一共參演過4部蘑险,在當今時代演員的標桿滴肿。

在獲取電影來源國家時,有些電影是兩個或兩個國家以上合拍的漠其,所以在統(tǒng)計時嘴高,每當涉及一個國家時我都會對這個國家出的作品加一。電影數量最多的產源地是美國和屎,共有138部拴驮,一方面時這個國家處于一個多元形態(tài),能夠碰撞不一樣的題材柴信,另一方面是美國的電影制作技術較為成熟套啤,能夠產出刺激視覺的片子;排在其后的是日本、英國等潜沦。

從上圖我們可以了解到愛情題材的電影一直影迷的最愛萄涯,壓力負行的時代喜劇題材的電影也變得越來越受歡迎,相對來說科幻戰(zhàn)爭的題材就不太符合大眾的口味(在這里猜測一下唆鸡,具有理性思維的工科男性還是比較喜歡這一題材)涝影。

最后以一張詞云圖來對這篇文章做個結尾,這張詞云圖收錄的是top250電影的全部qoute争占,也就是主題燃逻,這張圖并不是借助python模塊,是在wordArt網站上繪制的臂痕。

文中涉及所有源碼的獲取方式伯襟,關注公眾號:程序員大飛;后天回復關鍵詞:豆瓣top250即可握童。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末姆怪,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子澡绩,更是在濱河造成了極大的恐慌稽揭,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件肥卡,死亡現場離奇詭異淀衣,居然都是意外死亡,警方通過查閱死者的電腦和手機召调,發(fā)現死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進店門膨桥,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人唠叛,你說我怎么就攤上這事只嚣。” “怎么了艺沼?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵册舞,是天一觀的道長。 經常有香客問我障般,道長调鲸,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任挽荡,我火速辦了婚禮藐石,結果婚禮上,老公的妹妹穿的比我還像新娘定拟。我一直安慰自己于微,他們只是感情好,可當我...
    茶點故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著株依,像睡著了一般驱证。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上恋腕,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天抹锄,我揣著相機與錄音,去河邊找鬼荠藤。 笑死祈远,一個胖子當著我的面吹牛,可吹牛的內容都是我干的商源。 我是一名探鬼主播,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼谋减,長吁一口氣:“原來是場噩夢啊……” “哼牡彻!你這毒婦竟也來了?” 一聲冷哼從身側響起出爹,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤庄吼,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后严就,有當地人在樹林里發(fā)現了一具尸體总寻,經...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年梢为,在試婚紗的時候發(fā)現自己被綠了渐行。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡铸董,死狀恐怖祟印,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情粟害,我是刑警寧澤蕴忆,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布,位于F島的核電站悲幅,受9級特大地震影響套鹅,放射性物質發(fā)生泄漏。R本人自食惡果不足惜汰具,卻給世界環(huán)境...
    茶點故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一卓鹿、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧留荔,春花似錦减牺、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽肥隆。三九已至,卻和暖如春稚失,著一層夾襖步出監(jiān)牢的瞬間栋艳,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工句各, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留吸占,地道東北人。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓凿宾,卻偏偏與公主長得像矾屯,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子初厚,可洞房花燭夜當晚...
    茶點故事閱讀 42,877評論 2 345