簡易數(shù)據(jù)分析 05 | Web Scraper 翻頁——控制鏈接批量抓取數(shù)據(jù)

image

這是簡易數(shù)據(jù)分析系列的第 5 篇文章痛倚。

原文首發(fā)于博客園：Web Scraper 翻頁——控制鏈接批量抓取數(shù)據(jù)

上篇文章我們爬取了豆瓣電影 TOP250 前 25 個電影的數(shù)據(jù)酿箭，今天我們就要在原來的 Web Scraper 配置上做一些小改動，讓爬蟲把 250 條電影數(shù)據(jù)全部爬取下來。

前面我們同時說了踏烙，爬蟲的本質(zhì)就是找規(guī)律踢涌，當(dāng)初這些程序員設(shè)計(jì)網(wǎng)頁時，肯定會依循一些規(guī)則攘残，當(dāng)我們找到規(guī)律時拙友，就可以預(yù)測他們的行為，達(dá)到我們的目的肯腕。

今天我們就找找豆瓣網(wǎng)站的規(guī)律献宫，想辦法抓取全部數(shù)據(jù)。今天的規(guī)律就從常常被人忽略的網(wǎng)址鏈接開始实撒。

1.鏈接分析

我們先看看第一頁的豆瓣網(wǎng)址鏈接：

https://movie.douban.com/top250?start=0&filter=

https://movie.douban.com 這個很明顯就是個豆瓣的電影網(wǎng)址姊途，沒啥好說的
top250 這個一看就是網(wǎng)頁的內(nèi)容，豆瓣排名前 250 的電影知态，也沒啥好說的
? 后面有個start=0&filter= 捷兰，根據(jù)英語提示來看，好像是說篩選（filter）负敏，從 0 開始（start）

image

再看看第二頁的網(wǎng)址鏈接贡茅，前面都一樣，只有后面的參數(shù)變了其做，變成了 start=25顶考，從 25 開始；

image

我們再看看第三頁的鏈接妖泄，參數(shù)變成了 start=50驹沿，從 50 開始；

image

分析 3 個鏈接我們很容易得出規(guī)律：

start=0蹈胡，表示從排名第 1 的電影算起渊季，展示 1-25 的電影

start=25朋蔫，表示從排名第 26 的電影算起，展示 26-50 的電影

start=50却汉，表示從排名第 51 的電影算起驯妄，展示 51-75 的電影

…...

start=225，表示從排名第 226 的電影算起合砂，展示 226-250 的電影

規(guī)律找到了就好辦了青扔，只要技術(shù)提供支持就行。隨著深入學(xué)習(xí)既穆，你會發(fā)現(xiàn) Web Scraper 的操作并不是難點(diǎn)赎懦，最需要思考的其實(shí)還是這個找規(guī)律。

2.Web Scraper 控制鏈接參數(shù)翻頁

Web Scraper 針對這種通過超鏈接數(shù)字分頁獲取分頁數(shù)據(jù)的網(wǎng)頁幻工，提供了非常便捷的操作励两，那就是范圍指定器。

比如說你想抓取的網(wǎng)頁鏈接是這樣的：

http://example.com/page/1
http://example.com/page/2
http://example.com/page/3

你就可以寫成 http://example.com/page/[1-3]囊颅，把鏈接改成這樣当悔，Web Scraper 就會自動抓取這三個網(wǎng)頁的內(nèi)容。

當(dāng)然踢代，你也可以寫成 http://example.com/page/[1-100]盲憎，這樣就可以抓取前 100 個網(wǎng)頁。

那么像我們之前分析的豆瓣網(wǎng)頁呢胳挎？它不是從 1 到 100 遞增的饼疙，而是 0 -> 25 -> 50 -> 75 這樣每隔 25 跳的，這種怎么辦慕爬？

http://example.com/page/0
http://example.com/page/25
http://example.com/page/50

其實(shí)也很簡單窑眯，這種情況可以用 [0-100:25] 表示，每隔 25 是一個網(wǎng)頁医窿，100/25=4磅甩，爬取前 4 個網(wǎng)頁，放在豆瓣電影的情景下姥卢，我們只要把鏈接改成下面的樣子就行了卷要；

https://movie.douban.com/top250?start=[0-225:25]&filter=

這樣 Web Scraper 就會抓取 TOP250 的所有網(wǎng)頁了。

3.抓取數(shù)據(jù)

解決了鏈接的問題独榴，接下來就是如何在 Web Scraper 里修改鏈接了僧叉，很簡單，就點(diǎn)擊兩下鼠標(biāo)：

1.點(diǎn)擊 Stiemaps棺榔，在新的面板里點(diǎn)擊 ID 為 top250 的這列數(shù)據(jù)彪标；

image

2.進(jìn)入新的面板后，找到 Stiemap top250 這個 Tab掷豺，點(diǎn)擊捞烟，再點(diǎn)擊下拉菜單里的 Edit metadata；

image

3.修改原來的網(wǎng)址当船，圖中的紅框是不同之處：

image

修改好了超鏈接题画，我們重新抓取網(wǎng)頁就好了。操作和上文一樣德频，我這里就簡單復(fù)述一下：

點(diǎn)擊 Sitemap top250 下拉菜單里的 Scrape 按鈕
新的操作面板的兩個輸入框都輸入 2000
點(diǎn)擊 Start scraping 藍(lán)色按鈕開始抓取數(shù)據(jù)
抓取結(jié)束后點(diǎn)擊面板上的 refresh 藍(lán)色按鈕苍息，檢測我們抓取的數(shù)據(jù)

如果你操作到這里并抓取成功的話，你會發(fā)現(xiàn)數(shù)據(jù)是全部抓取下來了壹置，但是順序都是亂的竞思。

image

我們這里先不管順序問題，因?yàn)檫@個屬于數(shù)據(jù)清洗的內(nèi)容了钞护，我們現(xiàn)在的專題是數(shù)據(jù)抓取盖喷。先把相關(guān)的知識點(diǎn)講完，再攻克下一個知識點(diǎn)难咕，才是更合理的學(xué)習(xí)方式课梳。

這期講了通過修改超鏈接的方式抓取了 250 個電影的名字。下一期我們說一些簡單輕松的內(nèi)容換換腦子余佃，講講 Web Scraper 如何導(dǎo)入別人寫好的爬蟲文件暮刃，導(dǎo)出自己寫好的爬蟲軟件。

參考閱讀：

簡易數(shù)據(jù)分析 04 | Web Scraper 初嘗--抓取豆瓣高分電影

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末爆土，一起剝皮案震驚了整個濱河市椭懊，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌步势，老刑警劉巖氧猬，帶你破解...
沈念sama閱讀 217,734評論 6贊 505
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異立润，居然都是意外死亡狂窑，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,931評論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門桑腮，熙熙樓的掌柜王于貴愁眉苦臉地迎上來泉哈，“玉大人，你說我怎么就攤上這事破讨〈曰蓿” “怎么了？”我有些...
開封第一講書人閱讀 164,133評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵提陶，是天一觀的道長烫沙。經(jīng)常有香客問我，道長隙笆，這世上最難降的妖魔是什么锌蓄？我笑而不...
開封第一講書人閱讀 58,532評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任升筏，我火速辦了婚禮，結(jié)果婚禮上瘸爽，老公的妹妹穿的比我還像新娘您访。我一直安慰自己，他們只是感情好剪决，可當(dāng)我...
茶點(diǎn)故事閱讀 67,585評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布灵汪。她就那樣靜靜地躺著，像睡著了一般柑潦。火紅的嫁衣襯著肌膚如雪享言。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,462評論 1贊 302
城市分裂傳說
那天渗鬼，我揣著相機(jī)與錄音览露，去河邊找鬼。笑死乍钻，一個胖子當(dāng)著我的面吹牛肛循，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播银择，決...
沈念sama閱讀 40,262評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼多糠，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了浩考？” 一聲冷哼從身側(cè)響起夹孔，我...
開封第一講書人閱讀 39,153評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎析孽，沒想到半個月后搭伤，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,587評論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡袜瞬，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,792評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年怜俐，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片邓尤。...
茶點(diǎn)故事閱讀 39,919評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡拍鲤，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出汞扎，到底是詐尸還是另有隱情季稳，我是刑警寧澤，帶...
沈念sama閱讀 35,635評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布澈魄，位于F島的核電站景鼠，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏痹扇。R本人自食惡果不足惜铛漓，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,237評論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一溯香、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧票渠，春花似錦逐哈、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,855評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽禀梳。三九已至杜窄，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間算途，已是汗流浹背塞耕。一陣腳步聲響...
開封第一講書人閱讀 32,983評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留嘴瓤，地道東北人扫外。一個月前我還...
沈念sama閱讀 48,048評論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像廓脆，于是被迫代替她去往敵國和親筛谚。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,864評論 2贊 354

簡易數(shù)據(jù)分析 05 | Web Scraper 翻頁——控制鏈接批量抓取數(shù)據(jù)

1.鏈接分析

2.Web Scraper 控制鏈接參數(shù)翻頁

3.抓取數(shù)據(jù)

參考閱讀：

推薦閱讀更多精彩內(nèi)容