<python3爬蟲>今日頭條圖集爬取(第一節(jié)）

打開今日頭日官網(wǎng)，在右側(cè)搜索欄輸入‘bilibili’蜀撑，在搜索頁選擇圖集選項，得到以下頁面：

image.png

從這個頁面中，我們可以看到有很多圖集蟹地，我們選擇一個圖集授翻，進入具體頁面：

image.png

這個頁面就是圖片的頁面了或悲，可以通過點擊圖片的右邊部分，切換到下一張圖片堪唐。
我們的任務(wù)就是抓取這些大圖（搜索頁面上的圖集都要抓妊灿铩），存儲到本地中淮菠。

那么男公，我們回到搜索頁面，點開兩個不同的圖集合陵，觀察他們url連接的區(qū)別：

image.png

我們看到兩個圖集連接前面都是www.toutiao.com枢赔，只有后面不同，是一串?dāng)?shù)字拥知，看起來像是id踏拜。那么到哪里獲取這條URL呢，肯定要從初始頁面中去找低剔。我們再回到搜索頁面速梗，查看網(wǎng)頁源代碼。按下ctrl+f搜索這串id數(shù)字襟齿，然而并沒有結(jié)果姻锁。因為這個頁面是使用ajex和JavaScript異步加載的。
我們按下F12打開chrome的調(diào)試界面蕊唐，選擇network選項屋摔，再選擇XHR選項。如果你之前沒有滑到頁面底部的話替梨，應(yīng)該是一片空白〉鍪裕現(xiàn)在滑到頁面底部，使之加載出下一頁內(nèi)容副瀑。這是XHR欄中會出現(xiàn)新的內(nèi)容弓熏，如下：

image.png

點擊name下的兩條鏈接。在右邊的RequestURL中可以看到完整的鏈接糠睡，比較兩條鏈接挽鞠，可以發(fā)現(xiàn)只有offset=后面的數(shù)字不同。offset：偏移量。所以信认，可以猜測這個參數(shù)起著標(biāo)志當(dāng)前頁面頁數(shù)的作用材义。然后我們復(fù)制這條url。輸入到瀏覽器的地址欄中嫁赏。

image.png

可以看到我們搜到了ID號其掂，現(xiàn)在有兩種方法獲取這個id號，第一種是使用json庫解析成python字典潦蝇，然后直接獲取id值款熬。第二種使用正則表達式獲取。這里我們選擇第一種攘乒。獲取id號后贤牛，我們就可以得到不同圖集的具體頁面了。
暫停一下则酝。我們先重新理一下上面的過程殉簸。
首先我們確定了要抓取的網(wǎng)頁：今日頭條的bilibili圖集。
先手動操作一遍沽讹，直到我們要抓取的目標(biāo)為止喂链，了解一下流程。再把這個流程寫成計算機的執(zhí)行流程：
獲取搜索頁面內(nèi)容>>獲取圖集地址>>獲取具體圖片的地址>>把圖片寫入硬盤中
第一部分就先到這里妥泉。接下來就是編寫代碼實現(xiàn)這個流程了

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末椭微，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子盲链，更是在濱河造成了極大的恐慌蝇率，老刑警劉巖，帶你破解...
沈念sama閱讀 212,686評論 6贊 492
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件刽沾，死亡現(xiàn)場離奇詭異本慕，居然都是意外死亡，警方通過查閱死者的電腦和手機侧漓，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,668評論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門锅尘，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人布蔗，你說我怎么就攤上這事藤违。” “怎么了纵揍？”我有些...
開封第一講書人閱讀 158,160評論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵顿乒，是天一觀的道長。經(jīng)常有香客問我泽谨，道長璧榄，這世上最難降的妖魔是什么特漩？我笑而不...
開封第一講書人閱讀 56,736評論 1贊 284
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮骨杂，結(jié)果婚禮上涂身，老公的妹妹穿的比我還像新娘。我一直安慰自己搓蚪，他們只是感情好访得，可當(dāng)我...
茶點故事閱讀 65,847評論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著陕凹，像睡著了一般。火紅的嫁衣襯著肌膚如雪鳄炉。梳的紋絲不亂的頭發(fā)上杜耙，一...
開封第一講書人閱讀 50,043評論 1贊 291
城市分裂傳說
那天，我揣著相機與錄音拂盯，去河邊找鬼佑女。笑死，一個胖子當(dāng)著我的面吹牛谈竿，可吹牛的內(nèi)容都是我干的团驱。我是一名探鬼主播，決...
沈念sama閱讀 39,129評論 3贊 410
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼空凸，長吁一口氣：“原來是場噩夢啊……” “哼嚎花！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起呀洲，我...
開封第一講書人閱讀 37,872評論 0贊 268
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤紊选，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后道逗，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體兵罢，經(jīng)...
沈念sama閱讀 44,318評論 1贊 303
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,645評論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年滓窍，在試婚紗的時候發(fā)現(xiàn)自己被綠了卖词。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 38,777評論 1贊 341
活死人
序言：一個原本活蹦亂跳的男人離奇死亡吏夯，死狀恐怖此蜈，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情噪生，我是刑警寧澤舶替，帶...
沈念sama閱讀 34,470評論 4贊 333
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站杠园，受9級特大地震影響顾瞪，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 40,126評論 3贊 317
男人毒藥：我在死后第九天來索命
文/蒙蒙一陈醒、第九天我趴在偏房一處隱蔽的房頂上張望惕橙。院中可真熱鬧，春花似錦钉跷、人聲如沸弥鹦。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,861評論 0贊 21
一樁弒父案爷辙，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽彬坏。三九已至，卻和暖如春膝晾，著一層夾襖步出監(jiān)牢的瞬間栓始，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,095評論 1贊 267
情欲美人皮
我被黑心中介騙來泰國打工血当，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留幻赚，地道東北人。一個月前我還...
沈念sama閱讀 46,589評論 2贊 362
代替公主和親
正文我出身青樓臊旭，卻偏偏與公主長得像落恼，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子离熏，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 43,687評論 2贊 351

<python3爬蟲>今日頭條圖集爬取(第一節(jié)）

推薦閱讀更多精彩內(nèi)容