歡迎大家關(guān)注公眾號【哈希大數(shù)據(jù)】
引言
日常我們在瀏覽器中看到的網(wǎng)頁都是很漂亮很規(guī)整的如圖1猛铅,但我們爬取到的網(wǎng)頁源代碼卻是一個很繁雜的文件如圖2卦洽,想要精準找到我們需要提前的信息乱投,首先需要借助瀏覽器寄悯,對目標網(wǎng)站進行分析蛾方。接下來我將分析365淘房網(wǎng)為例骤公,對該過程進行詳細的介紹抚官。
圖1 網(wǎng)頁展示
圖2 網(wǎng)頁對應(yīng)源代碼
利用chrome瀏覽器分析365淘房網(wǎng)租房頁面的流程如下:
1、打開瀏覽器阶捆,進入目標網(wǎng)站
2凌节、“檢查”目標站點
在網(wǎng)頁中右鍵點擊檢查钦听,或者F12快捷鍵(可能是Fn+F12),進入如下圖的查看元素頁面,你開始打開后解析部分可能位于頁面右側(cè)倍奢,下圖紅框標注的地方可以修改彪见,其中Elements顯示的便是網(wǎng)頁的源代碼,另一個很重要的部分是Network,在以后的分享中會詳細介紹娱挨。
3余指、利用chrome查找需要提取信息的位置
接下來首先點擊下圖中紅色方框選中的按鈕,然后當你的鼠標停留在網(wǎng)頁中的某個內(nèi)容上時跷坝,Elements中會定位到該內(nèi)容在源代碼中的位置酵镜,如下圖所示,我們知道需要提取的內(nèi)容其位置及結(jié)構(gòu)后便能用正則表達式或其他解析庫提取信息啦柴钻。不過在開始提取信息前我們還要做一個檢查淮韭。
4、檢查的詳細步驟
檢查時要做的是如圖所示分為8步贴届,第一點擊Network靠粪,第二勾選Preserve log,第三點擊Doc毫蚓,第四點擊清理按鈕占键,第五刷新頁面,第六點擊網(wǎng)址鏈接元潘,第七選中Response畔乙。第八步需要檢查在Response中,能否搜索到你想要的的信息翩概,用Ctrl+F快捷鍵搜索牲距。如果能搜索到便可以開始編寫我們的爬蟲啦。如果搜索不到钥庇,可能你需要爬取的信息是JS動態(tài)加載的牍鞠,爬取它需要采用模擬瀏覽器的方式,這樣的情況咱們后面再討論评姨。
5难述、小結(jié)
本文章主要介紹了如何利用chrome瀏覽器幫助我們解析目標站點,主要利用chrome的檢查功能参咙,分析網(wǎng)頁結(jié)構(gòu)龄广,定位網(wǎng)頁內(nèi)容硫眯。檢查網(wǎng)頁為靜態(tài)還是為JS動態(tài)生成的蕴侧。檢查步驟可分為8步,第一點擊Network两入,第二勾選Preserve log净宵,第三點擊Doc,第四點擊清理按鈕,第五刷新頁面择葡,第六點擊網(wǎng)址鏈接紧武,第七選中Response。第八步在Response中敏储,搜索你想要爬取的的信息阻星,用Ctrl+F快捷鍵搜索,如果能搜索到便可以開始編寫我們的爬蟲已添。
快速解析網(wǎng)頁也是每個爬蟲小能手的必備技能妥箕,希望大家多多練習(xí),有什么問題歡迎在留言區(qū)留言更舞。下次分享我們將進行我們的第一個實戰(zhàn)訓(xùn)練——爬取365租房網(wǎng)的租房信息畦幢。