【小白學(xué)爬蟲連載(4)】-如何使用chrome分析目標網(wǎng)站

歡迎大家關(guān)注公眾號【哈希大數(shù)據(jù)】
引言
日常我們在瀏覽器中看到的網(wǎng)頁都是很漂亮很規(guī)整的如圖1猛铅,但我們爬取到的網(wǎng)頁源代碼卻是一個很繁雜的文件如圖2卦洽,想要精準找到我們需要提前的信息乱投,首先需要借助瀏覽器寄悯,對目標網(wǎng)站進行分析蛾方。接下來我將分析365淘房網(wǎng)為例骤公,對該過程進行詳細的介紹抚官。

image

圖1 網(wǎng)頁展示

image

圖2 網(wǎng)頁對應(yīng)源代碼

利用chrome瀏覽器分析365淘房網(wǎng)租房頁面的流程如下:

1、打開瀏覽器阶捆,進入目標網(wǎng)站

目標站點為:http://nj.rent.house365.com/district/dl_j3-kw%E5%A4%A9%E9%9A%86%E5%AF%BA%E5%9C%B0%E9%93%81%E7%AB%99.html

image

2凌节、“檢查”目標站點

在網(wǎng)頁中右鍵點擊檢查钦听,或者F12快捷鍵(可能是Fn+F12),進入如下圖的查看元素頁面,你開始打開后解析部分可能位于頁面右側(cè)倍奢,下圖紅框標注的地方可以修改彪见,其中Elements顯示的便是網(wǎng)頁的源代碼,另一個很重要的部分是Network,在以后的分享中會詳細介紹娱挨。

image

3余指、利用chrome查找需要提取信息的位置
接下來首先點擊下圖中紅色方框選中的按鈕,然后當你的鼠標停留在網(wǎng)頁中的某個內(nèi)容上時跷坝,Elements中會定位到該內(nèi)容在源代碼中的位置酵镜,如下圖所示,我們知道需要提取的內(nèi)容其位置及結(jié)構(gòu)后便能用正則表達式或其他解析庫提取信息啦柴钻。不過在開始提取信息前我們還要做一個檢查淮韭。

image

4、檢查的詳細步驟
檢查時要做的是如圖所示分為8步贴届,第一點擊Network靠粪,第二勾選Preserve log,第三點擊Doc毫蚓,第四點擊清理按鈕占键,第五刷新頁面,第六點擊網(wǎng)址鏈接元潘,第七選中Response畔乙。第八步需要檢查在Response中,能否搜索到你想要的的信息翩概,用Ctrl+F快捷鍵搜索牲距。如果能搜索到便可以開始編寫我們的爬蟲啦。如果搜索不到钥庇,可能你需要爬取的信息是JS動態(tài)加載的牍鞠,爬取它需要采用模擬瀏覽器的方式,這樣的情況咱們后面再討論评姨。

image
image

5难述、小結(jié)
本文章主要介紹了如何利用chrome瀏覽器幫助我們解析目標站點,主要利用chrome的檢查功能参咙,分析網(wǎng)頁結(jié)構(gòu)龄广,定位網(wǎng)頁內(nèi)容硫眯。檢查網(wǎng)頁為靜態(tài)還是為JS動態(tài)生成的蕴侧。檢查步驟可分為8步,第一點擊Network两入,第二勾選Preserve log净宵,第三點擊Doc,第四點擊清理按鈕,第五刷新頁面择葡,第六點擊網(wǎng)址鏈接紧武,第七選中Response。第八步在Response中敏储,搜索你想要爬取的的信息阻星,用Ctrl+F快捷鍵搜索,如果能搜索到便可以開始編寫我們的爬蟲已添。

快速解析網(wǎng)頁也是每個爬蟲小能手的必備技能妥箕,希望大家多多練習(xí),有什么問題歡迎在留言區(qū)留言更舞。下次分享我們將進行我們的第一個實戰(zhàn)訓(xùn)練——爬取365租房網(wǎng)的租房信息畦幢。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市缆蝉,隨后出現(xiàn)的幾起案子宇葱,更是在濱河造成了極大的恐慌,老刑警劉巖刊头,帶你破解...
    沈念sama閱讀 219,270評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件黍瞧,死亡現(xiàn)場離奇詭異,居然都是意外死亡原杂,警方通過查閱死者的電腦和手機雷逆,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,489評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來污尉,“玉大人膀哲,你說我怎么就攤上這事”煌耄” “怎么了某宪?”我有些...
    開封第一講書人閱讀 165,630評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長锐朴。 經(jīng)常有香客問我兴喂,道長,這世上最難降的妖魔是什么焚志? 我笑而不...
    開封第一講書人閱讀 58,906評論 1 295
  • 正文 為了忘掉前任衣迷,我火速辦了婚禮,結(jié)果婚禮上酱酬,老公的妹妹穿的比我還像新娘壶谒。我一直安慰自己,他們只是感情好膳沽,可當我...
    茶點故事閱讀 67,928評論 6 392
  • 文/花漫 我一把揭開白布汗菜。 她就那樣靜靜地躺著让禀,像睡著了一般。 火紅的嫁衣襯著肌膚如雪陨界。 梳的紋絲不亂的頭發(fā)上巡揍,一...
    開封第一講書人閱讀 51,718評論 1 305
  • 那天,我揣著相機與錄音菌瘪,去河邊找鬼腮敌。 笑死,一個胖子當著我的面吹牛俏扩,可吹牛的內(nèi)容都是我干的缀皱。 我是一名探鬼主播,決...
    沈念sama閱讀 40,442評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼动猬,長吁一口氣:“原來是場噩夢啊……” “哼啤斗!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起赁咙,我...
    開封第一講書人閱讀 39,345評論 0 276
  • 序言:老撾萬榮一對情侶失蹤钮莲,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后彼水,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體崔拥,經(jīng)...
    沈念sama閱讀 45,802評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,984評論 3 337
  • 正文 我和宋清朗相戀三年凤覆,在試婚紗的時候發(fā)現(xiàn)自己被綠了链瓦。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,117評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡盯桦,死狀恐怖慈俯,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情拥峦,我是刑警寧澤贴膘,帶...
    沈念sama閱讀 35,810評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站略号,受9級特大地震影響刑峡,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜玄柠,卻給世界環(huán)境...
    茶點故事閱讀 41,462評論 3 331
  • 文/蒙蒙 一突梦、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧羽利,春花似錦宫患、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,011評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽俏讹。三九已至当宴,卻和暖如春畜吊,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背户矢。 一陣腳步聲響...
    開封第一講書人閱讀 33,139評論 1 272
  • 我被黑心中介騙來泰國打工玲献, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人梯浪。 一個月前我還...
    沈念sama閱讀 48,377評論 3 373
  • 正文 我出身青樓捌年,卻偏偏與公主長得像,于是被迫代替她去往敵國和親挂洛。 傳聞我的和親對象是個殘疾皇子礼预,可洞房花燭夜當晚...
    茶點故事閱讀 45,060評論 2 355

推薦閱讀更多精彩內(nèi)容