Ch2 爬蟲原理和網(wǎng)頁構(gòu)造

概要


將通過介紹網(wǎng)絡(luò)連接來解釋爬蟲的原理踪危,并使用Chrome瀏覽器認(rèn)識(shí)網(wǎng)頁構(gòu)造并查詢網(wǎng)頁信息笆怠。

主要涉及主要知識(shí)點(diǎn)如下:

  • 網(wǎng)絡(luò)連接:介紹網(wǎng)絡(luò)連接的基本過程铝耻。
  • 爬蟲原理:介紹爬蟲的基本原理和過程
  • Chrome瀏覽器:使用Chrome瀏覽器認(rèn)識(shí)網(wǎng)頁構(gòu)造和查詢網(wǎng)頁信息

正文


爬蟲原理

1.網(wǎng)絡(luò)連接

網(wǎng)絡(luò)連接像是在自動(dòng)飲料售貨機(jī)上購買飲料一樣:購買者只需選擇所需飲料,投入硬幣(或紙幣)蹬刷,自主飲料售貨機(jī)就會(huì)彈出相應(yīng)的商品瓢捉。

計(jì)算機(jī)(購買者)帶著請求頭和消息體(硬幣和所需飲料)向服務(wù)器(自助飲料售貨機(jī))發(fā)起一次Request請求(購買),相應(yīng)的服務(wù)器(自助飲料售貨機(jī))會(huì)返回本計(jì)算機(jī)相應(yīng)的HTML文件作為Response(相應(yīng)的商品)

這里是一個(gè)GET請求办成。

對于學(xué)習(xí)爬蟲技術(shù)泡态,讀者只需要知道最基本的網(wǎng)絡(luò)連接原理即可。計(jì)算機(jī)一次Request請求和服務(wù)器端的Response回應(yīng)诈火,即實(shí)現(xiàn)了網(wǎng)絡(luò)連接兽赁。計(jì)算機(jī)Request請求帶著的請求頭和消息體是什么以及網(wǎng)絡(luò)更底層的東西,不是本文介紹的范圍冷守。

2.爬蟲原理

了解網(wǎng)絡(luò)連接的基本原理后刀崖,爬蟲原理就好理解了。網(wǎng)絡(luò)連接需要計(jì)算機(jī)一次Request請求和服務(wù)器端的Response回應(yīng)拍摇。爬蟲也是需要做兩件事:

①模擬計(jì)算機(jī)對服務(wù)器發(fā)起Request請求亮钦。
②接收服務(wù)器端的Response內(nèi)容并解析、提取所需的信息充活。

但互聯(lián)網(wǎng)網(wǎng)頁錯(cuò)綜復(fù)雜蜂莉,一次的請求和回應(yīng)不能夠批量獲取網(wǎng)頁的數(shù)據(jù),這時(shí)就需要設(shè)計(jì)爬蟲的流程混卵,主要用到的兩種爬蟲所需的流程映穗,即多頁面和跨頁面爬蟲流程。

多頁面爬蟲流程

有的網(wǎng)頁存在多頁的情況幕随,每頁的網(wǎng)頁結(jié)構(gòu)都相同或類似蚁滋,這種類型的網(wǎng)頁爬蟲流程為:

  1. 手動(dòng)翻頁并觀察各網(wǎng)頁的URL構(gòu)成特點(diǎn),構(gòu)造出所有頁面的URL存入列表中赘淮。
  2. 根據(jù)URL列表依次循環(huán)取出URL
  3. 定義爬蟲函數(shù)
  4. 循環(huán)調(diào)用爬蟲函數(shù)辕录,存儲(chǔ)數(shù)據(jù)。
  5. 循環(huán)完畢梢卸,結(jié)束爬蟲程序走诞。

跨頁面爬蟲流程

列表頁和詳細(xì)頁

這種跨頁面的爬蟲程序流程為:

  1. 定義爬取函數(shù)爬取列表頁的所有專題的URL
  2. 將專題URL存入列表中(種子URL)
  3. 定義爬取詳細(xì)頁數(shù)據(jù)函數(shù)
  4. 進(jìn)入專題詳細(xì)頁面爬取詳細(xì)頁數(shù)據(jù)
  5. 存儲(chǔ)數(shù)據(jù),循環(huán)完畢蛤高,結(jié)束爬蟲程序

網(wǎng)頁構(gòu)造

通過Chrome瀏覽器的使用簡單介紹網(wǎng)頁的構(gòu)成蚣旱。

網(wǎng)頁構(gòu)造

現(xiàn)在打開任意一個(gè)網(wǎng)頁(http://bj.xiaozhu.com/),按F12碑幅,可以看到網(wǎng)頁的代碼:

現(xiàn)在來分析上圖,圖中左半部分為HTML文件姻锁,下半部分為CSS樣式枕赵,用<script></script>標(biāo)簽的是JavaScript代碼。用戶瀏覽的網(wǎng)頁就是瀏覽器渲染后的結(jié)果位隶,瀏覽器就像翻譯官拷窜,把HTML、CSS和JavaScript代碼進(jìn)行翻譯后得到用戶使用的網(wǎng)頁界面涧黄。如果把網(wǎng)頁比喻成房子的話篮昧,那么HTML為房子的框架和格局(幾室?guī)讖d),CSS就是房子的樣式(地板笋妥、房漆)懊昨,JavaScript就是房子中的電器。

3.查詢網(wǎng)頁信息

打開網(wǎng)頁(http://bj.xiaozhu.com/),右擊網(wǎng)頁空白處春宣,從彈出的快捷菜單中選擇“查看網(wǎng)頁源代碼”命令酵颁,即可查看該網(wǎng)頁的源代碼。

查看網(wǎng)頁源代碼

通過在指定元素上右擊月帝,然后選擇快捷菜單中的“檢查”命令躏惋,即可查看該元素在網(wǎng)頁源代碼中的具體位置。例如嚷辅,查看網(wǎng)頁(http://bj.xiaozhu.com/)中第一個(gè)租房的房價(jià)信息簿姨,如圖:

租房信息

把鼠標(biāo)光標(biāo)移至價(jià)格元素位置,右擊簸搞,從彈出的快捷菜單中選擇“檢查”命令扁位,即可查看鈣元素在網(wǎng)頁源代碼中的具體位置,如下圖:

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末趁俊,一起剝皮案震驚了整個(gè)濱河市域仇,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌寺擂,老刑警劉巖暇务,帶你破解...
    沈念sama閱讀 222,464評(píng)論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異沽讹,居然都是意外死亡般卑,警方通過查閱死者的電腦和手機(jī)武鲁,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,033評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門爽雄,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人沐鼠,你說我怎么就攤上這事挚瘟√舅” “怎么了?”我有些...
    開封第一講書人閱讀 169,078評(píng)論 0 362
  • 文/不壞的土叔 我叫張陵乘盖,是天一觀的道長焰檩。 經(jīng)常有香客問我,道長订框,這世上最難降的妖魔是什么析苫? 我笑而不...
    開封第一講書人閱讀 59,979評(píng)論 1 299
  • 正文 為了忘掉前任,我火速辦了婚禮穿扳,結(jié)果婚禮上衩侥,老公的妹妹穿的比我還像新娘。我一直安慰自己矛物,他們只是感情好茫死,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,001評(píng)論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著履羞,像睡著了一般峦萎。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上忆首,一...
    開封第一講書人閱讀 52,584評(píng)論 1 312
  • 那天爱榔,我揣著相機(jī)與錄音,去河邊找鬼雄卷。 笑死搓蚪,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的丁鹉。 我是一名探鬼主播妒潭,決...
    沈念sama閱讀 41,085評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼揣钦!你這毒婦竟也來了雳灾?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 40,023評(píng)論 0 277
  • 序言:老撾萬榮一對情侶失蹤冯凹,失蹤者是張志新(化名)和其女友劉穎谎亩,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體宇姚,經(jīng)...
    沈念sama閱讀 46,555評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡匈庭,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,626評(píng)論 3 342
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了浑劳。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片阱持。...
    茶點(diǎn)故事閱讀 40,769評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖魔熏,靈堂內(nèi)的尸體忽然破棺而出衷咽,到底是詐尸還是另有隱情鸽扁,我是刑警寧澤,帶...
    沈念sama閱讀 36,439評(píng)論 5 351
  • 正文 年R本政府宣布镶骗,位于F島的核電站桶现,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏鼎姊。R本人自食惡果不足惜骡和,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,115評(píng)論 3 335
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望相寇。 院中可真熱鬧即横,春花似錦、人聲如沸裆赵。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,601評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽战授。三九已至页藻,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間植兰,已是汗流浹背份帐。 一陣腳步聲響...
    開封第一講書人閱讀 33,702評(píng)論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留楣导,地道東北人废境。 一個(gè)月前我還...
    沈念sama閱讀 49,191評(píng)論 3 378
  • 正文 我出身青樓,卻偏偏與公主長得像筒繁,于是被迫代替她去往敵國和親噩凹。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,781評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容

  • 為什么要做爬蟲毡咏?都說現(xiàn)在是"大數(shù)據(jù)時(shí)代"驮宴,那數(shù)據(jù)從何而來? 企業(yè)產(chǎn)生的用戶數(shù)據(jù):百度指數(shù)呕缭、阿里指數(shù)堵泽、TBI騰訊瀏覽...
    FUNS大濕兄閱讀 414評(píng)論 0 0
  • 1 前言 網(wǎng)絡(luò)爬蟲一個(gè)總結(jié)。 2 何為網(wǎng)絡(luò)爬蟲恢总? 2.1 爬蟲場景 我們先自己想象一下平時(shí)到天貓商城購物(PC端)...
    叫我老村長閱讀 5,323評(píng)論 0 1
  • 需求是這樣的表格, 但是要做單選, 網(wǎng)上找了很多這樣的單選按鈕, 試了都不管用,所以自己就實(shí)現(xiàn)邏輯就可以了, 刪除...
    哼_(dá)閱讀 2,414評(píng)論 0 0
  • 記二零一九年夏迎罗。猝不及防,我大學(xué)畢業(yè)了片仿。坐在回家的火車上纹安,有點(diǎn)迷茫。我選擇了考研,不知道正確還是錯(cuò)誤钻蔑,家庭條件并沒...
    de33e6f0378a閱讀 120評(píng)論 0 0
  • 香港著名主持人梁繼璋說,“親人只有一次的緣分奸鸯,無論這輩子我和你會(huì)相處多久咪笑,你一定要珍惜共聚的時(shí)光。下輩子娄涩,無論我們...
    煙花雨落閱讀 259評(píng)論 0 0