http://www.cnblogs.com/mafeng/p/5651323.html
技巧:https://sanwen8.cn/p/40f652M.html
開發(fā)筆記:
爬蟲原理:
分為數(shù)據(jù)采集抱完、處理蔚舀、存儲
傳統(tǒng)爬蟲是拿幾個頁面當(dāng)初始頁面,獲取頁面的url吃粒,當(dāng)url到達指定數(shù)量潦俺,開始爬去
爬蟲架構(gòu):
啟動程序(提供需要分析的初始頁面):
負責(zé)把初始信息交由控制器處理
控制器(爬蟲、多線程徐勃、爬去網(wǎng)頁內(nèi)容):
爬取所有url頁面事示。
算法:廣度優(yōu)先算法,深度優(yōu)先算法
解析器(過濾空格僻肖、CSS肖爵、js、HTML標(biāo)簽):
解析爬取下來的頁面
資源庫(數(shù)據(jù)存儲:elasticsearch檐涝、redis遏匆、mysql) :
保存解析后的數(shù)據(jù)
小貼士:
關(guān)于為什么要使用DNS先解析URL:
在用戶請求一個網(wǎng)頁時輸入域名,域名服務(wù)器會自動轉(zhuǎn)換為IP地址谁榜,如果爬蟲每次爬去的網(wǎng)頁都在同一個域名下幅聘,那么每次解析的開銷會非常大,浪費時間窃植。
什么是深度優(yōu)先算法帝蒿,優(yōu)點挖得深,缺點:
根據(jù)起始頁獲取來的一個鏈接一直跟下去巷怜,直到處理完當(dāng)前這條線路葛超,在專向下一個起始頁的鏈接。