爬蟲是一段自動(dòng)獲取網(wǎng)絡(luò)數(shù)據(jù)的程序,用于做搜索引擎等建邓,想做爬蟲得實(shí)現(xiàn)如下三部
(1).找到目標(biāo)URL
(2).根據(jù)URL發(fā)起請求
(3).解析響應(yīng)結(jié)果:
? ? a).提取目標(biāo)數(shù)據(jù)
? ? b).如何存在新的URL,進(jìn)一步提取(會(huì)執(zhí)行1-3這個(gè)循環(huán))
我們爬蟲使用python
爬蟲分為兩類:
通用爬蟲和聚焦爬蟲
通用爬蟲:通用爬蟲是瀏覽器的重要組成部分尔许,將互聯(lián)網(wǎng)上所有的網(wǎng)頁下載到本地睛低,做了一個(gè)鏡像備份,提取重要數(shù)據(jù)(過濾數(shù)據(jù),分詞磕昼,去廣告等等)
通用爬蟲的缺點(diǎn):
1.需要遵循robot協(xié)議:Robots協(xié)議(爬蟲協(xié)議卷雕、機(jī)器人協(xié)議等)的全稱是"網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn)"
2.搜索引擎返回的結(jié)果千篇一律沒有很好的針對行,不能鉤特殊的用戶群體返回對應(yīng)的數(shù)據(jù)
3.搜索引擎一般情況下獲取的是文本信息票从,處理圖像漫雕,音頻,視頻多媒體還是有困難的
聚焦爬蟲:是面向主題的爬蟲峰鄙,由需求產(chǎn)生的爬蟲浸间,在爬取網(wǎng)頁數(shù)據(jù)的時(shí)候,會(huì)對網(wǎng)頁數(shù)據(jù)進(jìn)行一些篩選吟榴,保只抓取和需求相關(guān)的數(shù)據(jù)魁蒜,以后我們更多的就是實(shí)現(xiàn)聚焦爬蟲
常見狀態(tài)碼:
100~199:表示服務(wù)器成功接收部分請求,要求客戶端繼續(xù)提交其余請求才能完成整個(gè)處理過程吩翻。
2xx:表示服務(wù)器成功接收請求并已完成整個(gè)處理過程兜看。
200(OK 請求成功)
3xx:為完成請求,客戶需進(jìn)一步細(xì)化請求狭瞎。例如:請求的資源已經(jīng)移動(dòng)一個(gè)新地址细移、 常用
301: 永久重定向
302:臨時(shí)重定向(所請求的頁面已經(jīng)臨時(shí)轉(zhuǎn)移至新的url)
4xx:客戶端的請求有錯(cuò)誤.
400:錯(cuò)誤請求,服務(wù)器無法解析請求
401:未授權(quán)脚作,沒有進(jìn)行身份驗(yàn)證
403:服務(wù)器拒絕訪問
404:服務(wù)器無法找到被請求的網(wǎng)頁
408:請求超時(shí)
5xx:服務(wù)器端出現(xiàn)錯(cuò)誤
500:服務(wù)器內(nèi)部錯(cuò)誤
501:服務(wù)器不具備完成請求的功能
503:服務(wù)器不可用