1,大叔據(jù)時代數(shù)據(jù)產(chǎn)生:
(1)大的公司大的企業(yè):通過用戶產(chǎn)生的數(shù)據(jù)
(2)大的數(shù)據(jù)平臺:通過手機或者和其他企業(yè)或者公司合作
(3)國家政府(or)大的機構(gòu):通過省縣鄉(xiāng)或者其他方式統(tǒng)計匯總產(chǎn)生
(4)數(shù)據(jù)咨詢公司:通過手機或者和其他企業(yè)或者公司合作昧甘,會根據(jù)數(shù)據(jù)做分析對比形成報表封孙,給你做數(shù)據(jù)參考
2,什么是爬蟲:就是一段自動獲取互聯(lián)網(wǎng)數(shù)據(jù)的程序
3,爬蟲有什么用途?
搜索引擎
比價工具(慧慧購物助手)
大的咨詢網(wǎng)站(jobbole,今日頭條...)
4际乘,爬蟲分為倆類:
(1)通用爬蟲:通用爬蟲是瀏覽器的重要組成部分,將互聯(lián)網(wǎng)上所有的網(wǎng)頁下載到本地, 鏡像備份,提取重要數(shù)據(jù)(過濾數(shù)據(jù),分詞,去廣告...)
(2)??? 聚焦爬蟲:是面向主題的怕黑從,由需求產(chǎn)生的,是一種定向的爬蟲,載爬去網(wǎng)頁數(shù)據(jù)的時候,會對網(wǎng)頁數(shù)據(jù)進行一些
篩選,保證只抓取和需求相關(guān)的數(shù)據(jù)
5,通用爬蟲(搜索引擎)的缺點:
(1)需要遵循robot協(xié)議:Robots協(xié)議(也稱為爬蟲協(xié)議忿危,機器人協(xié)議等)的全稱是"網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn)"
(2)搜索引擎返回的結(jié)果千篇一律沒有很好的針對性,不能夠特殊的用戶群體返回對應(yīng)的數(shù)據(jù)
(3)搜索引擎一般請款下獲取的文本信息,處理圖像,音頻,視頻多媒體還是有困難的
6,常見狀態(tài)碼:
200(OK請求成功)
301:永久重定向
302:臨時重定向(所請求的頁面已經(jīng)臨時轉(zhuǎn)移至新的url)
400:錯誤請求镊靴,服務(wù)器無法解析請求
401:未授權(quán),沒有進行身份驗證
403:服務(wù)器拒絕訪問
404:服務(wù)器無法找到被請求的網(wǎng)頁
408:請求超時
500:服務(wù)器內(nèi)部錯誤
501:服務(wù)器不具備完成請求的功能
503:服務(wù)器不可用
7,轉(zhuǎn)字符串類型:decode