一待秃、HTML原理
二痢掠、網(wǎng)頁基本原理
???????? 對于爬蟲程序員來說,只要記住網(wǎng)頁基本構(gòu)成:HTML,CSS和JavaScript医舆。
????????? Html相當于骨架,Css相當于皮膚,JavaScript相當于肌肉
三毙石、爬蟲基本原理
????? 1滞时、基本流程
????? 2、注意事項
????????? 2.1 首先用瀏覽器打開目標網(wǎng)站刽漂,進入開發(fā)者工具模式,分析網(wǎng)頁結(jié)構(gòu)或規(guī)則
???????? 2.2 獲取網(wǎng)頁源代碼后庭猩,使用status查看狀態(tài)碼驗證讀取網(wǎng)頁是否成功
???????? 2.3 明確要抓什么數(shù)據(jù): Html代碼、Json字符串(api接口,手機端大部分是這種數(shù)據(jù)格式)、二進制文件(圖片,音頻葵硕,視頻等)介评、其他拓展名文件(css洼专,JavaScript,各種配置文件等)
???????? 2.4 Javascript渲染頁面處理:分析ajax接口,或使用selenium等庫實現(xiàn)模擬JavaScript渲染
???????? 2.5 cookies在瀏覽器端,在訪問動態(tài)網(wǎng)頁時候瀏覽器會自動附帶上它發(fā)送給服務器,服務器通過識別cookies并鑒定其是哪個用戶,判斷其是否登錄狀態(tài),然后返回對應的響應
????????? 2.6 爬蟲代理,突破自身IP訪問限制,訪問團體內(nèi)部資源,提高訪問速度,隱藏真實IP (防止被封禁或輸入驗證碼登錄)
????????? 2.7 檢查robots.txt,在網(wǎng)站根目錄后面加入‘/robots.txt’檢查荧库。 Robots協(xié)議(也稱為爬蟲協(xié)議般此、機器人協(xié)議等)的全稱是“網(wǎng)絡爬蟲排除標準”(Robots Exclusion Protocol),網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。當一個搜索蜘蛛訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內(nèi)容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護的頁面。