-
web掃描器的原理
通過分析HTTP(S)的請求和響應(yīng)來發(fā)現(xiàn)安全問題和架構(gòu)缺陷
-
web爬蟲
一種按照一定的規(guī)則自動抓取萬維網(wǎng)資源的程序或者腳本
-
URL完整格式解析
協(xié)議://主機(jī)名[:端口]/路徑/[;參數(shù)][?查詢參數(shù)]#信息片段
eg:http://www.anquanbao.com:80/index.php?id=1#target
協(xié)議:http
主機(jī)名:www.anquanbao.com
端口:80
路徑:index.php
查詢參數(shù):id=1
信息片段:target
-
網(wǎng)頁的超鏈接
1睁冬、絕對URL的超鏈接:鏈接網(wǎng)絡(luò)上的一個站點现拒、網(wǎng)頁或其他資源
2、相對URL的超鏈接:鏈接同一網(wǎng)站的資源
3花嘶、書簽:鏈接同一網(wǎng)頁的資源
eg:
絕對URL超鏈接:
<a ></a>
相對URL超鏈接:
<a href='index.html'></a>
//以當(dāng)前頁面地址為基點形成超鏈接
index.html表示同一網(wǎng)站的新的頁面
<a href="#top"></a>
同一頁面的超鏈接琳彩,用戶點擊時會跳到同一頁面的top位置
-
HTTP協(xié)議
1誊酌、HTTP請求
請求行部凑、請求報頭、請求正文
2碧浊、HTTP響應(yīng)
響應(yīng)行涂邀、響應(yīng)報頭、響應(yīng)正文
-
HTTP認(rèn)證
1箱锐、Basic認(rèn)證:按照明文信息進(jìn)行傳遞比勉,易劫持
2、Digest認(rèn)證(摘要式):需要通過兩次交互來完成
//都容易被劫持和監(jiān)聽
-
DNS本地緩存
1驹止、將域名和ip的關(guān)系存儲下來浩聋;分為瀏覽器緩存、系統(tǒng)緩存(瀏覽器緩存優(yōu)先)
2臊恋、火狐瀏覽器緩存文件查看:about:cache
谷歌瀏覽器緩存文件查看:chrome://net-internals/#dns
//分別在對應(yīng)的瀏覽器中輸入
3衣洁、系統(tǒng)緩存查看:命令行窗口中輸入ipconfig /displaydns
-
爬蟲策略
1、廣度優(yōu)先策略
2抖仅、深度優(yōu)先策略
3坊夫、最佳優(yōu)先策略
-
頁面跳轉(zhuǎn)
1、客戶端跳轉(zhuǎn)
301跳轉(zhuǎn):永久性轉(zhuǎn)移
302跳轉(zhuǎn):臨時性跳轉(zhuǎn)
2撤卢、服務(wù)端跳轉(zhuǎn)
服務(wù)端在收到客戶端的HTTP請求后环凿,由于請求到的頁面和實際處理請求的頁面不同,服務(wù)端會在內(nèi)部進(jìn)行頁面跳轉(zhuǎn)放吩。
//服務(wù)端跳轉(zhuǎn)時智听,客戶端只發(fā)送一次請求,瀏覽器的地址欄不會顯示目標(biāo)地址的URL屎慢;客戶端跳轉(zhuǎn)時,由于是兩次請求忽洛,這時地址欄中會顯示目標(biāo)資源的URL腻惠。(客戶端向服務(wù)端發(fā)出第一次請求并發(fā)生一次跳轉(zhuǎn),得到服務(wù)端的響應(yīng)后根據(jù)響應(yīng)提供的地址發(fā)出第二次請求并進(jìn)行第二次跳轉(zhuǎn)欲虚,最終地址欄的地址為第二次請求的地址)
參考鏈接:小結(jié):“服務(wù)器端跳轉(zhuǎn)”和“客戶端跳轉(zhuǎn)”的區(qū)別
-
URL
1集灌、URL間的關(guān)系
URL重復(fù):完全一樣
URL相似:除了參數(shù)值不一樣外,其余都一樣
URL包含:參數(shù)名包含
2复哆、URL去重
- 哈希表去重
建立一個HASH表欣喧,在HASH表中查找新的URL是否存在,不存在就放進(jìn)去梯找,一直遍歷完所有的URL - 布隆過濾器
-
頁面相似算法
1唆阿、編輯距離:根據(jù)兩個字符串由一個轉(zhuǎn)成另一個所需要的最少編輯次數(shù)來比較兩個頁面間的相似度;
//一般來說锈锤,編輯距離越小驯鳖,兩個串間的相似度越大
2闲询、Simhash:為每一個web文檔通過hash的方式生成一個64位的字節(jié)指紋(特征字),根據(jù)特征字的海明距離是不是<n(n一般為3)來判斷兩個文檔的相似度浅辙。
//海明距離:兩個合法代碼對應(yīng)位上編碼的不同位數(shù)扭弧。
eg:10101和00110從第一位開始有5位不同,則海明距離為3.
-
鏈接
1记舆、靜態(tài)鏈接:擴(kuò)展名主要為:rar鸽捻、zip、ttf泽腮、png御蒲、gif
2、動態(tài)鏈接:擴(kuò)展名主要為:html盛正、shtml删咱、do、asp豪筝、aspx痰滋、php、js