不知道大家有沒有遇到過這樣一個(gè)小問題:第一次打開頁面抓包分析相關(guān)地址是正常的掏膏,后面刷新或者再打開的時(shí)候,狀態(tài)碼就變成了304,這樣再去采集的時(shí)候就不會采集到數(shù)據(jù)了纳本。
可以通過一個(gè)地址來看一下:
如果你已經(jīng)遇到過次問題的話苔可,馬上就可以想到問題所在了:就是用Cache-Control控制的緩存:
Cache-Control是控制緩存的開關(guān),用于標(biāo)識請求或訪問中是否開啟了緩存啄刹,使用了哪種緩存方式涮坐。
我們模擬請求頭,在請求發(fā)出時(shí)誓军,一般的網(wǎng)站大都設(shè)置Cache-Control為no-cache袱讹,也有一些為了處理相同的請求,服務(wù)器不會再一次發(fā)送資源昵时,所以將Cache-Control設(shè)置為max-age=0也就是上圖小例子中的值捷雕。只要將它的設(shè)置改為no-cache或者干脆不寫這個(gè)值椒丧,這樣就不會發(fā)生采集錯(cuò)誤的問題了。
所以非区,我們在采集程序中模擬請求頭的時(shí)候瓜挽,header里面的內(nèi)容還是要去分析看一下,搞明白每個(gè)字段的意思征绸。