寫(xiě)了個(gè)簡(jiǎn)單的python程序剃浇,用來(lái)爬彩票網(wǎng)站的開(kāi)獎(jiǎng)歷史耘柱,總共10101頁(yè)。
這個(gè)程序運(yùn)行了幾分鐘同欠,爬到了50頁(yè)數(shù)據(jù)就報(bào)錯(cuò)了样傍,
可能是服務(wù)器對(duì)一個(gè)時(shí)間段內(nèi)訪問(wèn)次數(shù)有限制,用以防止惡意爬數(shù)據(jù)铺遂,暫時(shí)屏蔽了衫哥。
測(cè)試了一下,每爬一頁(yè)休息3-5秒襟锐,爬50頁(yè)左右還是會(huì)報(bào)錯(cuò)撤逢。
需要改進(jìn)!
爬到的數(shù)據(jù)是這樣的,一期有6行數(shù)據(jù):期號(hào)+5位數(shù)字
數(shù)據(jù)庫(kù)里加工一下蚊荣,就可以得到下面這樣規(guī)整的開(kāi)獎(jiǎng)數(shù)據(jù)了初狰!
網(wǎng)頁(yè)超時(shí)的改進(jìn)方案(未實(shí)施):
1.根據(jù)報(bào)錯(cuò)情況,加大sleep時(shí)間
2.用while循環(huán)不停嘗試互例,從斷點(diǎn)頁(yè)開(kāi)始繼續(xù)爬