重構(gòu)已經(jīng)完成并發(fā)布乃正,在原項目地址生逸,有空之后再寫新版本的說明
之前曾經(jīng)寫過一個爬取人人貸交易數(shù)據(jù)的爬蟲躏啰,主要用到了urllib2包進(jìn)行請求趁矾,通過re包正則表達(dá)式進(jìn)行提取數(shù)據(jù),考慮到需要登陸進(jìn)行爬取時给僵,urllib2 不如requests 更穩(wěn)定毫捣,同時較為復(fù)雜的正則表達(dá)式效率較低,準(zhǔn)備通過requests包和bs4 進(jìn)行重構(gòu)帝际,特開貼記錄重構(gòu)過程中的問題和思考蔓同。
原項目地址:View on Github
TODO
- 重構(gòu)urllib2 模塊
- 重構(gòu)re 模塊
- 兼容 Python 2 / 3