微信文章查詢這個網(wǎng)站布局相對簡單寞埠,提取信息不難屁置,但是反爬比較厲害,分分鐘ban掉你IP沒話說仁连,今天寫了個scrapy中間件蓝角,github地址是:
https://github.com/xiaobeibei26/weixin_spider
先看這個網(wǎng)站
很多信息直接在源代碼里面
接著,看看我們的大殺器中間件,主要是加入了代理池和user-agent使鹅,首先看看文件的結(jié)構(gòu)
這里看看中間件的代碼揪阶,很短的,如圖
封裝的數(shù)據(jù)庫代理池代碼也很短
這里你可以自己添加ip進(jìn)去并徘,也可以鏈接自己數(shù)據(jù)庫的IP池遣钳,這次我自己數(shù)據(jù)庫的IP數(shù)量很少,而且這個網(wǎng)站貌似識別能力很高麦乞,一般的代理搞不掂
然后記得在settings里面調(diào)用這個中間件蕴茴,很簡單,如圖
最后樓主就爬了幾頁數(shù)據(jù)姐直,很多代理我之前測試都沒有問題倦淀,訪問這個網(wǎng)站就不行了,看來要大規(guī)模爬蟲声畏,對于代理的質(zhì)量有非常高的要求啊撞叽,如圖這是運行結(jié)果
看來只能等以后把代理池擴充一下再爬了