hadoop 集群還有點(diǎn)問題广辰,沒有搭建完成炭懊,明天繼續(xù)票渠,應(yīng)該能完成。
變動(dòng) user-agent 的方法阱洪,有兩種:
通過將 fake_useragent 維護(hù)的所有 user agent 獲取下來便贵,生成為一個(gè) user_agent_list,然后每次在 scrapy 中Request 的時(shí)候在 headers 中就隨機(jī)去一個(gè) user agent 代替
直接使用 fake useragent
pip install fake_useragent
from fake_useragent import UserAgent
ua = UserAgent()
ua.ie
ua.firefox
ua.safari
ua.random
以上這些都能獲取到不斷變化的 user agent
獲取代理的方法冗荸,使用 西刺網(wǎng) 提供的免費(fèi)的代理服務(wù)器