爬蟲動(dòng)作
網(wǎng)頁(yè)爬蟲需要獲取網(wǎng)頁(yè)特定的HTML標(biāo)簽內(nèi)容和內(nèi)容中的資源文件,分解下來(lái)動(dòng)作有:
- 拿網(wǎng)頁(yè)HTML
- 抓標(biāo)簽(通過(guò) id、標(biāo)簽名偏化、name、class镐侯、自定義attr等條件匹配)
- 下載資源
流程
將文本內(nèi)容和資源內(nèi)容的獲取分離侦讨,先獲取文本,最后集中處理資源文件析孽,在修改和實(shí)現(xiàn)UI時(shí)會(huì)方便。資源一般會(huì)用到線程下載只怎,因?yàn)閱尉€程會(huì)使用戶界面進(jìn)入假死狀態(tài)袜瞬,下載是提供進(jìn)度條會(huì)是一個(gè)友好的交互選擇。