爬蟲
按照一定規(guī)則自動抓取網(wǎng)絡(luò)信息的程序
反爬蟲
- user-agent, referer,驗(yàn)證碼
- 單位時間訪問次數(shù)
- 關(guān)鍵信息圖片混淆
- 異步加載
node爬蟲
一般用superAgent 和 Cheerio
superAgent發(fā)送請求,得到html
Cheerio把html的內(nèi)容轉(zhuǎn)換成像 jquery的對象,但是反爬蟲規(guī)則它繞不過去
顯示目錄不存在的時候要在本地建相應(yīng)的目錄
page.evaluate相當(dāng)于eval可以使用原生js的api
page.$(selector) 返回一個promise的eventHandle
page.$$(selector) 返回一群promise的eventHandle
page.$eval(selector,el=>{...})返回的也是單個元素
page.$$eval(selector,el=>{...})返回的是一群
需求分析
打開百度,點(diǎn)擊圖片tab,輸入狗,點(diǎn)擊搜索
看圖片特征,base64和普通地址
nodejs關(guān)鍵技術(shù)
- stream
- 動態(tài)web framework (express koa)
- child_process & cluster
需要深入學(xué)習(xí)
- through2
- express,koa,egg
- ssr & 同構(gòu)
- nodejs源碼(特別是stream buffer)