最近在用node寫一個(gè)小爬蟲學(xué)習(xí)node,但是遇到一個(gè)不大不小的坑经柴,就是如何將異步的node程序串行執(zhí)行猴娩。下面就我遇到的坑和解決方法簡(jiǎn)單記錄一下。
1.問(wèn)題介紹
首先饿肺,我想通過(guò)request去訪問(wèn)小木蟲網(wǎng)站蒋困,獲得文章的列表,首先寫了一個(gè)getList函數(shù):
var request = require('request');
var iconv = require('iconv-lite');
const urlStart = "http://muchong.com/bbs/journal_cn.php?tag=%BC%C6%CB%E3%BB%FA%D3%A6%D3%C3%BC%BC%CA%F5"
const regExp = /<th\s+>\s+<a\s+href="(.{30,40})">(.{4,20})<\/a>/ig;
function getList() {
console.log('start get list ...');
var link_array = [];
// request visit muchong.com
request({
url: urlStart,
encoding: null
}, function (err, res, body) {
if (err) {
console.log('getList err:' + err);
} else {
var html = iconv.decode(body, 'GBK');
let regRes;
while ((regRes = regExp.exec(html)) !== null) {
link_array.push({
link: regRes[1],
name: regRes[2]
})
}
console.log(link_array);
return link_array;
}
})
}
exports.getList = getList;
整個(gè)代碼如上敬辣,簡(jiǎn)單的對(duì)結(jié)果進(jìn)行了正則雪标,返回一個(gè)文章列表,給外部暴露getList()這個(gè)函數(shù)溉跃。然后我再通過(guò)文件index.js
調(diào)用該模塊:
var getList = require('./src/getList');
(function(){
const temp_array = getList.getList();
console.log('temp_array is:'+JSON.stringify(temp_array));
})()
然后執(zhí)行該程序村刨,結(jié)果返回temp_array is:undefined。跟預(yù)想的結(jié)果不同撰茎。
2.問(wèn)題分析
單獨(dú)調(diào)試getList結(jié)果正常嵌牺,那么問(wèn)題應(yīng)該就是index.js
出問(wèn)題了。很快我就發(fā)現(xiàn)龄糊,這里一定是因?yàn)?strong>getList()沒(méi)有執(zhí)行完畢髓梅,就調(diào)用下一句console.log了,因此需要程序等待getList()绎签。網(wǎng)上查資料枯饿,發(fā)現(xiàn)可以通過(guò)async/await完成該功能,于是我就修改index.js
為:
var getList = require('./src/getList');
(async function(){
const temp_array = await getList.getList();
console.log('temp_array is:'+JSON.stringify(temp_array));
})()
So easy!加個(gè)類似修飾器之類的async/await就可以啦诡必,再執(zhí)行奢方,結(jié)果還是undefined。這又是為何呢爸舒?為了解決問(wèn)題蟋字,繼續(xù)google,通過(guò)查詢API和用法才知道扭勉,node的異步API都是通過(guò)一個(gè)叫Promise的東東封裝成異步函數(shù)的鹊奖,await的操作對(duì)象也應(yīng)該是Promise對(duì)象,否則會(huì)馬上返回涂炎。因此我們需要重新修改getList忠聚,使用Promise來(lái)封裝:
var request = require('request');
var iconv = require('iconv-lite');
const urlStart = "http://muchong.com/bbs/journal_cn.php?tag=%BC%C6%CB%E3%BB%FA%D3%A6%D3%C3%BC%BC%CA%F5"
const regExp = /<th\s+>\s+<a\s+href="(.{30,40})">(.{4,20})<\/a>/ig;
async function getList() {
return new Promise(function(resolve, reject){
console.log('start get list...');
var link_array = [];
request({
url:urlStart,
encoding: null
}, function(err, res, body){
if(err){
console.log('getList err:'+err);
reject(err);
}else{
var html = iconv.decode(body, 'GBK');
let regRes;
while((regRes = regExp.exec(html)) !==null){
link_array.push({
link:regRes[1],
name:regRes[2]
})
}
console.log('Get list OK..');
resolve(link_array);
}
})
})
}
exports.getList = getList;
上面getList返回的是一個(gè)Promise對(duì)象,這樣await就會(huì)等待Promise返回值唱捣,而Promise通過(guò)resolve(成功時(shí))
和reject(失敗時(shí))
這兩個(gè)參數(shù)傳遞數(shù)據(jù)两蟀。
再次執(zhí)行index.js
得到正常的結(jié)果。值得注意的是震缭,必須使用node7.1以后的版本才能使用async/await赂毯,另外await必須在async修飾的函數(shù)內(nèi)使用,多一層嵌套都不能使用await(除非嵌套的函數(shù)也是async修飾)這是我練習(xí)時(shí)踩的坑!都是淚