NodeJs抓取頁面html()方法亂碼

如何用 Nodejs 分析一個簡單頁面一文中,我們爬取了博客園首頁的 20 篇文章標(biāo)題,輸出部分拼接了一個字符串:

var$ = cheerio.load(sres.text);varans =''; $('.titlelnk').each(function(index, item){var$item = $(item); ans += $item.html() +'

'; });// 將內(nèi)容呈現(xiàn)到頁面res.send(ans);

頁面呈現(xiàn)良好:

但是查看網(wǎng)頁源代碼,卻看到這樣的情景:

什么鬼豺妓?我們讓問題再清晰些阀坏,試著把爬蟲代碼稍做修改:

var$ = cheerio.load(sres.text);varans = []; $('.titlelnk').each(function(index, item){var$item = $(item); ans.push($item.html()); });// 將內(nèi)容呈現(xiàn)到頁面res.send(ans);

這輸出的是什么玩意兒?

亂碼赔退?不,是 HTML 實(shí)體編碼证舟!

HTML 實(shí)體編碼

在 HTML 中硕旗,某些字符是預(yù)留的,比如不能使用小于號(<)和大于號(>)女责,這是因?yàn)闉g覽器會誤認(rèn)為它們是標(biāo)簽漆枚。如果希望正確地顯示預(yù)留字符,我們必須在 HTML 源代碼中使用字符實(shí)體(character entities)抵知。當(dāng)然還另一個重要原因墙基,有些字符在 ASCII 字符集中沒有定義,因此需要使用字符實(shí)體來表示刷喜,比如中文残制。

字符實(shí)體類似這樣:

&entity_name; 或者 &#entity_number;

如需顯示小于號,我們必須這樣寫:<或<掖疮。前者(實(shí)體名)易于記憶初茶,而后者(實(shí)體數(shù)字)在瀏覽器中的支持較好。

HTML 中常見的需要替換成字符實(shí)體的字符有 4 個浊闪,分別是<恼布、>螺戳、&以及"。為此折汞,我們可以簡單寫個 escapeHTML 函數(shù)(使得網(wǎng)頁上可以正確顯示這 4 個字符倔幼,而不會被誤認(rèn)為是標(biāo)簽):

functionescapeHTML(text){varreplacements= {"<":"<",">":">","&":"&",""": """}; return text.replace(/[<>&"]/g,function(character){returnreplacements[character]; }); }

更多關(guān)于 HTML 實(shí)體編碼的內(nèi)容可以參考HTML 字符實(shí)體

Solution

不僅是 "<" ">" 這樣的能編碼,所有字符均能編碼字支,這也是出現(xiàn) "亂碼" 的原因凤藏。在文章開頭的例子中,其實(shí)它把該 target 標(biāo)簽內(nèi)的所有東西(包括中文)都給編碼了堕伪。

而最開始的代碼(字符串輸出)之所以沒有 "亂碼"揖庄,完全是因?yàn)闉g覽器自動幫你解碼了。(如果存在于 HTML 代碼中欠雌,會被自動解碼)

知道了原因蹄梢,我們可以從兩個方向解決問題。

首先富俄,我們可以不對其內(nèi)容進(jìn)行編碼禁炒。用text()方法取代html()方法:

$('.titlelnk').each(function(index, item){var$item = $(item); ans.push($item.text()); });

很簡單并且完美地解決了這個問題。

或者我們關(guān)閉 cheerio 中的.html()方法 轉(zhuǎn)換實(shí)體編碼的功能(2016-01-25 add):

var$ = cheerio.load(sres.text, {decodeEntities:false}); $('.titlelnk').each(function(index, item){var$item = $(item);console.log($item.html()); });

如果說不能從編碼的角度解決霍比,我們可以試著解碼幕袱。

方法一:

創(chuàng)建空標(biāo)簽,將編碼內(nèi)容用 html() 方法塞入悠瞬,用 text() 取出们豌,轉(zhuǎn)換過程讓第三方完成(當(dāng)然前提是獲取了 $ 對象):

functionhtmlDecode(str){vart = $("

"); t.html(str);returnt.text(); }var$ = cheerio.load(sres.text);varans = []; $('.titlelnk').each(function(index, item){var$item = $(item); ans.push(htmlDecode($item.html())); });// 將內(nèi)容呈現(xiàn)到頁面res.send(ans);

方法二:

根據(jù)編碼轉(zhuǎn)換規(guī)則,用正則 decode:

functionhtmlDecode(str){// 一般可以先轉(zhuǎn)換為標(biāo)準(zhǔn) unicode 格式(有需要就添加:當(dāng)返回的數(shù)據(jù)呈現(xiàn)太多\\\u 之類的時)str =unescape(str.replace(/\\u/g,"%u"));// 再對實(shí)體符進(jìn)行轉(zhuǎn)義// 有 x 則表示是16進(jìn)制浅妆,$1 就是匹配是否有 x望迎,$2 就是匹配出的第二個括號捕獲到的內(nèi)容,將 $2 以對應(yīng)進(jìn)制表示轉(zhuǎn)換str = str.replace(/&#(x)?(\w+);/g,function($, $1, $2){returnString.fromCharCode(parseInt($2, $1?16:10)); });returnstr; }var$ = cheerio.load(sres.text);varans = []; $('.titlelnk').each(function(index, item){var$item = $(item); ans.push(htmlDecode($item.html())); });// 將內(nèi)容呈現(xiàn)到頁面res.send(ans);

Encode & Decode

事情到此似乎可以告一段落凌外,我們找到了問題的原因辩尊,也找到了解決辦法。但是康辑,HTML 實(shí)體編碼摄欲,它到底是如何編碼的?

我們?nèi)我馊∫粭l標(biāo)題:

前端備忘錄 — IE 的條件注釋

編碼后為:

前端備忘錄 —IE的條件注釋

中文的編碼結(jié)果開頭都是 &#x疮薇。試著用charCodeAt()取得 "前" 字的 unicode 編碼大小蒿涎,然后將它轉(zhuǎn)成 16 進(jìn)制,正是 524d 惦辛!看來和escape()相似,又是一次十六進(jìn)制的轉(zhuǎn)換仓手。

但是英文卻沒有被轉(zhuǎn)胖齐,這點(diǎn)和 escape() 也神似玻淑。唯一不同的是 escape 會將空格轉(zhuǎn)為%20,而 HTML 編碼并沒有呀伙。

而且 HTML 編碼甚至?xí)?自動編碼成?补履,這也就意味著如果要手寫個 HTML 編碼函數(shù),需要將所有字符實(shí)體的映射都找出來剿另,而且對于 &XXXX 形式的箫锤,似乎還要作個校驗(yàn)(確認(rèn)是實(shí)體集還是普通的字符串)。

而 HTML 解碼則相對來說簡單寫雨女,只需將 &#xXXX 進(jìn)行轉(zhuǎn)換谚攒,詳細(xì)代碼可以參考 Solution 一節(jié)的正則。

事實(shí)上氛堕,HTML 編碼并不一定要轉(zhuǎn)成十六進(jìn)制馏臭,十進(jìn)制也可以。還是以 "前" 為例讼稚,它的十進(jìn)制 unicode 碼為 21069括儒,完全可以用前來代替前。

最后還有兩個客戶端的編碼锐想、解碼函數(shù):

functionHtmlEncode(str){vart =document.createElement("div"); t.textContent ? t.textContent = str : t.innerText = str;returnt.innerHTML; }functionHtmlDecode(str){vart =document.createElement("div"); t.innerHTML = str;returnt.textContent || t.innerText; }

真的是吃一塹長一智帮寻,以后碰到 "&#x" 開頭的一些編碼,十有八九是 HTML 的實(shí)體編碼赠摇,再也不用擔(dān)心了固逗!

學(xué)習(xí)更多

轉(zhuǎn)自:http://www.cnblogs.com/zichi/p/5135636.html

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市蝉稳,隨后出現(xiàn)的幾起案子抒蚜,更是在濱河造成了極大的恐慌,老刑警劉巖耘戚,帶你破解...
    沈念sama閱讀 217,907評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件嗡髓,死亡現(xiàn)場離奇詭異,居然都是意外死亡收津,警方通過查閱死者的電腦和手機(jī)饿这,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,987評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來撞秋,“玉大人长捧,你說我怎么就攤上這事∥腔撸” “怎么了串结?”我有些...
    開封第一講書人閱讀 164,298評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我肌割,道長卧蜓,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,586評論 1 293
  • 正文 為了忘掉前任把敞,我火速辦了婚禮弥奸,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘奋早。我一直安慰自己盛霎,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,633評論 6 392
  • 文/花漫 我一把揭開白布耽装。 她就那樣靜靜地躺著愤炸,像睡著了一般。 火紅的嫁衣襯著肌膚如雪剂邮。 梳的紋絲不亂的頭發(fā)上摇幻,一...
    開封第一講書人閱讀 51,488評論 1 302
  • 那天,我揣著相機(jī)與錄音挥萌,去河邊找鬼绰姻。 笑死,一個胖子當(dāng)著我的面吹牛引瀑,可吹牛的內(nèi)容都是我干的狂芋。 我是一名探鬼主播,決...
    沈念sama閱讀 40,275評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼憨栽,長吁一口氣:“原來是場噩夢啊……” “哼帜矾!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起屑柔,我...
    開封第一講書人閱讀 39,176評論 0 276
  • 序言:老撾萬榮一對情侶失蹤屡萤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后掸宛,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體死陆,經(jīng)...
    沈念sama閱讀 45,619評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,819評論 3 336
  • 正文 我和宋清朗相戀三年唧瘾,在試婚紗的時候發(fā)現(xiàn)自己被綠了措译。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,932評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡饰序,死狀恐怖领虹,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情求豫,我是刑警寧澤塌衰,帶...
    沈念sama閱讀 35,655評論 5 346
  • 正文 年R本政府宣布诉稍,位于F島的核電站,受9級特大地震影響猾蒂,放射性物質(zhì)發(fā)生泄漏均唉。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,265評論 3 329
  • 文/蒙蒙 一肚菠、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧罩缴,春花似錦蚊逢、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,871評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至檬寂,卻和暖如春终抽,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背桶至。 一陣腳步聲響...
    開封第一講書人閱讀 32,994評論 1 269
  • 我被黑心中介騙來泰國打工昼伴, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人镣屹。 一個月前我還...
    沈念sama閱讀 48,095評論 3 370
  • 正文 我出身青樓圃郊,卻偏偏與公主長得像,于是被迫代替她去往敵國和親女蜈。 傳聞我的和親對象是個殘疾皇子持舆,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,884評論 2 354

推薦閱讀更多精彩內(nèi)容