NodeJs抓取頁面html()方法亂碼

在如何用 Nodejs 分析一個簡單頁面一文中，我們爬取了博客園首頁的 20 篇文章標(biāo)題，輸出部分拼接了一個字符串：

var$ = cheerio.load(sres.text);varans =''; $('.titlelnk').each(function(index, item){var$item = $(item); ans += $item.html() +'

'; });// 將內(nèi)容呈現(xiàn)到頁面res.send(ans);

頁面呈現(xiàn)良好：

但是查看網(wǎng)頁源代碼，卻看到這樣的情景：

什么鬼豺妓？我們讓問題再清晰些阀坏，試著把爬蟲代碼稍做修改：

var$ = cheerio.load(sres.text);varans = []; $('.titlelnk').each(function(index, item){var$item = $(item); ans.push($item.html()); });// 將內(nèi)容呈現(xiàn)到頁面res.send(ans);

這輸出的是什么玩意兒？

亂碼赔退？不，是 HTML 實(shí)體編碼证舟！

HTML 實(shí)體編碼

在 HTML 中硕旗，某些字符是預(yù)留的，比如不能使用小于號（<）和大于號（>）女责，這是因?yàn)闉g覽器會誤認(rèn)為它們是標(biāo)簽漆枚。如果希望正確地顯示預(yù)留字符，我們必須在 HTML 源代碼中使用字符實(shí)體（character entities）抵知。當(dāng)然還另一個重要原因墙基，有些字符在 ASCII 字符集中沒有定義，因此需要使用字符實(shí)體來表示刷喜，比如中文残制。

字符實(shí)體類似這樣：

&entity_name; 或者 &#entity_number;

如需顯示小于號，我們必須這樣寫：<或<掖疮。前者（實(shí)體名）易于記憶初茶，而后者（實(shí)體數(shù)字）在瀏覽器中的支持較好。

HTML 中常見的需要替換成字符實(shí)體的字符有 4 個浊闪，分別是<恼布、>螺戳、&以及"。為此折汞，我們可以簡單寫個 escapeHTML 函數(shù)（使得網(wǎng)頁上可以正確顯示這 4 個字符倔幼，而不會被誤認(rèn)為是標(biāo)簽）：

functionescapeHTML(text){varreplacements= {"<":"<",">":">","&":"&",""": """}; return text.replace(/[<>&"]/g,function(character){returnreplacements[character]; }); }

更多關(guān)于 HTML 實(shí)體編碼的內(nèi)容可以參考HTML 字符實(shí)體

Solution

不僅是 "<" ">" 這樣的能編碼，所有字符均能編碼字支，這也是出現(xiàn) "亂碼" 的原因凤藏。在文章開頭的例子中，其實(shí)它把該 target 標(biāo)簽內(nèi)的所有東西（包括中文）都給編碼了堕伪。

而最開始的代碼（字符串輸出）之所以沒有 "亂碼"揖庄，完全是因?yàn)闉g覽器自動幫你解碼了。（如果存在于 HTML 代碼中欠雌，會被自動解碼）

知道了原因蹄梢，我們可以從兩個方向解決問題。

首先富俄，我們可以不對其內(nèi)容進(jìn)行編碼禁炒。用text()方法取代html()方法：

$('.titlelnk').each(function(index, item){var$item = $(item); ans.push($item.text()); });

很簡單并且完美地解決了這個問題。

或者我們關(guān)閉 cheerio 中的.html()方法轉(zhuǎn)換實(shí)體編碼的功能（2016-01-25 add）：

var$ = cheerio.load(sres.text, {decodeEntities:false}); $('.titlelnk').each(function(index, item){var$item = $(item);console.log($item.html()); });

如果說不能從編碼的角度解決霍比，我們可以試著解碼幕袱。

方法一：

創(chuàng)建空標(biāo)簽，將編碼內(nèi)容用 html() 方法塞入悠瞬，用 text() 取出们豌，轉(zhuǎn)換過程讓第三方完成（當(dāng)然前提是獲取了 $ 對象）：

functionhtmlDecode(str){vart = $("

"); t.html(str);returnt.text(); }var$ = cheerio.load(sres.text);varans = []; $('.titlelnk').each(function(index, item){var$item = $(item); ans.push(htmlDecode($item.html())); });// 將內(nèi)容呈現(xiàn)到頁面res.send(ans);

方法二：

根據(jù)編碼轉(zhuǎn)換規(guī)則，用正則 decode：

functionhtmlDecode(str){// 一般可以先轉(zhuǎn)換為標(biāo)準(zhǔn) unicode 格式（有需要就添加：當(dāng)返回的數(shù)據(jù)呈現(xiàn)太多\\\u 之類的時）str =unescape(str.replace(/\\u/g,"%u"));// 再對實(shí)體符進(jìn)行轉(zhuǎn)義// 有 x 則表示是16進(jìn)制浅妆，$1 就是匹配是否有 x望迎，$2 就是匹配出的第二個括號捕獲到的內(nèi)容，將 $2 以對應(yīng)進(jìn)制表示轉(zhuǎn)換str = str.replace(/&#(x)?(\w+);/g,function($, $1, $2){returnString.fromCharCode(parseInt($2, $1?16:10)); });returnstr; }var$ = cheerio.load(sres.text);varans = []; $('.titlelnk').each(function(index, item){var$item = $(item); ans.push(htmlDecode($item.html())); });// 將內(nèi)容呈現(xiàn)到頁面res.send(ans);

Encode & Decode

事情到此似乎可以告一段落凌外，我們找到了問題的原因辩尊，也找到了解決辦法。但是康辑，HTML 實(shí)體編碼摄欲，它到底是如何編碼的？

我們?nèi)我馊∫粭l標(biāo)題：

前端備忘錄 — IE 的條件注釋

編碼后為：

前端備忘錄 —IE的條件注釋

中文的編碼結(jié)果開頭都是 &#x疮薇。試著用charCodeAt()取得 "前" 字的 unicode 編碼大小蒿涎，然后將它轉(zhuǎn)成 16 進(jìn)制，正是 524d 惦辛！看來和escape()相似，又是一次十六進(jìn)制的轉(zhuǎn)換仓手。

但是英文卻沒有被轉(zhuǎn)胖齐，這點(diǎn)和 escape() 也神似玻淑。唯一不同的是 escape 會將空格轉(zhuǎn)為%20，而 HTML 編碼并沒有呀伙。

而且 HTML 編碼甚至?xí)?自動編碼成?补履，這也就意味著如果要手寫個 HTML 編碼函數(shù)，需要將所有字符實(shí)體的映射都找出來剿另，而且對于 &XXXX 形式的箫锤，似乎還要作個校驗(yàn)（確認(rèn)是實(shí)體集還是普通的字符串）。

而 HTML 解碼則相對來說簡單寫雨女，只需將 &#xXXX 進(jìn)行轉(zhuǎn)換谚攒，詳細(xì)代碼可以參考 Solution 一節(jié)的正則。

事實(shí)上氛堕，HTML 編碼并不一定要轉(zhuǎn)成十六進(jìn)制馏臭，十進(jìn)制也可以。還是以 "前" 為例讼稚，它的十進(jìn)制 unicode 碼為 21069括儒，完全可以用前來代替前。

最后還有兩個客戶端的編碼锐想、解碼函數(shù)：

functionHtmlEncode(str){vart =document.createElement("div"); t.textContent ? t.textContent = str : t.innerText = str;returnt.innerHTML; }functionHtmlDecode(str){vart =document.createElement("div"); t.innerHTML = str;returnt.textContent || t.innerText; }

真的是吃一塹長一智帮寻，以后碰到 "&#x" 開頭的一些編碼，十有八九是 HTML 的實(shí)體編碼赠摇，再也不用擔(dān)心了固逗！

最后編輯于：2017.12.06 05:18:20

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市蝉稳，隨后出現(xiàn)的幾起案子抒蚜，更是在濱河造成了極大的恐慌，老刑警劉巖耘戚，帶你破解...
沈念sama閱讀 217,907評論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件嗡髓，死亡現(xiàn)場離奇詭異，居然都是意外死亡收津，警方通過查閱死者的電腦和手機(jī)饿这，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,987評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來撞秋，“玉大人长捧，你說我怎么就攤上這事∥腔撸” “怎么了串结？”我有些...
開封第一講書人閱讀 164,298評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經(jīng)常有香客問我肌割，道長卧蜓，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,586評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任把敞，我火速辦了婚禮弥奸，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘奋早。我一直安慰自己盛霎，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,633評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布耽装。她就那樣靜靜地躺著愤炸，像睡著了一般。火紅的嫁衣襯著肌膚如雪剂邮。梳的紋絲不亂的頭發(fā)上摇幻，一...
開封第一講書人閱讀 51,488評論 1贊 302
城市分裂傳說
那天，我揣著相機(jī)與錄音挥萌，去河邊找鬼绰姻。笑死，一個胖子當(dāng)著我的面吹牛引瀑，可吹牛的內(nèi)容都是我干的狂芋。我是一名探鬼主播，決...
沈念sama閱讀 40,275評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼憨栽，長吁一口氣：“原來是場噩夢啊……” “哼帜矾！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起屑柔，我...
開封第一講書人閱讀 39,176評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤屡萤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后掸宛，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體死陆，經(jīng)...
沈念sama閱讀 45,619評論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,819評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年唧瘾，在試婚紗的時候發(fā)現(xiàn)自己被綠了措译。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,932評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡饰序，死狀恐怖领虹，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情求豫，我是刑警寧澤塌衰，帶...
沈念sama閱讀 35,655評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布诉稍，位于F島的核電站，受9級特大地震影響猾蒂，放射性物質(zhì)發(fā)生泄漏均唉。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,265評論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一肚菠、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧罩缴，春花似錦蚊逢、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,871評論 0贊 22
一樁弒父案烙荷，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至檬寂，卻和暖如春终抽，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背桶至。一陣腳步聲響...
開封第一講書人閱讀 32,994評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工昼伴，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人镣屹。一個月前我還...
沈念sama閱讀 48,095評論 3贊 370
代替公主和親
正文我出身青樓圃郊，卻偏偏與公主長得像，于是被迫代替她去往敵國和親女蜈。傳聞我的和親對象是個殘疾皇子持舆，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,884評論 2贊 354

NodeJs抓取頁面html()方法亂碼

推薦閱讀更多精彩內(nèi)容