jsoup-htm解析器

jsoup 是一款Java 的HTML解析器昂灵，可直接解析某個URL地址色鸳、HTML文本內(nèi)容。它提供了一套非常省力的API坠七，可通過DOM水醋，CSS以及類似于jQuery的操作方法來取出和操作數(shù)據(jù)。
以下內(nèi)容來自http://www.open-open.com/jsoup/parse-body-fragment.htm（有刪改）

[toc]

入門

1.解析和遍歷一個HTML文檔

如何解析一個HTML文檔：

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);

(更詳細內(nèi)容可查看解析一個HTML字符串.)

其解析器能夠盡最大可能從你提供的HTML文檔來創(chuàng)見一個干凈的解析結(jié)果彪置，無論HTML的格式是否完整拄踪。比如它可以處理：

沒有關(guān)閉的標(biāo)簽 (比如： Lorem Ipsum parses to Lorem Ipsum)
隱式標(biāo)簽 (比如. 它可以自動將<td>Table data</td>包裝成<table><tr><td>?)
創(chuàng)建可靠的文檔結(jié)構(gòu)（html標(biāo)簽包含head 和 body，在head只出現(xiàn)恰當(dāng)?shù)脑兀?/p>

一個文檔的對象模型

文檔由多個Elements和TextNodes組成 (以及其它輔助nodes：詳細可查看：nodes package tree).
其繼承結(jié)構(gòu)如下：Document繼承Element繼承Node. TextNode繼承Node.
一個Element包含一個子節(jié)點集合拳魁，并擁有一個父Element惶桐。他們還提供了一個唯一的子元素過濾列表。

輸入

2潘懊、解析一個HTML字符串

存在問題

來自用戶輸入姚糊，一個文件或一個網(wǎng)站的HTML字符串，你可能需要對它進行解析并取其內(nèi)容授舟，或校驗其格式是否完整叛拷，或想修改它。怎么辦岂却？jsonu能夠幫你輕松解決這些問題

解決方法

使用靜態(tài)Jsoup.parse(String html)方法或Jsoup.parse(String html, String baseUri)示例代碼：

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);

描述

parse(String html, String baseUri)這方法能夠?qū)⑤斎氲腍TML解析為一個新的文檔 (Document）忿薇，參數(shù) baseUri 是用來將相對 URL 轉(zhuǎn)成絕對URL，并指定從哪個網(wǎng)站獲取文檔躏哩。如這個方法不適用署浩，你可以使用parse(String html)方法來解析成HTML字符串如上面的示例。.

只要解析的不是空字符串扫尺，就能返回一個結(jié)構(gòu)合理的文檔筋栋，其中包含(至少)一個head和一個body元素。

一旦擁有了一個Document正驻，你就可以使用Document中適當(dāng)?shù)姆椒ɑ蛩割?code>[Element]和[Node]中的方法來取得相關(guān)數(shù)據(jù)弊攘。

3、解析一個body片斷

問題

假如你有一個HTML片斷 (比如. 一個div包含一對p標(biāo)簽; 一個不完整的HTML文檔) 想對它進行解析姑曙。這個HTML片斷可以是用戶提交的一條評論或在一個CMS頁面中編輯body部分襟交。

辦法

使用Jsoup.parseBodyFragment(String html)方法.

String html = "<div><p>Lorem ipsum.</p>";
Document doc = Jsoup.parseBodyFragment(html);
Element body = doc.body();

說明

parseBodyFragment 方法創(chuàng)建一個空殼的文檔，并插入解析過的HTML到body元素中伤靠。假如你使用正常的 [Jsoup.parse(String html)](http://jsoup.org/apidocs/org/jsoup/Jsoup.html#parse(java.lang.String) "Parse HTML into a Document.") 方法捣域，通常你也可以得到相同的結(jié)果，但是明確將用戶輸入作為 body片段處理，以確保用戶所提供的任何糟糕的HTML都將被解析成body元素焕梅。

[Document.body()](http://jsoup.org/apidocs/org/jsoup/nodes/Document.html#body() "Accessor to the document's body element.") 方法能夠取得文檔body元素的所有子元素迹鹅，與 doc.getElementsByTag("body")相同。

保證安全Stay safe

假如你可以讓用戶輸入HTML內(nèi)容贞言，那么要小心避免跨站腳本攻擊斜棚。利用基于 [Whitelist] 的清除器和 clean(String bodyHtml, Whitelist whitelist)方法來清除用戶輸入的惡意內(nèi)容。

4.從一個URL加載一個Document

存在問題

你需要從一個網(wǎng)站獲取和解析一個HTML文檔该窗，并查找其中的相關(guān)數(shù)據(jù)打肝。你可以使用下面解決方法：

解決方法

使用 Jsoup.connect(String url)方法:

Document doc = Jsoup.connect("http://example.com/").get();
String title = doc.title();

說明

connect(String url) 方法創(chuàng)建一個新的 Connection, 和 get() 取得和解析一個HTML文件。如果從該URL獲取HTML時發(fā)生錯誤挪捕，便會拋出 IOException，應(yīng)適當(dāng)處理争便。

Connection 接口還提供一個方法鏈來解決特殊請求级零，具體如下：

Document doc = Jsoup.connect("http://example.com")
  .data("query", "Java")
  .userAgent("Mozilla")
  .cookie("auth", "token")
  .timeout(3000)
  .post();

這個方法只支持Web URLs (http和https 協(xié)議); 假如你需要從一個文件加載，可以使用 parse(File in, String charsetName) 代替滞乙。

5.從一個文件加載一個文檔

問題

在本機硬盤上有一個HTML文件奏纪，需要對它進行解析從中抽取數(shù)據(jù)或進行修改。

辦法

可以使用靜態(tài) Jsoup.parse(File in, String charsetName, String baseUri) 方法：

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

說明

parse(File in, String charsetName, String baseUri) 這個方法用來加載和解析一個HTML文件斩启。如在加載文件的時候發(fā)生錯誤序调，將拋出IOException，應(yīng)作適當(dāng)處理兔簇。

baseUri 參數(shù)用于解決文件中URLs是相對路徑的問題发绢。如果不需要可以傳入一個空的字符串。

另外還有一個方法parse(File in, String charsetName) 垄琐，它使用文件的路徑做為 baseUri边酒。這個方法適用于如果被解析文件位于網(wǎng)站的本地文件系統(tǒng)，且相關(guān)鏈接也指向該文件系統(tǒng)狸窘。

數(shù)據(jù)抽取

6.使用DOM方法來遍歷一個文檔

問題

你有一個HTML文檔要從中提取數(shù)據(jù)墩朦，并了解這個HTML文檔的結(jié)構(gòu)。

方法

將HTML解析成一個Document之后翻擒，就可以使用類似于DOM的方法進行操作氓涣。示例代碼：

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
  String linkHref = link.attr("href");
  String linkText = link.text();
}

說明

Elements這個對象提供了一系列類似于DOM的方法來查找元素，抽取并處理其中的數(shù)據(jù)陋气。具體如下：

查找元素
getElementById(String id)
getElementsByTag(String tag)
getElementsByClass(String className)
getElementsByAttribute(String key) (and related methods)
Element siblings: siblingElements(),firstElementSibling(), lastElementSibling(); nextElementSibling(), previousElementSibling()
Graph: parent(), children(), child(int index)
元素數(shù)據(jù)
attr(String key)獲取屬性attr(String key, String value)設(shè)置屬性
attributes()獲取所有屬性
id(), className() andclassNames()
text()獲取文本內(nèi)容text(String value) 設(shè)置文本內(nèi)容
html()獲取元素內(nèi)HTMLhtml(String value)設(shè)置元素內(nèi)的HTML內(nèi)容
outerHtml()獲取元素外HTML內(nèi)容
data()獲取數(shù)據(jù)內(nèi)容（例如：script和style標(biāo)簽)
tag() and tagName()
操作HTML和文本
append(String html), prepend(String html)
appendText(String text), prependText(String text)
appendElement(String tagName), prependElement(String tagName)
html(String value)

最后編輯于：2018.04.19 09:34:04

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末劳吠，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子巩趁，更是在濱河造成了極大的恐慌赴背，老刑警劉巖，帶你破解...
沈念sama閱讀 211,123評論 6贊 490
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異凰荚，居然都是意外死亡燃观，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,031評論 2贊 384
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門便瑟，熙熙樓的掌柜王于貴愁眉苦臉地迎上來缆毁，“玉大人，你說我怎么就攤上這事到涂〖箍颍” “怎么了？”我有些...
開封第一講書人閱讀 156,723評論 0贊 345
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵践啄，是天一觀的道長浇雹。經(jīng)常有香客問我，道長屿讽，這世上最難降的妖魔是什么昭灵？我笑而不...
開封第一講書人閱讀 56,357評論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮伐谈，結(jié)果婚禮上烂完，老公的妹妹穿的比我還像新娘。我一直安慰自己诵棵，他們只是感情好抠蚣，可當(dāng)我...
茶點故事閱讀 65,412評論 5贊 384
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著履澳，像睡著了一般嘶窄。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上距贷，一...
開封第一講書人閱讀 49,760評論 1贊 289
城市分裂傳說
那天护侮，我揣著相機與錄音，去河邊找鬼储耐。笑死羊初，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的什湘。我是一名探鬼主播长赞，決...
沈念sama閱讀 38,904評論 3贊 405
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼闽撤！你這毒婦竟也來了得哆？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 37,672評論 0贊 266
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤哟旗，失蹤者是張志新（化名）和其女友劉穎贩据，沒想到半個月后栋操，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 44,118評論 1贊 303
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡饱亮，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,456評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年矾芙，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片近上。...
茶點故事閱讀 38,599評論 1贊 340
活死人
序言：一個原本活蹦亂跳的男人離奇死亡剔宪，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出壹无，到底是詐尸還是另有隱情葱绒，我是刑警寧澤，帶...
沈念sama閱讀 34,264評論 4贊 328
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布斗锭，位于F島的核電站地淀，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏岖是。R本人自食惡果不足惜帮毁，卻給世界環(huán)境...
茶點故事閱讀 39,857評論 3贊 312
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望璧微。院中可真熱鬧，春花似錦硬梁、人聲如沸前硫。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,731評論 0贊 21
一樁弒父案荧止，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽屹电。三九已至，卻和暖如春跃巡，著一層夾襖步出監(jiān)牢的瞬間危号，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,956評論 1贊 264
情欲美人皮
我被黑心中介騙來泰國打工素邪，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留外莲，地道東北人。一個月前我還...
沈念sama閱讀 46,286評論 2贊 360
代替公主和親
正文我出身青樓兔朦，卻偏偏與公主長得像偷线，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子沽甥，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 43,465評論 2贊 348

jsoup-htm解析器

入門

1.解析和遍歷一個HTML文檔

如何解析一個HTML文檔：

一個文檔的對象模型

輸入

2潘懊、 解析一個HTML字符串

存在問題

解決方法

描述

3、解析一個body片斷

問題

辦法

說明

保證安全Stay safe

4.從一個URL加載一個Document

存在問題

解決方法

說明

5.從一個文件加載一個文檔

問題

辦法

說明

數(shù)據(jù)抽取

6.使用DOM方法來遍歷一個文檔

問題

方法

說明

推薦閱讀更多精彩內(nèi)容

2潘懊、解析一個HTML字符串