XML:
-
概念:Extensible Markup Language 可擴(kuò)展標(biāo)記語(yǔ)言
可擴(kuò)展:標(biāo)簽都是自定義的穷当。
-
功能
- 存儲(chǔ)數(shù)據(jù)
- 配置文件
- 在網(wǎng)絡(luò)中傳輸
- 存儲(chǔ)數(shù)據(jù)
-
xml與html的區(qū)別
- xml標(biāo)簽都是自定義的,html標(biāo)簽是預(yù)定義茴扁。
- xml的語(yǔ)法嚴(yán)格汪疮,html語(yǔ)法松散
- xml是存儲(chǔ)數(shù)據(jù)的,html是展示數(shù)據(jù)
w3c:萬(wàn)維網(wǎng)聯(lián)盟
-
語(yǔ)法:
-
基本語(yǔ)法:
- xml文檔的后綴名 .xml
- xml第一行必須定義為文檔聲明
- xml文檔中有且僅有一個(gè)根標(biāo)簽
- 屬性值必須使用引號(hào)(單雙都可)引起來(lái)
- 標(biāo)簽必須正確關(guān)閉
- xml標(biāo)簽名稱區(qū)分大小寫
快速入門:
<?xml version='1.0' ?>
<users>
<user id='1'>
<name>zhangsan</name>
<age>23</age>
<gender>male</gender>
<br/ >
</user>
</users>-
組成部分:
-
文檔聲明
- 格式:<?xml 屬性列表 ?>
- 屬性列表:
- version:版本號(hào),必須的屬性
- encoding:編碼方式纤勒。告知解析引擎當(dāng)前文檔使用的字符集摇天,默認(rèn)值:ISO-8859-1
- standalone:是否獨(dú)立
- 取值:
- yes:不依賴其他文件
- no:依賴其他文件
- 取值:
-
指令(了解):結(jié)合css的
- <?xml-stylesheet type="text/css" href="a.css" ?>
-
標(biāo)簽:標(biāo)簽名稱自定義的
- 規(guī)則:
- 名稱可以包含字母恐仑、數(shù)字以及其他的字符
- 名稱不能以數(shù)字或者標(biāo)點(diǎn)符號(hào)開始
- 名稱不能以字母 xml(或者 XML为鳄、Xml 等等)開始
- 名稱不能包含空格
- 規(guī)則:
屬性:
id屬性值唯一-
文本:
- CDATA區(qū):在該區(qū)域中的數(shù)據(jù)會(huì)被原樣展示
- 格式: <![CDATA[ 數(shù)據(jù) ]]>
- CDATA區(qū):在該區(qū)域中的數(shù)據(jù)會(huì)被原樣展示
-
-
約束:規(guī)定xml文檔的書寫規(guī)則
-
作為框架的使用者(程序員):
- 能夠在xml中引入約束文檔
- 能夠簡(jiǎn)單的讀懂約束文檔
-
分類:
- DTD:一種簡(jiǎn)單的約束技術(shù)
- Schema:一種復(fù)雜的約束技術(shù)
-
DTD:
- 引入dtd文檔到xml文檔中
- 內(nèi)部dtd:將約束規(guī)則定義在xml文檔中
- 外部dtd:將約束的規(guī)則定義在外部的dtd文件中
- 本地:<!DOCTYPE 根標(biāo)簽名 SYSTEM "dtd文件的位置">
- 網(wǎng)絡(luò):<!DOCTYPE 根標(biāo)簽名 PUBLIC "dtd文件名字" "dtd文件的位置URL">
- 引入dtd文檔到xml文檔中
-
Schema:
- 引入:
1.填寫xml文檔的根元素
2.引入xsi前綴. xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
3.引入xsd文件命名空間. xsi:schemaLocation="http://www.itcast.cn/xml student.xsd"
4.為每一個(gè)xsd約束聲明一個(gè)前綴,作為標(biāo)識(shí) xmlns="http://www.itcast.cn/xml"
<students xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xmlns="http://www.itcast.cn/xml"
xsi:schemaLocation="http://www.itcast.cn/xml student.xsd"> - 引入:
-
-
-
解析:操作xml文檔歧斟,將文檔中的數(shù)據(jù)讀取到內(nèi)存中
-
操作xml文檔
- 解析(讀取):將文檔中的數(shù)據(jù)讀取到內(nèi)存中
- 寫入:將內(nèi)存中的數(shù)據(jù)保存到xml文檔中偏形。持久化的存儲(chǔ)
-
解析xml的方式:
- DOM:將標(biāo)記語(yǔ)言文檔一次性加載進(jìn)內(nèi)存,在內(nèi)存中形成一顆dom樹
- 優(yōu)點(diǎn):操作方便队橙,可以對(duì)文檔進(jìn)行CRUD的所有操作
- 缺點(diǎn):占內(nèi)存
- SAX:逐行讀取萨惑,基于事件驅(qū)動(dòng)的。
- 優(yōu)點(diǎn):不占內(nèi)存解总。
- 缺點(diǎn):只能讀取姐仅,不能增刪改
- DOM:將標(biāo)記語(yǔ)言文檔一次性加載進(jìn)內(nèi)存,在內(nèi)存中形成一顆dom樹
-
xml常見的解析器:
- JAXP:sun公司提供的解析器萍嬉,支持dom和sax兩種思想
- DOM4J:一款非常優(yōu)秀的解析器
- Jsoup:jsoup 是一款Java 的HTML解析器隙疚,可直接解析某個(gè)URL地址、HTML文本內(nèi)容行冰。它提供了一套非常省力的API伶丐,可通過DOM,CSS以及類似于jQuery的操作方法來(lái)取出和操作數(shù)據(jù)肛走。
- PULL:Android操作系統(tǒng)內(nèi)置的解析器录别,sax方式的邻吞。
-
Jsoup:jsoup 是一款Java 的HTML解析器抱冷,可直接解析某個(gè)URL地址梢褐、HTML文本內(nèi)容。它提供了一套非常省力的API耿眉,可通過DOM猪贪,CSS以及類似于jQuery的操作方法來(lái)取出和操作數(shù)據(jù)。
-
快速入門:
- 步驟:
- 導(dǎo)入jar包
- 獲取Document對(duì)象
- 獲取對(duì)應(yīng)的標(biāo)簽Element對(duì)象
- 獲取數(shù)據(jù)
- 步驟:
-
代碼:
//2.1獲取student.xml的path
String path = JsoupDemo1.class.getClassLoader().getResource("student.xml").getPath();
//2.2解析xml文檔西傀,加載文檔進(jìn)內(nèi)存拥褂,獲取dom樹--->Document
Document document = Jsoup.parse(new File(path), "utf-8");
//3.獲取元素對(duì)象 Element
Elements elements = document.getElementsByTag("name");System.out.println(elements.size());
//3.1獲取第一個(gè)name的Element對(duì)象
Element element = elements.get(0);
//3.2獲取數(shù)據(jù)
String name = element.text();
System.out.println(name);
-
-
對(duì)象的使用:
- Jsoup:工具類牙寞,可以解析html或xml文檔,返回Document
- parse:解析html或xml文檔悔详,返回Document
- parse?(File in, String charsetName):解析xml或html文件的惹挟。
- parse?(String html):解析xml或html字符串
- parse?(URL url, int timeoutMillis):通過網(wǎng)絡(luò)路徑獲取指定的html或xml的文檔對(duì)象
- parse:解析html或xml文檔悔详,返回Document
- Document:文檔對(duì)象连锯。代表內(nèi)存中的dom樹
- 獲取Element對(duì)象
- getElementById?(String id):根據(jù)id屬性值獲取唯一的element對(duì)象
- getElementsByTag?(String tagName):根據(jù)標(biāo)簽名稱獲取元素對(duì)象集合
- getElementsByAttribute?(String key):根據(jù)屬性名稱獲取元素對(duì)象集合
- getElementsByAttributeValue?(String key, String value):根據(jù)對(duì)應(yīng)的屬性名和屬性值獲取元素對(duì)象集合
- 獲取Element對(duì)象
- Elements:元素Element對(duì)象的集合∑雌可以當(dāng)做 ArrayList<Element>來(lái)使用
- Element:元素對(duì)象
-
獲取子元素對(duì)象
- getElementById?(String id):根據(jù)id屬性值獲取唯一的element對(duì)象
- getElementsByTag?(String tagName):根據(jù)標(biāo)簽名稱獲取元素對(duì)象集合
- getElementsByAttribute?(String key):根據(jù)屬性名稱獲取元素對(duì)象集合
- getElementsByAttributeValue?(String key, String value):根據(jù)對(duì)應(yīng)的屬性名和屬性值獲取元素對(duì)象集合
-
獲取屬性值
- String attr(String key):根據(jù)屬性名稱獲取屬性值
-
獲取文本內(nèi)容
- String text():獲取文本內(nèi)容
- String html():獲取標(biāo)簽體的所有內(nèi)容(包括字標(biāo)簽的字符串內(nèi)容)
-
- Node:節(jié)點(diǎn)對(duì)象
- 是Document和Element的父類
- Jsoup:工具類牙寞,可以解析html或xml文檔,返回Document
-
快捷查詢方式:
- selector:選擇器
- 使用的方法:Elements select?(String cssQuery)
- 語(yǔ)法:參考Selector類中定義的語(yǔ)法
- 使用的方法:Elements select?(String cssQuery)
- XPath:XPath即為XML路徑語(yǔ)言吻氧,它是一種用來(lái)確定XML(標(biāo)準(zhǔn)通用標(biāo)記語(yǔ)言的子集)文檔中某部分位置的語(yǔ)言
- 使用Jsoup的Xpath需要額外導(dǎo)入jar包。
- 查詢w3cshool參考手冊(cè)砸狞,使用xpath的語(yǔ)法完成查詢
- selector:選擇器
-