Python xml解析庫(kù)xml_models2

今天給大家介紹一個(gè)用于處理xml的開源庫(kù)xml_models2，它主要能用來對(duì)xml文件進(jìn)行解析驳规。這個(gè)庫(kù)建立在lxml之上，相比python自帶的xmlElementTree恼五、lxml等比較底層的xml處理方式(lxml其實(shí)還行)镰矿，它充分利用了python元類的自示恫尽（元編程）特性罢屈，允許用戶根據(jù)相應(yīng)xml的結(jié)構(gòu)定義自己的model，在model的每個(gè)字段中指定對(duì)應(yīng)的xpath篇亭，利用lxml的xml處理功能將xml中對(duì)應(yīng)路徑的節(jié)點(diǎn)和內(nèi)容提取出來缠捌。與其說這是一個(gè)xml處理，更不如說它是一個(gè)輕量級(jí)的處理xml數(shù)據(jù)的ORM译蒂，只不過并沒有與數(shù)據(jù)庫(kù)打交道而已曼月。

如引言里面描述的那樣，xml_models2能夠通過自定義model來序列化xml柔昼，獲取自己感興趣的節(jié)點(diǎn)的內(nèi)容哑芹。假如我們有如下一個(gè)xml：

<Person id="112">
  <firstName>Chris</firstName>
  <lastName>Tarttelin</lastName>
  <occupation>Code Geek</occupation>
  <website>http://www.pyruby.com</website>
  <contact-info>
    <contact type="telephone">
      <info>(555) 555-5555</info>
      <description>Cell phone, but no calls during work hours</description>
    </contact>
    <contact type="email">
      <info>me@here.net</info>
      <description>Where possible, contact me by email</description>
    </contact>
    <contact type="telephone">
      <info>1-800-555-5555</info>
      <description>Toll free work number for during office hours.</description>
    </contact>
  </contact-info>
</Person>

為了獲取相應(yīng)的數(shù)據(jù)，我們就可以定義如下的model：

class Person(Model):
    id = IntField(xpath="/Person/@id")
    firstName = CharField(xpath="/Person/firstName")
    lastName = CharField(xpath="/Person/lastName")
    contacts = CollectionField(ContactInfo, order_by="contact_type", xpath="Person/contact-info/contact")

class ContactInfo(Model):
    contact_type = CharField(xpath="/contact/@type")
    info = CharField(xpath="/contact/info")
    description = CharField(xpath="/contact/description", default="No description supplied")

Person和ContactInfo model繼承自積累xml_models.Model捕透，IntField聪姿，CharField，CollectionField等字段類型都是xml_models提供的字段類型乙嘀，相信用過像比如SQLAlchemy或者Django ORM的童鞋應(yīng)該不會(huì)陌生末购，只不過這里在使用這些字段的時(shí)候指定的值是一些xpath的值用來指定xml文件中相應(yīng)節(jié)點(diǎn)的路徑。定義好model之后乒躺，只要簡(jiǎn)單調(diào)用就能取到我們想要的數(shù)據(jù)：

>>> person = Person(xml_str)
>>> person.contacts[0].info
me@here.com

在解析xml的時(shí)候招盲，嵌套重復(fù)有規(guī)則的xml數(shù)據(jù)可能會(huì)經(jīng)常會(huì)用到CollectionField，除了像上面定義model的方式指定集合嘉冒，也能夠直接在model里面指定collection_node:

class SomeModel(Model):
  fieldA = CharField(xpath="/some/node")

  collection_node = 'collection'

在這個(gè)庫(kù)里面還封裝了requests的一些基本功能曹货，這樣允許我們直接通過自定義的model里面發(fā)起http請(qǐng)求從提供的api獲取數(shù)據(jù)：

data = SomeModel.objects.filter_custom(url_address_xxx).get()

獲取直接能夠通過rest api查詢查詢一些數(shù)據(jù)：

class Person(xml_models.Model:
    ...
    finders = { (firstName, lastName): "http://person/firstName/%s/lastName/%s",
                (id,): "http:xxxx//person/%s"}
>>> people = Person.objects.filter(firstName='Chris', lastName='Tarttelin')
>>> people.count()
1
>>> person = Person.objects.get(id=123)
>>> person.firstName
Chris

除了如上所示提到的這些，xml_models2還有一些比較好玩的功能：
to_xml(): 將xml序列化之后讳推，我們可能會(huì)做一些更改顶籽，更改之后調(diào)用這個(gè)api能夠生成包含更改內(nèi)容的xml；甚至能夠先定義model银觅，實(shí)例化自己的model實(shí)力然后生成xml礼饱。
validate_on_load()：在model中這個(gè)方法一個(gè)很好的“鉤子”，方便我們?cè)谛蛄谢臅r(shí)候進(jìn)行一些自定義的驗(yàn)證究驴。
blablablanla...

這個(gè)庫(kù)并沒有出來多久镊绪，是在另外一個(gè)開源庫(kù)xml_models上面fork而來，對(duì)大部分的代碼進(jìn)行了重構(gòu)洒忧，特別是元類Model/ModelBase那塊蝴韭。另外項(xiàng)目的文檔，代碼注釋熙侍，單元測(cè)試都很完整榄鉴，非常鼓勵(lì)有興趣的童鞋可以關(guān)注一下履磨。

差不多就給大家介紹到這里，更多的內(nèi)容大家可以查看庫(kù)的文檔和github主頁(yè)庆尘。感興趣的同學(xué)可以試用一下剃诅，有什么問題可以去主頁(yè)上提issue或者pr。

這篇文章大部分部分的內(nèi)容都是從文檔搬來的驶忌，稍稍加了些自己的一些理解加以豐富矛辕，方便大家開始使用。

https://github.com/alephnullplex/xml_models2

http://xml-models2.readthedocs.org/en/latest/

最后編輯于：2017.11.27 03:52:32

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末位岔，一起剝皮案震驚了整個(gè)濱河市如筛，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌抒抬，老刑警劉巖杨刨，帶你破解...
沈念sama閱讀 206,839評(píng)論 6贊 482
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異擦剑，居然都是意外死亡妖胀，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,543評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門惠勒，熙熙樓的掌柜王于貴愁眉苦臉地迎上來赚抡，“玉大人，你說我怎么就攤上這事纠屋⊥砍迹” “怎么了？”我有些...
開封第一講書人閱讀 153,116評(píng)論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵售担，是天一觀的道長(zhǎng)赁遗。經(jīng)常有香客問我，道長(zhǎng)族铆，這世上最難降的妖魔是什么岩四？我笑而不...
開封第一講書人閱讀 55,371評(píng)論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮哥攘，結(jié)果婚禮上剖煌，老公的妹妹穿的比我還像新娘。我一直安慰自己逝淹，他們只是感情好耕姊，可當(dāng)我...
茶點(diǎn)故事閱讀 64,384評(píng)論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著栅葡，像睡著了一般茉兰。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上妥畏，一...
開封第一講書人閱讀 49,111評(píng)論 1贊 285
城市分裂傳說
那天邦邦，我揣著相機(jī)與錄音，去河邊找鬼醉蚁。笑死燃辖，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的网棍。我是一名探鬼主播黔龟，決...
沈念sama閱讀 38,416評(píng)論 3贊 400
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼滥玷！你這毒婦竟也來了氏身？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 37,053評(píng)論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤惑畴，失蹤者是張志新（化名）和其女友劉穎蛋欣，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體如贷，經(jīng)...
沈念sama閱讀 43,558評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡陷虎，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,007評(píng)論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了杠袱。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片尚猿。...
茶點(diǎn)故事閱讀 38,117評(píng)論 1贊 334
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖楣富，靈堂內(nèi)的尸體忽然破棺而出凿掂，到底是詐尸還是另有隱情，我是刑警寧澤纹蝴，帶...
沈念sama閱讀 33,756評(píng)論 4贊 324
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布庄萎，位于F島的核電站，受9級(jí)特大地震影響骗灶，放射性物質(zhì)發(fā)生泄漏惨恭。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,324評(píng)論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一耙旦、第九天我趴在偏房一處隱蔽的房頂上張望脱羡。院中可真熱鬧，春花似錦免都、人聲如沸锉罐。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,315評(píng)論 0贊 19
一樁弒父案绕娘，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)脓规。三九已至，卻和暖如春险领，著一層夾襖步出監(jiān)牢的瞬間侨舆，已是汗流浹背秒紧。一陣腳步聲響...
開封第一講書人閱讀 31,539評(píng)論 1贊 262
情欲美人皮
我被黑心中介騙來泰國(guó)打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留挨下，地道東北人熔恢。一個(gè)月前我還...
沈念sama閱讀 45,578評(píng)論 2贊 355
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像臭笆，于是被迫代替她去往敵國(guó)和親叙淌。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,877評(píng)論 2贊 345

Python xml解析庫(kù)xml_models2

推薦閱讀更多精彩內(nèi)容