Python xml解析庫(kù)xml_models2

今天給大家介紹一個(gè)用于處理xml的開源庫(kù)xml_models2,它主要能用來對(duì)xml文件進(jìn)行解析驳规。這個(gè)庫(kù)建立在lxml之上,相比python自帶的xmlElementTree恼五、lxml比較底層的xml處理方式(lxml其實(shí)還行)镰矿,它充分利用了python元類的自示恫尽(元編程)特性罢屈,允許用戶根據(jù)相應(yīng)xml的結(jié)構(gòu)定義自己的model,在model的每個(gè)字段中指定對(duì)應(yīng)的xpath篇亭,利用lxml的xml處理功能將xml中對(duì)應(yīng)路徑的節(jié)點(diǎn)和內(nèi)容提取出來缠捌。與其說這是一個(gè)xml處理,更不如說它是一個(gè)輕量級(jí)的處理xml數(shù)據(jù)的ORM译蒂,只不過并沒有與數(shù)據(jù)庫(kù)打交道而已曼月。

如引言里面描述的那樣,xml_models2能夠通過自定義model來序列化xml柔昼,獲取自己感興趣的節(jié)點(diǎn)的內(nèi)容哑芹。假如我們有如下一個(gè)xml:

<Person id="112">
  <firstName>Chris</firstName>
  <lastName>Tarttelin</lastName>
  <occupation>Code Geek</occupation>
  <website>http://www.pyruby.com</website>
  <contact-info>
    <contact type="telephone">
      <info>(555) 555-5555</info>
      <description>Cell phone, but no calls during work hours</description>
    </contact>
    <contact type="email">
      <info>me@here.net</info>
      <description>Where possible, contact me by email</description>
    </contact>
    <contact type="telephone">
      <info>1-800-555-5555</info>
      <description>Toll free work number for during office hours.</description>
    </contact>
  </contact-info>
</Person>

為了獲取相應(yīng)的數(shù)據(jù),我們就可以定義如下的model:

class Person(Model):
    id = IntField(xpath="/Person/@id")
    firstName = CharField(xpath="/Person/firstName")
    lastName = CharField(xpath="/Person/lastName")
    contacts = CollectionField(ContactInfo, order_by="contact_type", xpath="Person/contact-info/contact")

class ContactInfo(Model):
    contact_type = CharField(xpath="/contact/@type")
    info = CharField(xpath="/contact/info")
    description = CharField(xpath="/contact/description", default="No description supplied")

Person和ContactInfo model繼承自積累xml_models.Model捕透,IntField聪姿,CharField,CollectionField等字段類型都是xml_models提供的字段類型乙嘀,相信用過像比如SQLAlchemy或者Django ORM的童鞋應(yīng)該不會(huì)陌生末购,只不過這里在使用這些字段的時(shí)候指定的值是一些xpath的值用來指定xml文件中相應(yīng)節(jié)點(diǎn)的路徑。定義好model之后乒躺,只要簡(jiǎn)單調(diào)用就能取到我們想要的數(shù)據(jù):

>>> person = Person(xml_str)
>>> person.contacts[0].info
me@here.com

在解析xml的時(shí)候招盲,嵌套重復(fù)有規(guī)則的xml數(shù)據(jù)可能會(huì)經(jīng)常會(huì)用到CollectionField,除了像上面定義model的方式指定集合嘉冒,也能夠直接在model里面指定collection_node:

class SomeModel(Model):
  fieldA = CharField(xpath="/some/node")

  collection_node = 'collection'

在這個(gè)庫(kù)里面還封裝了requests的一些基本功能曹货,這樣允許我們直接通過自定義的model里面發(fā)起http請(qǐng)求從提供的api獲取數(shù)據(jù):

data = SomeModel.objects.filter_custom(url_address_xxx).get()

獲取直接能夠通過rest api查詢查詢一些數(shù)據(jù):

class Person(xml_models.Model:
    ...
    finders = { (firstName, lastName): "http://person/firstName/%s/lastName/%s",
                (id,): "http:xxxx//person/%s"}
>>> people = Person.objects.filter(firstName='Chris', lastName='Tarttelin')
>>> people.count()
1
>>> person = Person.objects.get(id=123)
>>> person.firstName
Chris

除了如上所示提到的這些,xml_models2還有一些比較好玩的功能:
to_xml(): 將xml序列化之后讳推,我們可能會(huì)做一些更改顶籽,更改之后調(diào)用這個(gè)api能夠生成包含更改內(nèi)容的xml;甚至能夠先定義model银觅,實(shí)例化自己的model實(shí)力然后生成xml礼饱。
validate_on_load(): 在model中這個(gè)方法一個(gè)很好的“鉤子”,方便我們?cè)谛蛄谢臅r(shí)候進(jìn)行一些自定義的驗(yàn)證究驴。
blablablanla...

這個(gè)庫(kù)并沒有出來多久镊绪,是在另外一個(gè)開源庫(kù)xml_models上面fork而來,對(duì)大部分的代碼進(jìn)行了重構(gòu)洒忧,特別是元類Model/ModelBase那塊蝴韭。另外項(xiàng)目的文檔,代碼注釋熙侍,單元測(cè)試都很完整榄鉴,非常鼓勵(lì)有興趣的童鞋可以關(guān)注一下履磨。

差不多就給大家介紹到這里,更多的內(nèi)容大家可以查看庫(kù)的文檔github主頁(yè)庆尘。感興趣的同學(xué)可以試用一下剃诅,有什么問題可以去主頁(yè)上提issue或者pr。

這篇文章大部分部分的內(nèi)容都是從文檔搬來的驶忌,稍稍加了些自己的一些理解加以豐富矛辕,方便大家開始使用。

https://github.com/alephnullplex/xml_models2

http://xml-models2.readthedocs.org/en/latest/

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末位岔,一起剝皮案震驚了整個(gè)濱河市如筛,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌抒抬,老刑警劉巖杨刨,帶你破解...
    沈念sama閱讀 206,839評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異擦剑,居然都是意外死亡妖胀,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門惠勒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來赚抡,“玉大人,你說我怎么就攤上這事纠屋⊥砍迹” “怎么了?”我有些...
    開封第一講書人閱讀 153,116評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵售担,是天一觀的道長(zhǎng)赁遗。 經(jīng)常有香客問我,道長(zhǎng)族铆,這世上最難降的妖魔是什么岩四? 我笑而不...
    開封第一講書人閱讀 55,371評(píng)論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮哥攘,結(jié)果婚禮上剖煌,老公的妹妹穿的比我還像新娘。我一直安慰自己逝淹,他們只是感情好耕姊,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評(píng)論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著栅葡,像睡著了一般茉兰。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上妥畏,一...
    開封第一講書人閱讀 49,111評(píng)論 1 285
  • 那天邦邦,我揣著相機(jī)與錄音,去河邊找鬼醉蚁。 笑死燃辖,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的网棍。 我是一名探鬼主播黔龟,決...
    沈念sama閱讀 38,416評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼滥玷!你這毒婦竟也來了氏身?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,053評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤惑畴,失蹤者是張志新(化名)和其女友劉穎蛋欣,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體如贷,經(jīng)...
    沈念sama閱讀 43,558評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡陷虎,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了杠袱。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片尚猿。...
    茶點(diǎn)故事閱讀 38,117評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖楣富,靈堂內(nèi)的尸體忽然破棺而出凿掂,到底是詐尸還是另有隱情,我是刑警寧澤纹蝴,帶...
    沈念sama閱讀 33,756評(píng)論 4 324
  • 正文 年R本政府宣布庄萎,位于F島的核電站,受9級(jí)特大地震影響骗灶,放射性物質(zhì)發(fā)生泄漏惨恭。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評(píng)論 3 307
  • 文/蒙蒙 一耙旦、第九天 我趴在偏房一處隱蔽的房頂上張望脱羡。 院中可真熱鬧,春花似錦免都、人聲如沸锉罐。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)脓规。三九已至,卻和暖如春险领,著一層夾襖步出監(jiān)牢的瞬間侨舆,已是汗流浹背秒紧。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評(píng)論 1 262
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留挨下,地道東北人熔恢。 一個(gè)月前我還...
    沈念sama閱讀 45,578評(píng)論 2 355
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像臭笆,于是被迫代替她去往敵國(guó)和親叙淌。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容