XML大文件解析(文件大忻汀:21G)

最近解析了一個超大的xml澎胡,之間遇到很多坑,有寫Java程序娩鹉、spark程序攻谁,最后用Python處理的:
Java、spark弯予、python處理XML速度對比:Python>spark>java
因為是XML戚宦,所以不能破壞標簽的完整性,所以spark可以提交yarn后也只是用一個executors在跑锈嫩,只不過用了多個cores受楼,速度還是非常慢的(Java和spark用一個早晨沒有跑完)垦搬,期間還遇到了OOM問題,因為spark單個executors的內(nèi)存大小在配置文件中是有限制的艳汽,所以會出現(xiàn)OOM猴贰,java大家知道的,首先要讀取整個文件到內(nèi)存中河狐,前提是內(nèi)存夠米绕,再加上中間處理結(jié)果的存放,使用內(nèi)存遠大于文件大小21G
數(shù)據(jù)樣例:(數(shù)據(jù)較簡單馋艺,原理一樣)

<add overwrite="true" commitWithin="10000">
<doc><field name="id" ><![CDATA[286c9edd3f2721730a8cecdbfec94ee4X]]></field>
<field name="an-country" ><![CDATA[GR]]></field>
<field name="an" ><![CDATA[88100105]]></field>
<field name="an-kind" ><![CDATA[A]]></field>
<field name="pn-country" ><![CDATA[GR]]></field>
<field name="pn" ><![CDATA[880100105]]></field>
<field name="pn-kind" ><![CDATA[A]]></field>
<field name="ctfw-country" ><![CDATA[DE]]></field>
<field name="ctfw-num" ><![CDATA[DE2736069]]></field>
<field name="ctfw-kind" ><![CDATA[A1]]></field>
<field name="srepphase" ><![CDATA[SEA]]></field>
<field name="srepphase" ><![CDATA[SEA]]></field>
</doc>
<doc><field name="id" ><![CDATA[caf2088f80da92f58c413d23d9cc8124X]]></field>
<field name="an-country" ><![CDATA[GR]]></field>
<field name="an" ><![CDATA[88100091]]></field>
<field name="an-kind" ><![CDATA[A]]></field>
<field name="pn-country" ><![CDATA[GR]]></field>
<field name="pn" ><![CDATA[880100091]]></field>
<field name="pn-kind" ><![CDATA[A]]></field>
<field name="ctfw-country" ><![CDATA[FR]]></field>
<field name="ctfw-country" ><![CDATA[GB]]></field>
<field name="ctfw-country" ><![CDATA[US]]></field>
<field name="ctfw-country" ><![CDATA[EP]]></field>
<field name="ctfw-country" ><![CDATA[EP]]></field>
<field name="ctfw-num" ><![CDATA[FR2585362]]></field>
<field name="ctfw-num" ><![CDATA[GB2141152]]></field>
<field name="ctfw-num" ><![CDATA[US4292035]]></field>
<field name="ctfw-num" ><![CDATA[EP0026529]]></field>
<field name="ctfw-num" ><![CDATA[EP0146289]]></field>
<field name="ctfw-kind" ><![CDATA[A1]]></field>
<field name="ctfw-kind" ><![CDATA[A]]></field>
<field name="ctfw-kind" ><![CDATA[A]]></field>
<field name="ctfw-kind" ><![CDATA[A1]]></field>
<field name="ctfw-kind" ><![CDATA[A2]]></field>
<field name="srepphase" ><![CDATA[SEA]]></field>
<field name="srepphase" ><![CDATA[SEA]]></field>
<field name="srepphase" ><![CDATA[SEA]]></field>
<field name="srepphase" ><![CDATA[SEA]]></field>
<field name="srepphase" ><![CDATA[SEA]]></field>
<field name="srepphase" ><![CDATA[SEA]]></field>
</doc>
</add>

spark代碼:
spark代碼也是將整個文件加載到內(nèi)存中栅干,耗內(nèi)存,解析速度慢

object ParseQuoteData1 {
def main(args: Array[String]): Unit = {
//構(gòu)建sparksession
/val spark = SparkSession.builder
.master("local[1]")
.appName("Parse_xml").getOrCreate()
val sc = spark.sparkContext
/
/val conf = new SparkConf().setAppName("quote_parse").setMaster("local[1]")
conf.set("spark.rdd.compress", "true")
val sc = new SparkContext(conf)
/
val someXML = XML.loadFile(args(0))
val pubRef_len = (someXML \ "add" \ "doc" ).length
val file = args(1)
val writer = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(file)))
// val array = new ArrayString
for(a <- 0 to pubRef_len - 1){
val quotedata = (someXML \ "add" \ "doc" )(a)
val fields = quotedata \ "field"
val fields_nature = quotedata \ "field" \"@name"
val quotList = new util.ArrayListString
for(b <- 0 to fields.length -1){
val k = fields_nature(b).text
val v = fields(b).text
val line = k + ":" + v
quotList.add(line)
}
val res = quotList.toString.replace("[", "").replace("]", "")
println(res)
writer.write(res + "\n")
}
writer.close()
}
}

Python代碼:
python解析的原理非常符合處理大文件丈钙,即使超過50G也可以正常處理非驮,而且速度很快,
解析原理:標簽迭代雏赦,每次取出需要解析的一個標簽劫笙,放到內(nèi)存中解析,內(nèi)存耗費非常小

-- coding:utf-8 --

from lxml import etree
import time
def fast_iter(context,*args, **kwargs):
"""
讀取xml數(shù)據(jù)星岗,并釋放空間
context: etree.iterparse生成的迭代器
"""
# 打開文件
with open('data/result.txt', 'a') as f:
"""
event:事件
elem:元素
"""
# 處理xml數(shù)據(jù)
for event, elem in context:
list = []
for e in elem:
# 獲取標簽屬性值填大,獲取標簽值
s1 = e.get("name") + ":" + e.text
# print(e.get("name") + ":" + e.text)
list = list + [s1]
# 替換list的【】,變?yōu)橐粋€ 俏橘,分隔的字符串
res = str(list).replace("[", "").replace("]", "").replace("'", "")
f.write(res) # 寫入
f.write('\n')
# 重置元素允华,清空元素內(nèi)部數(shù)據(jù)
elem.clear()
# 選取當前節(jié)點的所有先輩(父、祖父等)節(jié)點寥掐,以及當前節(jié)點本身
for ftag in elem.xpath('doc'):
# 如果當前節(jié)點還有前一個兄弟靴寂,則刪除父節(jié)點的第一個子節(jié)點。getprevious():返回當前節(jié)點的前一個兄弟或None召耘。
while ftag.getprevious() is not None:
# 刪除父節(jié)點的第一個子節(jié)點百炬,getparent():返回當前節(jié)點的父元素或根元素或None。
del ftag.getparent()[0]
# 釋放內(nèi)存
del context
def process_element(elem):
"""
處理element
:params elem: Element
"""
# 儲存基因列表
gene_list = []
for i in elem.xpath('add'):
# 獲取基因名字
gene = i.text
# 添加到列表
gene_list.append(gene)
print('gene', gene_list)
if name == 'main':
print('start', time.strftime('%Y-%m-%d %H:%M:%S', time.localtime()))
start = time.time()
# 需要處理的文件路徑
infile = r'data/patent_info_cited__GR_cited_Thread.xml'
# 通過迭代讀取xml污它,帶命名空間的要加上命名空間
# context = etree.iterparse(infile, events=('end',), encoding='UTF-8', tag='{http://uniprot.org/uniprot}doc')
context = etree.iterparse(infile, events=('end',), encoding='UTF-8', tag='doc')
# 快速讀取xml數(shù)據(jù)
fast_iter(context,process_element)
print('stop', time.strftime('%Y-%m-%d %H:%M:%S', time.localtime()))
print('time', time.time() - start)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末剖踊,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子衫贬,更是在濱河造成了極大的恐慌德澈,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,817評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件固惯,死亡現(xiàn)場離奇詭異梆造,居然都是意外死亡,警方通過查閱死者的電腦和手機缝呕,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,329評論 3 385
  • 文/潘曉璐 我一進店門澳窑,熙熙樓的掌柜王于貴愁眉苦臉地迎上來斧散,“玉大人,你說我怎么就攤上這事摊聋〖瑁” “怎么了?”我有些...
    開封第一講書人閱讀 157,354評論 0 348
  • 文/不壞的土叔 我叫張陵麻裁,是天一觀的道長箍镜。 經(jīng)常有香客問我,道長煎源,這世上最難降的妖魔是什么色迂? 我笑而不...
    開封第一講書人閱讀 56,498評論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮手销,結(jié)果婚禮上歇僧,老公的妹妹穿的比我還像新娘。我一直安慰自己锋拖,他們只是感情好诈悍,可當我...
    茶點故事閱讀 65,600評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著兽埃,像睡著了一般侥钳。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上柄错,一...
    開封第一講書人閱讀 49,829評論 1 290
  • 那天舷夺,我揣著相機與錄音,去河邊找鬼售貌。 笑死给猾,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的颂跨。 我是一名探鬼主播耙册,決...
    沈念sama閱讀 38,979評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼毫捣!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起帝际,我...
    開封第一講書人閱讀 37,722評論 0 266
  • 序言:老撾萬榮一對情侶失蹤蔓同,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后蹲诀,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體斑粱,經(jīng)...
    沈念sama閱讀 44,189評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,519評論 2 327
  • 正文 我和宋清朗相戀三年脯爪,在試婚紗的時候發(fā)現(xiàn)自己被綠了则北。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片矿微。...
    茶點故事閱讀 38,654評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖尚揣,靈堂內(nèi)的尸體忽然破棺而出涌矢,到底是詐尸還是另有隱情,我是刑警寧澤快骗,帶...
    沈念sama閱讀 34,329評論 4 330
  • 正文 年R本政府宣布娜庇,位于F島的核電站,受9級特大地震影響方篮,放射性物質(zhì)發(fā)生泄漏名秀。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,940評論 3 313
  • 文/蒙蒙 一藕溅、第九天 我趴在偏房一處隱蔽的房頂上張望匕得。 院中可真熱鬧,春花似錦巾表、人聲如沸汁掠。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,762評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽调塌。三九已至,卻和暖如春惠猿,著一層夾襖步出監(jiān)牢的瞬間羔砾,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,993評論 1 266
  • 我被黑心中介騙來泰國打工偶妖, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留姜凄,地道東北人。 一個月前我還...
    沈念sama閱讀 46,382評論 2 360
  • 正文 我出身青樓趾访,卻偏偏與公主長得像态秧,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子扼鞋,可洞房花燭夜當晚...
    茶點故事閱讀 43,543評論 2 349