Java調(diào)用python解析xpath

一故慈、需求背景

公司有爬蟲需求具练,希望通過xpath解析網(wǎng)頁帘饶,最早的版本是調(diào)用Java版本的Jsoup來完成的,但是Jsoup只能處理一些簡單的xpath撒璧,對于一些特殊函數(shù)的xpath無法支持透葛,后來又通過使用xpath2selector用來處理高級xpath問題,但是xpath2selector也存在一些問題卿樱,不能支持部分高級函數(shù)以及亂碼問題僚害,java版本使用xpath太難尋找,最終決定使用python作為解析xpath的語言。

二萨蚕、需求分析

用python解析xpath需要解決兩個問題

1.Java調(diào)用python

2.python解析xpath

三靶草、需求實現(xiàn)

1、Java調(diào)用python

剛開始的時候使用Jython作為Java和python之間的互通工具岳遥,測試之后確實可以使用奕翔,但是等到使用python的時候發(fā)現(xiàn)Jython不支持lxml,最后決定使用Java原生調(diào)用命令行的方式浩蓉。以下為Java原生調(diào)用python的解決方案

由于簡書對code的支持不是特別好派继,所以以下用圖片代替

注:在linux環(huán)境中每個傳入的參數(shù)長度不能超過132kb

2、python接收數(shù)據(jù)并用lxml處理返回

1:接收數(shù)據(jù)

#python lxml解析xpath

3捻艳、環(huán)境搭配

pip? installl? xml

原文地址可查看:http://blog.csdn.net/yanxiaobo1991/article/details/78144359

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末驾窟,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子认轨,更是在濱河造成了極大的恐慌绅络,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,294評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件嘁字,死亡現(xiàn)場離奇詭異恩急,居然都是意外死亡,警方通過查閱死者的電腦和手機拳锚,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,493評論 3 385
  • 文/潘曉璐 我一進店門假栓,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人霍掺,你說我怎么就攤上這事匾荆。” “怎么了杆烁?”我有些...
    開封第一講書人閱讀 157,790評論 0 348
  • 文/不壞的土叔 我叫張陵牙丽,是天一觀的道長。 經(jīng)常有香客問我兔魂,道長烤芦,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,595評論 1 284
  • 正文 為了忘掉前任析校,我火速辦了婚禮构罗,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘智玻。我一直安慰自己遂唧,他們只是感情好,可當我...
    茶點故事閱讀 65,718評論 6 386
  • 文/花漫 我一把揭開白布吊奢。 她就那樣靜靜地躺著盖彭,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上召边,一...
    開封第一講書人閱讀 49,906評論 1 290
  • 那天铺呵,我揣著相機與錄音,去河邊找鬼隧熙。 笑死片挂,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的贞盯。 我是一名探鬼主播宴卖,決...
    沈念sama閱讀 39,053評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼邻悬!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起随闽,我...
    開封第一講書人閱讀 37,797評論 0 268
  • 序言:老撾萬榮一對情侶失蹤父丰,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后掘宪,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蛾扇,經(jīng)...
    沈念sama閱讀 44,250評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,570評論 2 327
  • 正文 我和宋清朗相戀三年魏滚,在試婚紗的時候發(fā)現(xiàn)自己被綠了镀首。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,711評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡鼠次,死狀恐怖更哄,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情腥寇,我是刑警寧澤成翩,帶...
    沈念sama閱讀 34,388評論 4 332
  • 正文 年R本政府宣布,位于F島的核電站赦役,受9級特大地震影響麻敌,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜掂摔,卻給世界環(huán)境...
    茶點故事閱讀 40,018評論 3 316
  • 文/蒙蒙 一术羔、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧乙漓,春花似錦级历、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,796評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春扛禽,著一層夾襖步出監(jiān)牢的瞬間锋边,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,023評論 1 266
  • 我被黑心中介騙來泰國打工编曼, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留豆巨,地道東北人。 一個月前我還...
    沈念sama閱讀 46,461評論 2 360
  • 正文 我出身青樓掐场,卻偏偏與公主長得像往扔,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子熊户,可洞房花燭夜當晚...
    茶點故事閱讀 43,595評論 2 350

推薦閱讀更多精彩內(nèi)容

  • 環(huán)境管理管理Python版本和環(huán)境的工具萍膛。p–非常簡單的交互式python版本管理工具。pyenv–簡單的Pyth...
    MrHamster閱讀 3,788評論 1 61
  • 每日千字文1 最近,因為關(guān)注古典而去下載安裝了“得到”蝌戒,也因為這樣的關(guān)注看到了邏輯思維串塑,正好,都在同一個平臺上北苟。我...
    星酉林夕閱讀 230評論 0 0
  • ——我見過的最美的情人節(jié)花束桩匪。來自我的女神~小憶 1月16日下午,影姐說友鼻,給你介紹一位朋友吧傻昙,和你有點像。還貼了幾...
    水若_小水囈夢閱讀 517評論 0 0
  • 《Effective C++ 中文版 第三版》讀書筆記 ** 條款 25:考慮寫出一個不拋異常的 swap 函數(shù) ...
    趙者也閱讀 622評論 0 0