2019-03-28 XPath提取多個標(biāo)簽下的text

今天在用Python爬取簡歷時段化,想把教育經(jīng)歷嘁捷,工作經(jīng)歷一起輸出來,即提取標(biāo)簽及其子標(biāo)簽下(多個標(biāo)簽下)的text內(nèi)容显熏。

XPath提取多個標(biāo)簽下的text內(nèi)容

網(wǎng)上搜到的基本都是這篇文章:

xpath一次提取多個標(biāo)簽下的內(nèi)容

用的xpath string(.)? 我試了一下雄嚣,還是報錯。不得已準(zhǔn)備用迭代的方式取出內(nèi)容。后來發(fā)現(xiàn)是selector.xpath('//xxxx')取出來的應(yīng)該是集合缓升,這個地方應(yīng)該是寫錯誤了鼓鲁,data要加上索引,即代碼應(yīng)該是:

info = data[0].xpath('string(.)').extract()[0]

果然港谊,修改后就得到了所有的文本內(nèi)容骇吭。

再往文章上面看,作者寫了一個tag:

tags: [xpath,Python,xml,scrapy]

是因?yàn)檫@僅僅是在scrapy下這樣寫的嗎歧寺?正好這兩天也在看scrapy燥狰,我就試著用scrapy抓取這段數(shù)據(jù)。

簡書上的文章信息

發(fā)現(xiàn)仍是一樣斜筐,xpath('xxx')取出的就是集合碾局,下一次操作時要么使用迭代,要么加上索引操作奴艾。

XPath提取數(shù)據(jù)塊(結(jié)構(gòu)性數(shù)據(jù))的技巧

選取點(diǎn)放在包含結(jié)構(gòu)性數(shù)據(jù)循環(huán)的地方,即取決大的地方内斯,再用xpath向內(nèi)取數(shù)據(jù)蕴潦。就是先抓大再抓小。

如爬取簡書上文章的信息俘闯,第一次selector要定在ul class="article-list thumbnails" 的li潭苞,<li></li>中包含的就是一篇文章的信息。(注意li 的樣式有兩種? have-img 即有縮略圖的)

文章列表html

articles = selector.xpath('//ul[@class="article-list thumbnails"]/li')forarticleinarticles:? ??

title = article.xpath('div/h4/a/text()').extract()? ? ? ??

url = article.xpath('div/h4/a/@href').extract()? ? ? ??

author = article.xpath('div/p/a/text()').extract()


鏈接:http://www.reibang.com/p/7041a7ba7fe0

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末真朗,一起剝皮案震驚了整個濱河市此疹,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌遮婶,老刑警劉巖蝗碎,帶你破解...
    沈念sama閱讀 207,113評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異旗扑,居然都是意外死亡蹦骑,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評論 2 381
  • 文/潘曉璐 我一進(jìn)店門臀防,熙熙樓的掌柜王于貴愁眉苦臉地迎上來眠菇,“玉大人,你說我怎么就攤上這事袱衷∩臃希” “怎么了?”我有些...
    開封第一講書人閱讀 153,340評論 0 344
  • 文/不壞的土叔 我叫張陵致燥,是天一觀的道長登疗。 經(jīng)常有香客問我,道長嫌蚤,這世上最難降的妖魔是什么谜叹? 我笑而不...
    開封第一講書人閱讀 55,449評論 1 279
  • 正文 為了忘掉前任匾寝,我火速辦了婚禮,結(jié)果婚禮上荷腊,老公的妹妹穿的比我還像新娘艳悔。我一直安慰自己,他們只是感情好女仰,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,445評論 5 374
  • 文/花漫 我一把揭開白布猜年。 她就那樣靜靜地躺著,像睡著了一般疾忍。 火紅的嫁衣襯著肌膚如雪乔外。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,166評論 1 284
  • 那天一罩,我揣著相機(jī)與錄音杨幼,去河邊找鬼。 笑死聂渊,一個胖子當(dāng)著我的面吹牛差购,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播汉嗽,決...
    沈念sama閱讀 38,442評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼欲逃,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了饼暑?” 一聲冷哼從身側(cè)響起稳析,我...
    開封第一講書人閱讀 37,105評論 0 261
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎弓叛,沒想到半個月后彰居,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,601評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡撰筷,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,066評論 2 325
  • 正文 我和宋清朗相戀三年裕菠,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片闭专。...
    茶點(diǎn)故事閱讀 38,161評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡奴潘,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出影钉,到底是詐尸還是另有隱情画髓,我是刑警寧澤,帶...
    沈念sama閱讀 33,792評論 4 323
  • 正文 年R本政府宣布平委,位于F島的核電站奈虾,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜肉微,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,351評論 3 307
  • 文/蒙蒙 一匾鸥、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧碉纳,春花似錦勿负、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,352評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至铁孵,卻和暖如春锭硼,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背蜕劝。 一陣腳步聲響...
    開封第一講書人閱讀 31,584評論 1 261
  • 我被黑心中介騙來泰國打工檀头, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人岖沛。 一個月前我還...
    沈念sama閱讀 45,618評論 2 355
  • 正文 我出身青樓暑始,卻偏偏與公主長得像,于是被迫代替她去往敵國和親烫止。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,916評論 2 344

推薦閱讀更多精彩內(nèi)容