2018-03-13

python 之 BeautifulSoup標簽查找與信息提取

一躁倒、 查找a標簽

(1)查找所有a標簽

>>>forxinsoup.find_all('a'):

? ? print(x)

? ? ElsieLacieTillie

(2)查找所有a標簽颓屑,且屬性值href中需要保護關(guān)鍵字“”

>>>forxinsoup.find_all('a',href = re.compile('lacie')):

? ? print(x)Lacie

(3)查找所有a標簽粘捎,且字符串內(nèi)容包含關(guān)鍵字“Elsie”

>>>forxinsoup.find_all('a',string= re.compile('Elsie')):

? ? print(x)

? ? Elsie

(4)查找body標簽的所有子標簽眶蕉,并循環(huán)打印輸出

>>>forxinsoup.find('body').children:

? ? if isinstance(x,bs4.element.Tag):? ? ? ? #使用isinstance過濾掉空行內(nèi)容

? ? ? ? print(x)

? ? ? ? The Dormouse's storyOnce upon a time there were three little sisters; and their names wereElsie,Lacie andTillie;

and they lived at the bottom of a well.

need-to-insert-img

二坊萝、信息提攘ブⅰ(鏈接提攘搿)

(1)解析信息標簽結(jié)構(gòu)呐粘,查找所有a標簽,并提取每個a標簽中href屬性的值(即鏈接)转捕,然后存在空列表事哭;

need-to-insert-img

>>> linklist = []>>>forxinsoup.find_all('a'):

? ? link = x.get('href')

? ? if link:

? ? ? ? linklist.append(link)

? ? ? >>>forxin linklist:? ? ? ? #驗證:環(huán)打印出linklist列表中的鏈接

? ? print(x)


http://example.com/elsiehttp://example.com/laciehttp://example.com/tillie

need-to-insert-img

小結(jié):鏈接提取 <---> 屬性內(nèi)容提取 <---> x.get('href')

(2)解析信息標簽結(jié)構(gòu),查找所有a標簽瓜富,且每個a標簽中href中包含關(guān)鍵字“elsie”,然后存入空列表中鳍咱;

need-to-insert-img

>>> linklst = []>>>forxinsoup.find_all('a', href = re.compile('elsie')):

? ? link = x.get('href')

? ? if link:

? ? ? ? linklst.append(link)

? ? >>>forxin linklst:? ? ? ? #驗證:循環(huán)打印出linklist列表中的鏈接

? ? print(x)


http://example.com/elsie

need-to-insert-img

小結(jié):在進行a標簽查找時,加入了對屬性值href內(nèi)容的正則匹配內(nèi)容 <---> href = re.compile('elsie')

(3)解析信息標簽結(jié)構(gòu)与柑,查詢所有a標簽谤辜,然后輸出所有標簽中的“字符串”內(nèi)容;

need-to-insert-img

>>>forxinsoup.find_all('a'):

? ? string= x.get_text()

? ? print(string)


Elsie

Lacie

Tillie

need-to-insert-img

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末价捧,一起剝皮案震驚了整個濱河市丑念,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌结蟋,老刑警劉巖脯倚,帶你破解...
    沈念sama閱讀 211,042評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異嵌屎,居然都是意外死亡推正,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評論 2 384
  • 文/潘曉璐 我一進店門宝惰,熙熙樓的掌柜王于貴愁眉苦臉地迎上來植榕,“玉大人,你說我怎么就攤上這事尼夺∽鸩校” “怎么了炒瘸?”我有些...
    開封第一講書人閱讀 156,674評論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長寝衫。 經(jīng)常有香客問我顷扩,道長,這世上最難降的妖魔是什么慰毅? 我笑而不...
    開封第一講書人閱讀 56,340評論 1 283
  • 正文 為了忘掉前任屎即,我火速辦了婚禮,結(jié)果婚禮上事富,老公的妹妹穿的比我還像新娘技俐。我一直安慰自己,他們只是感情好统台,可當我...
    茶點故事閱讀 65,404評論 5 384
  • 文/花漫 我一把揭開白布雕擂。 她就那樣靜靜地躺著,像睡著了一般贱勃。 火紅的嫁衣襯著肌膚如雪井赌。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,749評論 1 289
  • 那天贵扰,我揣著相機與錄音仇穗,去河邊找鬼。 笑死戚绕,一個胖子當著我的面吹牛纹坐,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播舞丛,決...
    沈念sama閱讀 38,902評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼耘子,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了球切?” 一聲冷哼從身側(cè)響起谷誓,我...
    開封第一講書人閱讀 37,662評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎吨凑,沒想到半個月后捍歪,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,110評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡鸵钝,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,451評論 2 325
  • 正文 我和宋清朗相戀三年糙臼,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蒋伦。...
    茶點故事閱讀 38,577評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡弓摘,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出痕届,到底是詐尸還是另有隱情韧献,我是刑警寧澤,帶...
    沈念sama閱讀 34,258評論 4 328
  • 正文 年R本政府宣布研叫,位于F島的核電站锤窑,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏嚷炉。R本人自食惡果不足惜渊啰,卻給世界環(huán)境...
    茶點故事閱讀 39,848評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望申屹。 院中可真熱鬧绘证,春花似錦、人聲如沸哗讥。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,726評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽杆煞。三九已至魏宽,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間决乎,已是汗流浹背队询。 一陣腳步聲響...
    開封第一講書人閱讀 31,952評論 1 264
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留构诚,地道東北人蚌斩。 一個月前我還...
    沈念sama閱讀 46,271評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像范嘱,于是被迫代替她去往敵國和親凳寺。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,452評論 2 348

推薦閱讀更多精彩內(nèi)容