Beautiful Soup使用

Beautiful Soup使用


Beautiful Soup官方文檔是一個(gè)HTML/XML的解析器纳令,主要的功能是如何解析和提取HTML/XML數(shù)據(jù);
lxml只會(huì)局部遍歷,而Beautiful Soup是基于HTML DOM的厦酬,會(huì)載入整個(gè)文檔刺彩,解析整個(gè)DOM樹(shù),因此解析時(shí)間和內(nèi)存開(kāi)銷(xiāo)都會(huì)大很多嘿般,所以性能要低于lxml;
BeautifulSoup用來(lái)解析 HTML比較簡(jiǎn)單活箕,API非常人性化力麸,支持CSS選擇器、Python標(biāo)準(zhǔn)庫(kù)中的HTML解析器育韩,也支持 lxmlXML解析器;

安裝

pip install beautifulsoup4

1.語(yǔ)法


創(chuàng)建soup對(duì)象
    from bs4 import BeautifulSoup
    # html為解析文本克蚂, 'lxml'指定解析器
    soup = BeautifulSoup(html, 'lxml')
    # 格式化輸出 soup 對(duì)象的內(nèi)容
    print(soup.prettify())

一、find_all()使用

參數(shù): find_all(name, attrs, recursive, text, **kwargs)**

1)name參數(shù)

name 參數(shù)可以查找所有名字為 name 的tag,字符串對(duì)象會(huì)被自動(dòng)忽略掉

A.字符串

最簡(jiǎn)單的過(guò)濾器是字符串筋讨,在搜索方法中傳入一個(gè)字符串參數(shù)埃叭,Beautiful Soup會(huì)查詢(xún)與字符串完整匹配的內(nèi)容;

# 查詢(xún)標(biāo)簽名稱(chēng)為<p></p>標(biāo)簽的元素列表
soup.find_all('p')

B.正則

如果傳入正則表達(dá)式作為參數(shù),Beautiful Soup會(huì)通過(guò)正則表達(dá)式的 match() 來(lái)匹配內(nèi)容.下面例子中找出所有以b開(kāi)頭的標(biāo)簽,這表示和標(biāo)簽都應(yīng)該被找到

soup.find_all(re.compile(r'^b'))

C.列表

如果傳入列表參數(shù),Beautiful Soup會(huì)將與列表中任一元素匹配的內(nèi)容返回

# 查詢(xún)html中標(biāo)簽名稱(chēng)為<p></p>或者<b></b>的元素
soup.find_all(["p", "b"])

2) keyword參數(shù)

# 查詢(xún)<p></p>標(biāo)簽對(duì)象的class屬性是title的元素
soup.find_all('p',attrs={'class':'title'})

3)text參數(shù)

通過(guò) text 參數(shù)可以搜索文檔中的字符串內(nèi)容,與 name 參數(shù)的可選值一樣, text 參數(shù)接受 字符串 , 正則表達(dá)式 , 列表

soup.find_all(text="Elsie")

soup.find_all(text=["Tillie", "Elsie", "Lacie"])

soup.find_all(text=re.compile("Dormouse"))

二悉罕、find使用

find的用法與find_all一樣赤屋,區(qū)別在于find返回 第一個(gè)符合匹配結(jié)果立镶,find_all則返回 所有匹配結(jié)果的列表

三、 CSS選擇器

CSS選擇器與 find_all 方法有異曲同工之妙的查找方法类早,也是返回所有匹配結(jié)果的列表媚媒。

  • 寫(xiě) CSS 時(shí),標(biāo)簽名不加任何修飾莺奔,類(lèi)名前加.欣范,id名前加#
  • 在這里我們也可以利用類(lèi)似的方法來(lái)篩選元素,用到的方法是 soup.select()令哟,返回類(lèi)型是 list

(1)通過(guò)標(biāo)簽選擇器查找

    soup.select('title')
    # 結(jié)果-->[<title>The Dormouse's story</title>]

(2)通過(guò)類(lèi)選擇器查找

soup.select('.title')
# 結(jié)果-->[<p class="title" name="dromouse"><b>The Dormouse's story</b></p>]

(3)通過(guò)id選擇器查詢(xún)

soup.select('#link1')
# 結(jié)果-->[<a class="sister"  id="link1"><!-- Elsie --></a>]

(4)層級(jí)選擇器查詢(xún)

soup.select('p #link1')
# 結(jié)果-->[<a class="sister"  id="link1"><!-- Elsie --></a>]

(5)通過(guò)屬性選擇器

soup.select("a[class='sister']")

(6)get_text()獲取文本內(nèi)容

以上的 select 方法返回的結(jié)果都是列表形式,可以遍歷形式輸出妨蛹,然后用 get_text() 方法來(lái)獲取它的內(nèi)容

(7)獲取屬性

# 創(chuàng)建Beautiful Soup對(duì)象
soup = BeautifulSoup(html, 'lxml')  
# 打印<a></a>標(biāo)簽的href屬性
print(soup.select('a')[0].get('href'))
print(soup.find('a').get('href'))
print(soup.find_all('a')[0].get('href'))
print(soup.find('p').get('name'))
# 打印結(jié)果
http://example.com/elsie
http://example.com/elsie
http://example.com/elsie
dromouse

2. bs4的四大對(duì)象


Beautiful Soup將復(fù)雜HTML文檔轉(zhuǎn)換成一個(gè)復(fù)雜的樹(shù)形結(jié)構(gòu),每個(gè)節(jié)點(diǎn)都是Python對(duì)象,所有對(duì)象可以歸納為4種:

  • Tag
  • NavigableString
  • BeautifulSoup
  • Comment

代碼展示

# 創(chuàng)建Beautiful Soup對(duì)象
soup = BeautifulSoup(html, 'lxml')
# 打印獲取的對(duì)象類(lèi)型
print(type(soup.a))
print(type(soup.p.string))
print(type(soup))
print(type(soup.a.string))

打印結(jié)果

<class 'bs4.element.Tag'>
<class 'bs4.element.NavigableString'>
<class 'bs4.BeautifulSoup'>
<class 'bs4.element.Comment'>

3.遍歷文檔樹(shù)


3.1 獲取子節(jié)點(diǎn):.contents,.children屬性

3.1.1 .content

tag的.content屬性可以將tag的子節(jié)點(diǎn)以列表方式輸出

# 創(chuàng)建Beautiful Soup對(duì)象
soup = BeautifulSoup(html, 'lxml')
# 把soup對(duì)象中第一個(gè)<p></p>標(biāo)簽的子節(jié)點(diǎn)以列表形式輸出
print(soup.p.contents)

輸出結(jié)果

[<b>The Dormouse's story</b>, <a>3</a>]

3.1.2.children

它返回的不是一個(gè) list屏富,不過(guò)我們可以通過(guò)遍歷獲取所有子節(jié)點(diǎn)。
我們打印輸出 .children 看一下蛙卤,可以發(fā)現(xiàn)它是一個(gè) list 生成器對(duì)象

soup.p.children
<list_iterator object at 0x000002ADD46B95F8>
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末狠半,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子颤难,更是在濱河造成了極大的恐慌神年,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,123評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件行嗤,死亡現(xiàn)場(chǎng)離奇詭異已日,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)栅屏,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,031評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門(mén)飘千,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人栈雳,你說(shuō)我怎么就攤上這事护奈。” “怎么了哥纫?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,723評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵霉旗,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我蛀骇,道長(zhǎng)厌秒,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,357評(píng)論 1 283
  • 正文 為了忘掉前任松靡,我火速辦了婚禮简僧,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘雕欺。我一直安慰自己岛马,他們只是感情好棉姐,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,412評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著啦逆,像睡著了一般伞矩。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上夏志,一...
    開(kāi)封第一講書(shū)人閱讀 49,760評(píng)論 1 289
  • 那天乃坤,我揣著相機(jī)與錄音,去河邊找鬼沟蔑。 笑死湿诊,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的瘦材。 我是一名探鬼主播厅须,決...
    沈念sama閱讀 38,904評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼食棕!你這毒婦竟也來(lái)了朗和?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 37,672評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤簿晓,失蹤者是張志新(化名)和其女友劉穎眶拉,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體憔儿,經(jīng)...
    沈念sama閱讀 44,118評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡忆植,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,456評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了皿曲。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片唱逢。...
    茶點(diǎn)故事閱讀 38,599評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖屋休,靈堂內(nèi)的尸體忽然破棺而出坞古,到底是詐尸還是另有隱情,我是刑警寧澤劫樟,帶...
    沈念sama閱讀 34,264評(píng)論 4 328
  • 正文 年R本政府宣布痪枫,位于F島的核電站,受9級(jí)特大地震影響叠艳,放射性物質(zhì)發(fā)生泄漏奶陈。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,857評(píng)論 3 312
  • 文/蒙蒙 一附较、第九天 我趴在偏房一處隱蔽的房頂上張望吃粒。 院中可真熱鬧,春花似錦拒课、人聲如沸徐勃。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,731評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)僻肖。三九已至肖爵,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間臀脏,已是汗流浹背劝堪。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,956評(píng)論 1 264
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留揉稚,地道東北人秒啦。 一個(gè)月前我還...
    沈念sama閱讀 46,286評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像窃植,于是被迫代替她去往敵國(guó)和親帝蒿。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,465評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容