Beautiful Soup使用

Beautiful Soup官方文檔是一個(gè)HTML/XML的解析器纳令，主要的功能是如何解析和提取HTML/XML數(shù)據(jù);
lxml只會(huì)局部遍歷，而Beautiful Soup是基于HTML DOM的厦酬，會(huì)載入整個(gè)文檔刺彩，解析整個(gè)DOM樹(shù)，因此解析時(shí)間和內(nèi)存開(kāi)銷(xiāo)都會(huì)大很多嘿般，所以性能要低于lxml;
BeautifulSoup用來(lái)解析 HTML比較簡(jiǎn)單活箕，API非常人性化力麸，支持CSS選擇器、Python標(biāo)準(zhǔn)庫(kù)中的HTML解析器育韩，也支持 lxml的 XML解析器;

安裝

pip install beautifulsoup4

1.語(yǔ)法

創(chuàng)建soup對(duì)象

    from bs4 import BeautifulSoup
    # html為解析文本克蚂， 'lxml'指定解析器
    soup = BeautifulSoup(html, 'lxml')
    # 格式化輸出 soup 對(duì)象的內(nèi)容
    print(soup.prettify())

一、find_all()使用

參數(shù)： find_all(name, attrs, recursive, text, **kwargs)**

1）`name`參數(shù)

name 參數(shù)可以查找所有名字為 name 的tag,字符串對(duì)象會(huì)被自動(dòng)忽略掉

A.字符串

最簡(jiǎn)單的過(guò)濾器是字符串筋讨，在搜索方法中傳入一個(gè)字符串參數(shù)埃叭，Beautiful Soup會(huì)查詢(xún)與字符串完整匹配的內(nèi)容;

# 查詢(xún)標(biāo)簽名稱(chēng)為<p></p>標(biāo)簽的元素列表
soup.find_all('p')

B.正則

如果傳入正則表達(dá)式作為參數(shù),Beautiful Soup會(huì)通過(guò)正則表達(dá)式的 match() 來(lái)匹配內(nèi)容.下面例子中找出所有以b開(kāi)頭的標(biāo)簽,這表示和標(biāo)簽都應(yīng)該被找到

soup.find_all(re.compile(r'^b'))

C.列表

如果傳入列表參數(shù),Beautiful Soup會(huì)將與列表中任一元素匹配的內(nèi)容返回

# 查詢(xún)html中標(biāo)簽名稱(chēng)為<p></p>或者<b></b>的元素
soup.find_all(["p", "b"])

2） `keyword`參數(shù)

# 查詢(xún)<p></p>標(biāo)簽對(duì)象的class屬性是title的元素
soup.find_all('p',attrs={'class':'title'})

3）`text`參數(shù)

通過(guò) text 參數(shù)可以搜索文檔中的字符串內(nèi)容，與 name 參數(shù)的可選值一樣, text 參數(shù)接受字符串 , 正則表達(dá)式 , 列表

soup.find_all(text="Elsie")

soup.find_all(text=["Tillie", "Elsie", "Lacie"])

soup.find_all(text=re.compile("Dormouse"))

二悉罕、`find`使用

find的用法與find_all一樣赤屋，區(qū)別在于find返回第一個(gè)符合匹配結(jié)果立镶，find_all則返回所有匹配結(jié)果的列表

三、 `CSS`選擇器

CSS選擇器與 find_all 方法有異曲同工之妙的查找方法类早，也是返回所有匹配結(jié)果的列表媚媒。

寫(xiě) CSS 時(shí)，標(biāo)簽名不加任何修飾莺奔，類(lèi)名前加.欣范，id名前加#
在這里我們也可以利用類(lèi)似的方法來(lái)篩選元素，用到的方法是 soup.select()令哟，返回類(lèi)型是 list

(1)通過(guò)標(biāo)簽選擇器查找

    soup.select('title')
    # 結(jié)果-->[<title>The Dormouse's story</title>]

(2)通過(guò)類(lèi)選擇器查找

soup.select('.title')
# 結(jié)果-->[<p class="title" name="dromouse"><b>The Dormouse's story</b></p>]

(3)通過(guò)id選擇器查詢(xún)

soup.select('#link1')
# 結(jié)果-->[<a class="sister"  id="link1"><!-- Elsie --></a>]

(4)層級(jí)選擇器查詢(xún)

soup.select('p #link1')
# 結(jié)果-->[<a class="sister"  id="link1"><!-- Elsie --></a>]

(5)通過(guò)屬性選擇器

soup.select("a[class='sister']")

(6)`get_text()`獲取文本內(nèi)容

以上的 select 方法返回的結(jié)果都是列表形式，可以遍歷形式輸出妨蛹，然后用 get_text() 方法來(lái)獲取它的內(nèi)容

(7)獲取屬性

# 創(chuàng)建Beautiful Soup對(duì)象
soup = BeautifulSoup(html, 'lxml')  
# 打印<a></a>標(biāo)簽的href屬性
print(soup.select('a')[0].get('href'))
print(soup.find('a').get('href'))
print(soup.find_all('a')[0].get('href'))
print(soup.find('p').get('name'))
# 打印結(jié)果
http://example.com/elsie
http://example.com/elsie
http://example.com/elsie
dromouse

2. bs4的四大對(duì)象

Beautiful Soup將復(fù)雜HTML文檔轉(zhuǎn)換成一個(gè)復(fù)雜的樹(shù)形結(jié)構(gòu),每個(gè)節(jié)點(diǎn)都是Python對(duì)象,所有對(duì)象可以歸納為4種:

Tag

NavigableString

BeautifulSoup

Comment

代碼展示

# 創(chuàng)建Beautiful Soup對(duì)象
soup = BeautifulSoup(html, 'lxml')
# 打印獲取的對(duì)象類(lèi)型
print(type(soup.a))
print(type(soup.p.string))
print(type(soup))
print(type(soup.a.string))

打印結(jié)果

<class 'bs4.element.Tag'>
<class 'bs4.element.NavigableString'>
<class 'bs4.BeautifulSoup'>
<class 'bs4.element.Comment'>

3.遍歷文檔樹(shù)

3.1 獲取子節(jié)點(diǎn)：`.contents`,`.children`屬性

3.1.1 `.content`

tag的.content屬性可以將tag的子節(jié)點(diǎn)以列表方式輸出

# 創(chuàng)建Beautiful Soup對(duì)象
soup = BeautifulSoup(html, 'lxml')
# 把soup對(duì)象中第一個(gè)<p></p>標(biāo)簽的子節(jié)點(diǎn)以列表形式輸出
print(soup.p.contents)

輸出結(jié)果

[<b>The Dormouse's story</b>, <a>3</a>]

3.1.2`.children`

它返回的不是一個(gè) list屏富，不過(guò)我們可以通過(guò)遍歷獲取所有子節(jié)點(diǎn)。
我們打印輸出 .children 看一下蛙卤，可以發(fā)現(xiàn)它是一個(gè) list 生成器對(duì)象

soup.p.children
<list_iterator object at 0x000002ADD46B95F8>

最后編輯于：2018.08.06 18:10:12

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末狠半，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子颤难，更是在濱河造成了極大的恐慌神年，老刑警劉巖，帶你破解...
沈念sama閱讀 211,123評(píng)論 6贊 490
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件行嗤，死亡現(xiàn)場(chǎng)離奇詭異已日，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)栅屏，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,031評(píng)論 2贊 384
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)飘千，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人栈雳，你說(shuō)我怎么就攤上這事护奈。” “怎么了哥纫？”我有些...
開(kāi)封第一講書(shū)人閱讀 156,723評(píng)論 0贊 345
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵霉旗，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我蛀骇，道長(zhǎng)厌秒，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 56,357評(píng)論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任松靡，我火速辦了婚禮简僧，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘雕欺。我一直安慰自己岛马，他們只是感情好棉姐，可當(dāng)我...
茶點(diǎn)故事閱讀 65,412評(píng)論 5贊 384
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著啦逆，像睡著了一般伞矩。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上夏志，一...
開(kāi)封第一講書(shū)人閱讀 49,760評(píng)論 1贊 289
城市分裂傳說(shuō)
那天乃坤，我揣著相機(jī)與錄音，去河邊找鬼沟蔑。笑死湿诊，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的瘦材。我是一名探鬼主播厅须，決...
沈念sama閱讀 38,904評(píng)論 3贊 405
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼食棕！你這毒婦竟也來(lái)了朗和？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 37,672評(píng)論 0贊 266
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤簿晓，失蹤者是張志新（化名）和其女友劉穎眶拉，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體憔儿，經(jīng)...
沈念sama閱讀 44,118評(píng)論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡忆植，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,456評(píng)論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了皿曲。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片唱逢。...
茶點(diǎn)故事閱讀 38,599評(píng)論 1贊 340
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖屋休，靈堂內(nèi)的尸體忽然破棺而出坞古，到底是詐尸還是另有隱情，我是刑警寧澤劫樟，帶...
沈念sama閱讀 34,264評(píng)論 4贊 328
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布痪枫，位于F島的核電站，受9級(jí)特大地震影響叠艳，放射性物質(zhì)發(fā)生泄漏奶陈。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,857評(píng)論 3贊 312
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一附较、第九天我趴在偏房一處隱蔽的房頂上張望吃粒。院中可真熱鬧，春花似錦拒课、人聲如沸徐勃。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 30,731評(píng)論 0贊 21
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)僻肖。三九已至肖爵，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間臀脏，已是汗流浹背劝堪。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 31,956評(píng)論 1贊 264
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留揉稚，地道東北人秒啦。一個(gè)月前我還...
沈念sama閱讀 46,286評(píng)論 2贊 360
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像窃植，于是被迫代替她去往敵國(guó)和親帝蒿。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,465評(píng)論 2贊 348

Beautiful Soup使用