本文地址:http://www.reibang.com/p/e9255c446a77
1. 簡(jiǎn)介
BeautifulSoup
是一個(gè)可以從HTML或XML文件中提取數(shù)據(jù)的Python庫吨拍,它的使用方式相對(duì)于正則來說更加的簡(jiǎn)單方便,常常能夠節(jié)省我們大量的時(shí)間陷遮。
BeautifulSoup
也是有官方中文文檔的:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
2. 安裝
BeautifulSoup
的安裝也是非常方便的,pip安裝即可届案。
pip install beautifulsoup4
3. 簡(jiǎn)單例子
以下是一段HTML代碼笼蛛,作為例子被多次用到,這是 愛麗絲夢(mèng)游仙境 中的一段內(nèi)容净当。
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" id="link1">Elsie</a>,
<a class="sister" id="link2">Lacie</a> and
<a class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
"""
我們獲取的網(wǎng)頁數(shù)據(jù)通常會(huì)像上面這樣是完全的字符串格式翎迁,所以我們首先需要使用BeautifulSoup
來解析這段字符串栋猖。然后會(huì)獲得一個(gè)BeautifulSoup
對(duì)象,通過這個(gè)對(duì)象我們就可以進(jìn)行一系列操作了汪榔。
In [1]: from bs4 import BeautifulSoup
In [2]: soup = BeautifulSoup(html_doc)
In [3]: soup.title
Out[3]: <title>The Dormouse's story</title>
In [4]: soup.title.name
Out[4]: 'title'
In [5]: soup.title.string
Out[5]: "The Dormouse's story"
In [6]: soup.title.parent.name
Out[6]: 'head'
In [7]: soup.p
Out[7]: <p class="title"><b>The Dormouse's story</b></p>
In [8]: soup.p['class']
Out[8]: ['title']
In [9]: soup.a
Out[9]: <a class="sister" id="link1">Elsie</a>
In [10]: soup.find_all('a')
Out[10]:
[<a class="sister" id="link1">Elsie</a>,
<a class="sister" id="link2">Lacie</a>,
<a class="sister" id="link3">Tillie</a>]
In [11]: soup.find(id="link3")
Out[11]: <a class="sister" id="link3">Tillie</a>
可以看到蒲拉,相對(duì)于正則來說,操作簡(jiǎn)單了不止一個(gè)量級(jí)痴腌。
4. 指定解析器
在上面的例子中雌团,我們可以看到在查找數(shù)據(jù)之前,是有一個(gè)解析網(wǎng)頁的過程的:
soup = BeautifulSoup(html_doc)
BeautifulSoup
會(huì)自動(dòng)的在系統(tǒng)中選定一個(gè)可用的解析器士聪,以下是主要的幾種解析器:
解析器 | 使用方法 | 優(yōu)勢(shì) | 劣勢(shì) |
---|---|---|---|
Python標(biāo)準(zhǔn)庫 | BeautifulSoup(markup, "html.parser") |
Python的內(nèi)置標(biāo)準(zhǔn)庫執(zhí)行速度適中文檔容錯(cuò)能力強(qiáng) | Python 2.7.3 or 3.2.2)前 的版本中文檔容錯(cuò)能力差 |
lxml HTML 解析器 | BeautifulSoup(markup, "lxml") |
速度快文檔容錯(cuò)能力強(qiáng) | 需要安裝C語言庫 |
lxml XML 解析器 | BeautifulSoup(markup, ["lxml", "xml"])``BeautifulSoup(markup, "xml") |
速度快唯一支持XML的解析器 | 需要安裝C語言庫 |
html5lib | BeautifulSoup(markup, "html5lib") |
最好的容錯(cuò)性以瀏覽器的方式解析文檔生成HTML5格式的文檔 | 速度慢不依賴外部擴(kuò)展 |
由于這個(gè)解析的過程在大規(guī)模的爬取中是會(huì)影響到整個(gè)爬蟲系統(tǒng)的速度的锦援,所以推薦使用的是lxml
,速度會(huì)快很多剥悟,而lxml
需要單獨(dú)安裝:
pip install lxml
安裝成功后灵寺,在解析網(wǎng)頁的時(shí)候曼库,指定為lxml即可。
soup = BeautifulSoup(html_doc, 'lxml')
注意:如果一段HTML或XML文檔格式不正確的話,那么在不同的解析器中返回的結(jié)果可能是不一樣的替久,所以要指定某一個(gè)解析器凉泄。
5.節(jié)點(diǎn)對(duì)象
BeautifulSoup將復(fù)雜HTML文檔轉(zhuǎn)換成一個(gè)復(fù)雜的樹形結(jié)構(gòu)躏尉,每個(gè)節(jié)點(diǎn)都是Python對(duì)象蚯根,所有對(duì)象可以歸納為4種:Tag
,NavigableString
胀糜,BeautifulSoup
颅拦,Comment
。
5.1. tag
tag
就是標(biāo)簽的意思教藻,tag
還有許多的方法和屬性距帅。
>>> soup = BeautifulSoup('<b class="boldest">Extremely bold</b>')
>>> tag = soup.b
>>> type(tag)
<class 'bs4.element.Tag'>
-
name
每一個(gè)
tag
對(duì)象都有name
屬性,為標(biāo)簽的名字括堤。>>> tag.name 'b'
-
Attributes
在HTML中碌秸,
tag
可能有多個(gè)屬性,所以tag
屬性的取值跟字典相同悄窃。>>> tag['class'] 'boldest'
如果某個(gè)
tag
屬性有多個(gè)值讥电,那么返回的則是列表格式。>>> soup = BeautifulSoup('<p class="body strikeout"></p>') >>> soup.p['class'] ["body", "strikeout"]
-
get_text()
通過
get_text()
方法我們可以獲取某個(gè)tag
下所有的文本內(nèi)容轧抗。In [1]: soup.body.get_text() Out[1]: "The Dormouse's story\nOnce upon a time there were three little sisters; and their names were\nElsie,\nLacie and\nTillie;\nand they lived at the bottom of a well.\n...\n"
5.2. NavigableString
NavigableString
的意思是可以遍歷的字符串恩敌,一般被標(biāo)簽包裹在其中的的文本就是NavigableString
格式。
In [1]: soup = BeautifulSoup('<p>No longer bold</p>')
In [2]: soup.p.string
Out[2]: 'No longer bold'
In [3]: type(soup.p.string)
Out[3]: bs4.element.NavigableString
5.3. BeautifulSoup
BeautifulSoup
對(duì)象就是解析網(wǎng)頁獲得的對(duì)象横媚。
5.4. Comment
Comment
指的是在網(wǎng)頁中的注釋以及特殊字符串纠炮。
6. Tag與遍歷文檔樹
tag
對(duì)象可以說是BeautifulSoup
中最為重要的對(duì)象,通過BeautifulSoup
來提取數(shù)據(jù)基本都圍繞著這個(gè)對(duì)象來進(jìn)行操作灯蝴。
首先恢口,一個(gè)節(jié)點(diǎn)中是可以包含多個(gè)子節(jié)點(diǎn)和多個(gè)字符串的。例如html
節(jié)點(diǎn)中包含著head
和body
節(jié)點(diǎn)穷躁。所以BeautifulSoup
就可以將一個(gè)HTML的網(wǎng)頁用這樣一層層嵌套的節(jié)點(diǎn)來進(jìn)行表示耕肩。
以上方的愛麗絲夢(mèng)游仙境為例:
6.1. contents和children
通過contents
可以獲取某個(gè)節(jié)點(diǎn)所有的子節(jié)點(diǎn),包括里面的NavigableString
對(duì)象折砸。獲取的子節(jié)點(diǎn)是列表格式看疗。
In [1]: soup.head.contents
Out[1]: [<title>The Dormouse's story</title>]
而通過children
同樣的是獲取某個(gè)節(jié)點(diǎn)的所有子節(jié)點(diǎn),但是返回的是一個(gè)迭代器睦授,這種方式會(huì)比列表格式更加的節(jié)省內(nèi)存两芳。
In [1]: tags = soup.head.children
In [2]: tags
Out[2]: <list_iterator at 0x110f76940>
In [3]: for tag in tags:
print(tag)
<title>The Dormouse's story</title>
6.2. descendants
上面的contents
和children
獲取的是某個(gè)節(jié)點(diǎn)的直接子節(jié)點(diǎn),而無法獲得子孫節(jié)點(diǎn)去枷。通過descendants
可以獲得所有子孫節(jié)點(diǎn)怖辆,返回的結(jié)果跟children
一樣是复,需要迭代或者轉(zhuǎn)類型使用。
In [1]: len(list(soup.body.descendants))
Out[1]: 19
In [2]: len(list(soup.body.children))
Out[2]: 6
6.3. string和strings
我們常常會(huì)遇到需要獲取某個(gè)節(jié)點(diǎn)中的文本值的情況竖螃,如果這個(gè)節(jié)點(diǎn)中只有一個(gè)字符串淑廊,那么使用string
可以正常將其取出。
In [1]: soup.title.string
Out[1]: "The Dormouse's story"
而如果這個(gè)節(jié)點(diǎn)中有多個(gè)字符串的時(shí)候特咆,BeautifulSoup
就無法確定要取出哪個(gè)字符串了季惩,這時(shí)候需要使用strings
。
In [1]: list(soup.body.strings)
Out[1]:
["The Dormouse's story",
'\n',
'Once upon a time there were three little sisters; and their names were\n',
'Elsie',
',\n',
'Lacie',
' and\n',
'Tillie',
';\nand they lived at the bottom of a well.',
'\n',
'...',
'\n']
而使用stripped_strings
可以將全是空白的行去掉腻格。
In [1]: list(soup.body.stripped_strings)
Out[1]:
["The Dormouse's story",
'Once upon a time there were three little sisters; and their names were',
'Elsie',
',',
'Lacie',
'and',
'Tillie',
';\nand they lived at the bottom of a well.',
'...']
6.4. 父節(jié)點(diǎn)parent和parents
有時(shí)我們也需要去獲取某個(gè)節(jié)點(diǎn)的父節(jié)點(diǎn)画拾,也就是包裹著當(dāng)前節(jié)點(diǎn)的節(jié)點(diǎn)。
In [1]: soup.b.parent
Out[1]: <p class="title"><b>The Dormouse's story</b></p>
而使用parents
則可以獲得當(dāng)前節(jié)點(diǎn)遞歸到頂層的所有父輩元素菜职。
In [1]: [i.name for i in soup.b.parents]
Out[1]: ['p', 'body', 'html', '[document]']
6.5. 兄弟節(jié)點(diǎn)
兄弟節(jié)點(diǎn)指的就是父節(jié)點(diǎn)相同的節(jié)點(diǎn)青抛。
-
next_sibling 和 previous_sibling
兄弟節(jié)點(diǎn)選取的方法與當(dāng)前節(jié)點(diǎn)的位置有關(guān),
next_sibling
獲取的是當(dāng)前節(jié)點(diǎn)的下一個(gè)兄弟節(jié)點(diǎn)酬核,previous_sibling
獲取的是當(dāng)前節(jié)點(diǎn)的上一個(gè)兄弟節(jié)點(diǎn)蜜另。所以,兄弟節(jié)點(diǎn)中排第一個(gè)的節(jié)點(diǎn)是沒有
previous_sibling
的嫡意,最后一個(gè)節(jié)點(diǎn)是沒有next_sibling
的举瑰。In [51]: soup.head.next_sibling Out[51]: '\n' In [52]: soup.head.previos_sibling In [59]: soup.body.previous_sibling Out[59]: '\n'
-
next_siblings 和 previous_siblings
相對(duì)應(yīng)的,
next_siblings
獲取的是下方所有的兄弟節(jié)點(diǎn)鹅很,previous_siblings
獲取的上方所有的兄弟節(jié)點(diǎn)嘶居。In [47]: [i.name for i in soup.head.next_siblings] Out[47]: [None, 'body'] In [48]: [i.name for i in soup.body.next_siblings] Out[48]: [] In [49]: [i.name for i in soup.body.previous_siblings] Out[49]: [None, 'head']
7. find_all()
上方這種直接通過屬性來進(jìn)行訪問屬性的方法,很多時(shí)候只能適用于比較簡(jiǎn)單的一些場(chǎng)景促煮,所以BeautifulSoup
還提供了搜索整個(gè)文檔樹的方法find_all()
邮屁。
需要注意的是,find_all()
方法基本所有節(jié)點(diǎn)對(duì)象都能調(diào)用菠齿。
7.1. 通過name搜索
就像以下演示的佑吝,find_all()
可以直接查找出整個(gè)文檔樹中所有的b標(biāo)簽,并返回列表绳匀。
>>> soup.find_all('b')
[<b>The Dormouse's story</b>]
而如果傳入的是一個(gè)列表芋忿,則會(huì)與列表中任意一個(gè)元素進(jìn)行匹配〖部茫可以看到戈钢,搜索的結(jié)果包含了所有的a標(biāo)簽和b標(biāo)簽。
>>> soup.find_all(["a", "b"])
[<b>The Dormouse's story</b>,
<a class="sister" id="link1">Elsie</a>,
<a class="sister" id="link2">Lacie</a>,
<a class="sister" id="link3">Tillie</a>]
7.2. 通過屬性搜索
我們?cè)谒阉鞯臅r(shí)候一般只有標(biāo)簽名是不夠的是尔,因?yàn)榭赡芡臉?biāo)簽很多殉了,那么這時(shí)候我們就要通過標(biāo)簽的屬性來進(jìn)行搜索。
這時(shí)候我們可以通過傳遞給attrs一個(gè)字典參數(shù)來搜索屬性拟枚。
In [1]: soup.find_all(attrs={'class': 'sister'})
Out[1]:
[<a class="sister" id="link1">Elsie</a>,
<a class="sister" id="link2">Lacie</a>,
<a class="sister" id="link3">Tillie</a>]
可以看到找出了所有class屬性為sister的標(biāo)簽薪铜。
7.3. 通過文本搜索
在find_all()
方法中众弓,還可以根據(jù)文本內(nèi)容來進(jìn)行搜索。
>>> soup.find_all(text="Elsie")
[u'Elsie']
>>> soup.find_all(text=["Tillie", "Elsie", "Lacie"])
[u'Elsie', u'Lacie', u'Tillie']
可見找到的都是字符串對(duì)象隔箍,如果想要找到包含某個(gè)文本的tag
谓娃,加上tag
名即可。
>>> soup.find_all("a", text="Elsie")
[<a class="sister" id="link1">Elsie</a>]
7.4. 限制查找范圍為子節(jié)點(diǎn)
find_all()
方法會(huì)默認(rèn)的去所有的子孫節(jié)點(diǎn)中搜索蜒滩,而如果將recursive
參數(shù)設(shè)置為False滨达,則可以將搜索范圍限制在直接子節(jié)點(diǎn)中。
>>> soup.html.find_all("title")
[<title>The Dormouse's story</title>]
>>> soup.html.find_all("title", recursive=False)
[]
7.5.通過正則表達(dá)式來篩選查找結(jié)果
在BeautifulSoup
中帮掉,也是可以與re
模塊進(jìn)行相互配合的弦悉,將re.compile編譯的對(duì)象傳入find_all()
方法窒典,即可通過正則來進(jìn)行搜索蟆炊。
In [1]: import re
In [2]: tags = soup.find_all(re.compile("^b"))
In [3]: [i.name for i in tags]
Out[3]: ['body', 'b']
可以看到,找到了標(biāo)簽名是以'b'開頭的兩個(gè)標(biāo)簽瀑志。
同樣的涩搓,也能夠以正則來篩選tag
的屬性。
In [1]: soup.find_all(attrs={'class': re.compile("si")})
Out[1]:
[<a class="sister" id="link1">Elsie</a>,
<a class="sister" id="link2">Lacie</a>,
<a class="sister" id="link3">Tillie</a>]
8. CSS選擇器
在BeautifulSoup
中劈猪,同樣也支持使用CSS選擇器來進(jìn)行搜索昧甘。使用select()
,在其中傳入字符串參數(shù)战得,就可以使用CSS選擇器的語法來找到tag充边。
>>> soup.select("title")
[<title>The Dormouse's story</title>]
>>> soup.select("p > a")
[<a class="sister" id="link1">Elsie</a>,
<a class="sister" id="link2">Lacie</a>,
<a class="sister" id="link3">Tillie</a>]