什么是bs4
和 lxml 一樣,Beautiful Soup 也是一個HTML/XML的解析器寒屯,主要的功能也是如何解析和提取 HTML/XML 數(shù)據(jù)。beautifulsoup4比xpath解析數(shù)據(jù)要慢,因為beautifulsoup4載入的是整個html文檔
使用 pip 安裝即可:pip install beautifulsoup4
pip install lxml
方法
findall()查找所以節(jié)點 findall()查找單個節(jié)點
支持CSS選擇器
獲取標簽屬性寫法:p['class']或p.attrs['class']
獲取標簽文本:p.get_text()或p.string
注意:使用beautifulsoup需要依賴其他解析器
‘lxml’表示使用的是lxml下的HTML解析器氢拥,容錯性好蚌铜,可讀性強
‘HTML.parser’是python內(nèi)置的解析器
參數(shù)作用:
name=None ------設(shè)置要獲取的節(jié)點名稱
attrs={} ------是一個字典類型,設(shè)置標簽的屬性
limit=None-----限制返回的條數(shù)
text(字符串) 查找符合text文本的字符串兄一,并返回厘线。