- 使用BeautifulSoup解析網(wǎng)頁
Soup = BeautifulSoup(html,'lxml')
- 描述要爬取的東西在哪
data = Soup.select('???')
- 從標(biāo)簽中獲取信息,并裝在數(shù)據(jù)容器中
CSS Selector和XPath都可以表示網(wǎng)頁中元素的位置
一般采用get_text方法就可以了
title.get_text()
對于獲得標(biāo)簽的屬性险绘,采用get 方法
image.get('src‘)
stripped_strings方法费尽,有效解決多對一的標(biāo)簽擎颖,
獲得一個副標(biāo)簽下的所有子標(biāo)簽的文本,由于內(nèi)容是成組的帅矗,所以列表化
list(cate.stripped_strings)
打開文件有2種方式
fs = open("文件地址"吗蚌,“r")
print(fs.read())
fs.close
支持相對地址和絕對地址布朦,必須調(diào)用close()函數(shù)囤萤,否則內(nèi)存泄漏
with open("文件地址","r") as fs:
print(fs.read())