開始學(xué)習(xí)網(wǎng)絡(luò)數(shù)據(jù)挖掘方面的知識(shí)吮螺,首先從Beautiful Soup入手(Beautiful Soup是一個(gè)Python庫,功能是從HTML和XML中解析數(shù)據(jù)),打算以三篇博文紀(jì)錄學(xué)習(xí)Beautiful Soup的過程,第一篇是Beautiful Soup基礎(chǔ)知識(shí)褥符,后兩篇利用前邊的Beautiful Soup知識(shí)完成一個(gè)簡單的爬蟲,抓取allitebook.com的書籍信息和ISBN碼抚垃,再根據(jù)ISBN碼去amazon.com抓取書籍對(duì)應(yīng)的價(jià)格喷楣。
一、Beautiful Soup簡介
網(wǎng)絡(luò)數(shù)據(jù)挖掘指的是從網(wǎng)站中獲取數(shù)據(jù)的過程鹤树,數(shù)據(jù)挖掘技術(shù)可以讓我們從網(wǎng)站世界中收集大量有價(jià)值的數(shù)據(jù)铣焊。
Beautiful Soup是一個(gè)Python庫,可以從HTML或XML文件中獲取數(shù)據(jù)罕伯,利用它你可以做很多事情曲伊,比如你可以持續(xù)解析某個(gè)商品的最新價(jià)格,以便跟蹤價(jià)格的波動(dòng)情況追他。
二坟募、Beautiful Soup安裝(Mac)
安裝Beautiful Soup
sudo pip3 install beautifulsoup4
檢驗(yàn)是否安裝成功
from bs4 import BeautifulSoup
三绽榛、創(chuàng)建一個(gè)Beautiful Soup對(duì)象
html_atag = """<html><body><p>Test html a tag example</p>
<a href="http://www. allitebook.com">Home</a>
<a >Books</a>
</body>
</html>"""
soup = BeautifulSoup(html_atag, "html5lib")
print(soup.a)
四、查找內(nèi)容
find()方法
html_markup = """<div>
<ul id="students">
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li>
<li class="student">
<div class="name">Lucy</div>
<div class="age">25</div>
</li>
</ul>
</div>"""
在find()方法中傳入節(jié)點(diǎn)名婿屹,例如ul,這樣就可以獲取第一個(gè)匹配的ul節(jié)點(diǎn)的內(nèi)容推溃,例如:
input
student_entries = soup.find("ul")
print(student_entries)
output
<ul id="students">
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li>
<li class="student">
<div class="name">Lucy</div>
<div class="age">25</div>
</li>
</ul>
找到ul節(jié)點(diǎn)后昂利,通過觀察html可以得知,ul下有2個(gè)li铁坎,每個(gè)li下有2個(gè)div蜂奸,則通過student_entries.li可以獲取第一個(gè)li節(jié)點(diǎn)的數(shù)據(jù),繼續(xù)通過student_entries.li.div可以獲取第一個(gè)li下第一個(gè)div的數(shù)據(jù)硬萍,例如:
input
print(student_entries.li)
output
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li>
input
print(student_entries.li.div)
output
<div class="name">Carl</div>
繼續(xù)通過div.string可以獲取div的內(nèi)容:
input
print(student_entries.li.div.string)
output
'Carl'
使用正則表達(dá)式查找:
find()方法支持根據(jù)正則表達(dá)式查找內(nèi)容扩所,例如:
input
import re
email_id_example ="""<div>The below HTML has the information that has email ids.</div>
abc@example.com
<div>xyz@example.com</div>
<span>foo@example.com</span>"""
soup = BeautifulSoup(email_id_example,"lxml")
emailid_regexp = re.compile("\w+@\w+\.\w+")
first_email_id = soup.find(text=emailid_regexp)
print(first_email_id)
output
abc@example.com
find_all()方法
find()方法返回第一個(gè)匹配的內(nèi)容,find_all()方法會(huì)返回所有匹配的內(nèi)容列表朴乖,例如上面的根據(jù)正則表達(dá)式查找郵箱地址祖屏,將find()方法換成find_all()方法,則會(huì)返回所有匹配成功的內(nèi)容:
input
all_email_id = soup.find_all(text=emailid_regexp)
print(all_email_id)
output
['abc@example.com', 'xyz@example.com', 'foo@example.com']
find_parent()方法
find_parent()方法往上查找內(nèi)容买羞,例如袁勺,從第一個(gè)li節(jié)點(diǎn)上使用find_parent()方法,可以獲取父節(jié)點(diǎn)的內(nèi)容:
input
print(first_student)
output
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li>
input
all_students = first_student.find_parent('ul')
print(all_students)
output
<ul id="students">
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li>
<li class="student">
<div class="name">Lucy</div>
<div class="age">25</div>
</li>
</ul>
find_next_sibling()方法
sibling是兄弟姐妹的意思畜普,find_next_sibling()方法獲取下一個(gè)同級(jí)別的兄弟節(jié)點(diǎn)期丰,例如:
input
second_student = first_student.find_next_sibling()
print(second_student)
output
<li class="student">
<div class="name">Lucy</div>
<div class="age">25</div>
</li>
其它方法還有很多,例如:
find_next()方法
find_all_next()方法
find_previous_sibling()方法
find_all_previous()方法
這里不在一一贅述吃挑,具體請查看官方文檔:https://www.crummy.com/software/BeautifulSoup/bs4/doc/#searching-the-tree
五钝荡、瀏覽內(nèi)容
瀏覽子節(jié)點(diǎn)
使用自節(jié)點(diǎn)的標(biāo)簽名即可獲取子節(jié)點(diǎn)的內(nèi)容,例如:
input
print(first_student)
output
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li>
input
name = first_student.div
print(name)
output
<div class="name">Carl</div>
瀏覽父節(jié)點(diǎn)
使用.parent屬性可以瀏覽父節(jié)點(diǎn)舶衬,例如:
input
print(name.parent)
output
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li>
瀏覽兄弟節(jié)點(diǎn)
兄弟節(jié)點(diǎn)即同級(jí)節(jié)點(diǎn)埠通,next_sibling和previous_sibling屬性分別獲取上一個(gè)和下一個(gè)兄弟節(jié)點(diǎn)。例如:
input
print(first_student.next_sibling)
output
<li class="student">
<div class="name">Lucy</div>
<div class="age">25</div>
</li>
完整方法列表請查看:
https://www.crummy.com/software/BeautifulSoup/bs4/doc/#navigating-the-tree
六逛犹、修改內(nèi)容
修改標(biāo)簽的名字
可以通過.name屬性獲取某個(gè)節(jié)點(diǎn)的標(biāo)簽名植阴,同樣將某個(gè)標(biāo)簽名賦值給.name屬性可以很輕易改變標(biāo)簽的名稱,例如:
input
first_student
output
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li>
input
first_student.name
output
'li'
input
first_student.name = 'div'
first_student.name
output
'div'
input
first_student
output
<div class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</div>
修改標(biāo)簽的屬性
input
first_student['class'] = 'student_new'
print(first_student)
output
<div class="student_new">
<div class="name">Carl</div>
<div class="age">32</div>
</div>
注意:如果class屬性沒有的話圾浅,則此操作不會(huì)報(bào)錯(cuò)掠手,而變?yōu)橐粋€(gè)新增操作。
刪除一個(gè)標(biāo)簽的屬性
使用del方法可以將一個(gè)節(jié)點(diǎn)的某個(gè)屬性刪除狸捕。例如:
input
del first_student['class']
print(first_student)
output
<div>
<div class="name">Carl</div>
<div class="age">32</div>
</div>
修改標(biāo)簽的內(nèi)容
使用.string屬性可以獲取標(biāo)簽的內(nèi)容值('Carl')喷鸽,同樣,對(duì)此屬性的賦值操作也可以更該其值灸拍,例如:
input
print(first_student.div.string)
output
Carl
input
first_student.div.string = 'carl_new'
print(first_student.div.string)
output
carl_new
直接刪除某個(gè)節(jié)點(diǎn)
使用decompose()方法可以直接刪除某個(gè)節(jié)點(diǎn):
input
print(first_student)
output
<li class="student">
<div class="name">carl_new</div>
<div class="age">32</div>
</li>
input
first_student.div.decompose()
print(first_student)
output
<li class="student">
<div class="age">32</div>
</li>
使用extract()方法同樣可以刪除某個(gè)節(jié)點(diǎn)做祝,不過它和decompose()方法不同的是砾省,extract()會(huì)返回被刪除的這個(gè)節(jié)點(diǎn)的內(nèi)容。
我們處于大數(shù)據(jù)時(shí)代混槐,對(duì)數(shù)據(jù)處理感興趣的朋友歡迎查看另一個(gè)系列隨筆:利用Python進(jìn)行數(shù)據(jù)分析 基礎(chǔ)系列隨筆匯總
接下來將利用這篇的Beautiful Soup基礎(chǔ)知識(shí)完成一個(gè)簡單的爬蟲编兄,分別獲取兩個(gè)網(wǎng)站的書籍信息和價(jià)格并組合在一起并輸出到csv文件中。有興趣的朋友歡迎關(guān)注本博客声登,也歡迎大家留言進(jìn)行討論狠鸳。