網(wǎng)絡(luò)爬蟲: 從allitebooks.com抓取書籍信息并從amazon.com抓取價(jià)格(1): 基礎(chǔ)知識(shí)Beautiful Soup

開始學(xué)習(xí)網(wǎng)絡(luò)數(shù)據(jù)挖掘方面的知識(shí)吮螺,首先從Beautiful Soup入手(Beautiful Soup是一個(gè)Python庫,功能是從HTML和XML中解析數(shù)據(jù)),打算以三篇博文紀(jì)錄學(xué)習(xí)Beautiful Soup的過程,第一篇是Beautiful Soup基礎(chǔ)知識(shí)褥符,后兩篇利用前邊的Beautiful Soup知識(shí)完成一個(gè)簡單的爬蟲,抓取allitebook.com的書籍信息和ISBN碼抚垃,再根據(jù)ISBN碼去amazon.com抓取書籍對(duì)應(yīng)的價(jià)格喷楣。

一、Beautiful Soup簡介

網(wǎng)絡(luò)數(shù)據(jù)挖掘指的是從網(wǎng)站中獲取數(shù)據(jù)的過程鹤树,數(shù)據(jù)挖掘技術(shù)可以讓我們從網(wǎng)站世界中收集大量有價(jià)值的數(shù)據(jù)铣焊。
Beautiful Soup是一個(gè)Python庫,可以從HTML或XML文件中獲取數(shù)據(jù)罕伯,利用它你可以做很多事情曲伊,比如你可以持續(xù)解析某個(gè)商品的最新價(jià)格,以便跟蹤價(jià)格的波動(dòng)情況追他。

二坟募、Beautiful Soup安裝(Mac)

安裝Beautiful Soup

sudo pip3 install beautifulsoup4

檢驗(yàn)是否安裝成功

from bs4 import BeautifulSoup

三绽榛、創(chuàng)建一個(gè)Beautiful Soup對(duì)象

html_atag = """<html><body><p>Test html a tag example</p>
<a href="http://www. allitebook.com">Home</a>
<a >Books</a>
</body>
</html>"""
soup = BeautifulSoup(html_atag, "html5lib")
print(soup.a)

四、查找內(nèi)容

find()方法
html_markup = """<div>
<ul id="students">
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li>
<li class="student">
<div class="name">Lucy</div>
<div class="age">25</div>
</li>
</ul>
</div>"""

在find()方法中傳入節(jié)點(diǎn)名婿屹,例如ul,這樣就可以獲取第一個(gè)匹配的ul節(jié)點(diǎn)的內(nèi)容推溃,例如:

input
student_entries = soup.find("ul")
print(student_entries)
output
<ul id="students">
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li>
<li class="student">
<div class="name">Lucy</div>
<div class="age">25</div>
</li>
</ul>

找到ul節(jié)點(diǎn)后昂利,通過觀察html可以得知,ul下有2個(gè)li铁坎,每個(gè)li下有2個(gè)div蜂奸,則通過student_entries.li可以獲取第一個(gè)li節(jié)點(diǎn)的數(shù)據(jù),繼續(xù)通過student_entries.li.div可以獲取第一個(gè)li下第一個(gè)div的數(shù)據(jù)硬萍,例如:

input
print(student_entries.li)
output
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li>

input
print(student_entries.li.div)
output
<div class="name">Carl</div>

繼續(xù)通過div.string可以獲取div的內(nèi)容:

input
print(student_entries.li.div.string)
output
'Carl'
使用正則表達(dá)式查找:

find()方法支持根據(jù)正則表達(dá)式查找內(nèi)容扩所,例如:

input
import re
email_id_example ="""<div>The below HTML has the information that has email ids.</div>
abc@example.com
<div>xyz@example.com</div>
<span>foo@example.com</span>"""
soup = BeautifulSoup(email_id_example,"lxml")
emailid_regexp = re.compile("\w+@\w+\.\w+")
first_email_id = soup.find(text=emailid_regexp)
print(first_email_id)
output
abc@example.com
find_all()方法

find()方法返回第一個(gè)匹配的內(nèi)容,find_all()方法會(huì)返回所有匹配的內(nèi)容列表朴乖,例如上面的根據(jù)正則表達(dá)式查找郵箱地址祖屏,將find()方法換成find_all()方法,則會(huì)返回所有匹配成功的內(nèi)容:

input
all_email_id = soup.find_all(text=emailid_regexp)
print(all_email_id)
output
['abc@example.com', 'xyz@example.com', 'foo@example.com']
find_parent()方法

find_parent()方法往上查找內(nèi)容买羞,例如袁勺,從第一個(gè)li節(jié)點(diǎn)上使用find_parent()方法,可以獲取父節(jié)點(diǎn)的內(nèi)容:

input
print(first_student)
output
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li>

input
all_students = first_student.find_parent('ul')
print(all_students)
output
<ul id="students">
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li>
<li class="student">
<div class="name">Lucy</div>
<div class="age">25</div>
</li>
</ul>
find_next_sibling()方法

sibling是兄弟姐妹的意思畜普,find_next_sibling()方法獲取下一個(gè)同級(jí)別的兄弟節(jié)點(diǎn)期丰,例如:

input
second_student = first_student.find_next_sibling()
print(second_student)
output
<li class="student">
<div class="name">Lucy</div>
<div class="age">25</div>
</li>

其它方法還有很多,例如:

find_next()方法
find_all_next()方法
find_previous_sibling()方法
find_all_previous()方法
這里不在一一贅述吃挑,具體請查看官方文檔:https://www.crummy.com/software/BeautifulSoup/bs4/doc/#searching-the-tree

五钝荡、瀏覽內(nèi)容

瀏覽子節(jié)點(diǎn)

使用自節(jié)點(diǎn)的標(biāo)簽名即可獲取子節(jié)點(diǎn)的內(nèi)容,例如:

input
print(first_student)
output
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li>

input
name = first_student.div
print(name)
output
<div class="name">Carl</div>
瀏覽父節(jié)點(diǎn)

使用.parent屬性可以瀏覽父節(jié)點(diǎn)舶衬,例如:

input
print(name.parent)
output
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li>
瀏覽兄弟節(jié)點(diǎn)

兄弟節(jié)點(diǎn)即同級(jí)節(jié)點(diǎn)埠通,next_sibling和previous_sibling屬性分別獲取上一個(gè)和下一個(gè)兄弟節(jié)點(diǎn)。例如:

input
print(first_student.next_sibling)
output
<li class="student">
<div class="name">Lucy</div>
<div class="age">25</div>
</li>

完整方法列表請查看:
https://www.crummy.com/software/BeautifulSoup/bs4/doc/#navigating-the-tree

六逛犹、修改內(nèi)容

修改標(biāo)簽的名字

可以通過.name屬性獲取某個(gè)節(jié)點(diǎn)的標(biāo)簽名植阴,同樣將某個(gè)標(biāo)簽名賦值給.name屬性可以很輕易改變標(biāo)簽的名稱,例如:

input
first_student
output
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li>

input
first_student.name
output
'li'

input
first_student.name = 'div'
first_student.name
output
'div'

input
first_student
output
<div class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</div>
修改標(biāo)簽的屬性
input
first_student['class'] = 'student_new'
print(first_student)
output
<div class="student_new">
<div class="name">Carl</div>
<div class="age">32</div>
</div>

注意:如果class屬性沒有的話圾浅,則此操作不會(huì)報(bào)錯(cuò)掠手,而變?yōu)橐粋€(gè)新增操作。

刪除一個(gè)標(biāo)簽的屬性

使用del方法可以將一個(gè)節(jié)點(diǎn)的某個(gè)屬性刪除狸捕。例如:

input 
del first_student['class']
print(first_student)
output
<div>
<div class="name">Carl</div>
<div class="age">32</div>
</div>
修改標(biāo)簽的內(nèi)容

使用.string屬性可以獲取標(biāo)簽的內(nèi)容值('Carl')喷鸽,同樣,對(duì)此屬性的賦值操作也可以更該其值灸拍,例如:

input
print(first_student.div.string)
output
Carl

input
first_student.div.string = 'carl_new'
print(first_student.div.string)
output
carl_new
直接刪除某個(gè)節(jié)點(diǎn)

使用decompose()方法可以直接刪除某個(gè)節(jié)點(diǎn):

input 
print(first_student)
output
<li class="student">
<div class="name">carl_new</div>
<div class="age">32</div>
</li>

input 
first_student.div.decompose()
print(first_student)
output
<li class="student">
<div class="age">32</div>
</li>

使用extract()方法同樣可以刪除某個(gè)節(jié)點(diǎn)做祝,不過它和decompose()方法不同的是砾省,extract()會(huì)返回被刪除的這個(gè)節(jié)點(diǎn)的內(nèi)容。


我們處于大數(shù)據(jù)時(shí)代混槐,對(duì)數(shù)據(jù)處理感興趣的朋友歡迎查看另一個(gè)系列隨筆:利用Python進(jìn)行數(shù)據(jù)分析 基礎(chǔ)系列隨筆匯總

接下來將利用這篇的Beautiful Soup基礎(chǔ)知識(shí)完成一個(gè)簡單的爬蟲编兄,分別獲取兩個(gè)網(wǎng)站的書籍信息和價(jià)格并組合在一起并輸出到csv文件中。有興趣的朋友歡迎關(guān)注本博客声登,也歡迎大家留言進(jìn)行討論狠鸳。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市悯嗓,隨后出現(xiàn)的幾起案子件舵,更是在濱河造成了極大的恐慌,老刑警劉巖脯厨,帶你破解...
    沈念sama閱讀 217,907評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件铅祸,死亡現(xiàn)場離奇詭異,居然都是意外死亡合武,警方通過查閱死者的電腦和手機(jī)临梗,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,987評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來稼跳,“玉大人夜焦,你說我怎么就攤上這事∑穹罚” “怎么了茫经?”我有些...
    開封第一講書人閱讀 164,298評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長萎津。 經(jīng)常有香客問我卸伞,道長,這世上最難降的妖魔是什么锉屈? 我笑而不...
    開封第一講書人閱讀 58,586評(píng)論 1 293
  • 正文 為了忘掉前任荤傲,我火速辦了婚禮,結(jié)果婚禮上颈渊,老公的妹妹穿的比我還像新娘遂黍。我一直安慰自己,他們只是感情好俊嗽,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,633評(píng)論 6 392
  • 文/花漫 我一把揭開白布雾家。 她就那樣靜靜地躺著,像睡著了一般绍豁。 火紅的嫁衣襯著肌膚如雪芯咧。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,488評(píng)論 1 302
  • 那天,我揣著相機(jī)與錄音敬飒,去河邊找鬼邪铲。 笑死,一個(gè)胖子當(dāng)著我的面吹牛无拗,可吹牛的內(nèi)容都是我干的带到。 我是一名探鬼主播,決...
    沈念sama閱讀 40,275評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼英染,長吁一口氣:“原來是場噩夢啊……” “哼揽惹!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起税迷,我...
    開封第一講書人閱讀 39,176評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎锹漱,沒想到半個(gè)月后箭养,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,619評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡哥牍,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,819評(píng)論 3 336
  • 正文 我和宋清朗相戀三年毕泌,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片嗅辣。...
    茶點(diǎn)故事閱讀 39,932評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡撼泛,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出澡谭,到底是詐尸還是另有隱情愿题,我是刑警寧澤,帶...
    沈念sama閱讀 35,655評(píng)論 5 346
  • 正文 年R本政府宣布蛙奖,位于F島的核電站潘酗,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏雁仲。R本人自食惡果不足惜仔夺,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,265評(píng)論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望攒砖。 院中可真熱鬧缸兔,春花似錦、人聲如沸吹艇。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,871評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽受神。三九已至蝎抽,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背樟结。 一陣腳步聲響...
    開封第一講書人閱讀 32,994評(píng)論 1 269
  • 我被黑心中介騙來泰國打工养交, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人瓢宦。 一個(gè)月前我還...
    沈念sama閱讀 48,095評(píng)論 3 370
  • 正文 我出身青樓碎连,卻偏偏與公主長得像,于是被迫代替她去往敵國和親驮履。 傳聞我的和親對(duì)象是個(gè)殘疾皇子鱼辙,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,884評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容