網(wǎng)絡(luò)爬蟲: 從allitebooks.com抓取書籍信息并從amazon.com抓取價(jià)格(1): 基礎(chǔ)知識(shí)Beautiful Soup

開始學(xué)習(xí)網(wǎng)絡(luò)數(shù)據(jù)挖掘方面的知識(shí)吮螺，首先從Beautiful Soup入手（Beautiful Soup是一個(gè)Python庫，功能是從HTML和XML中解析數(shù)據(jù)），打算以三篇博文紀(jì)錄學(xué)習(xí)Beautiful Soup的過程，第一篇是Beautiful Soup基礎(chǔ)知識(shí)褥符，后兩篇利用前邊的Beautiful Soup知識(shí)完成一個(gè)簡單的爬蟲，抓取allitebook.com的書籍信息和ISBN碼抚垃，再根據(jù)ISBN碼去amazon.com抓取書籍對(duì)應(yīng)的價(jià)格喷楣。

一、Beautiful Soup簡介

網(wǎng)絡(luò)數(shù)據(jù)挖掘指的是從網(wǎng)站中獲取數(shù)據(jù)的過程鹤树，數(shù)據(jù)挖掘技術(shù)可以讓我們從網(wǎng)站世界中收集大量有價(jià)值的數(shù)據(jù)铣焊。
Beautiful Soup是一個(gè)Python庫，可以從HTML或XML文件中獲取數(shù)據(jù)罕伯，利用它你可以做很多事情曲伊，比如你可以持續(xù)解析某個(gè)商品的最新價(jià)格，以便跟蹤價(jià)格的波動(dòng)情況追他。

二坟募、Beautiful Soup安裝（Mac）

安裝Beautiful Soup

sudo pip3 install beautifulsoup4

檢驗(yàn)是否安裝成功

from bs4 import BeautifulSoup

三绽榛、創(chuàng)建一個(gè)Beautiful Soup對(duì)象

html_atag = """<html><body><p>Test html a tag example</p>
<a href="http://www. allitebook.com">Home</a>
<a >Books</a>
</body>
</html>"""
soup = BeautifulSoup(html_atag, "html5lib")
print(soup.a)

四、查找內(nèi)容

find()方法

html_markup = """<div>
<ul id="students">
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li>
<li class="student">
<div class="name">Lucy</div>
<div class="age">25</div>
</li>
</ul>
</div>"""

在find()方法中傳入節(jié)點(diǎn)名婿屹，例如ul，這樣就可以獲取第一個(gè)匹配的ul節(jié)點(diǎn)的內(nèi)容推溃，例如：

input
student_entries = soup.find("ul")
print(student_entries)
output
<ul id="students">
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li>
<li class="student">
<div class="name">Lucy</div>
<div class="age">25</div>
</li>
</ul>

找到ul節(jié)點(diǎn)后昂利，通過觀察html可以得知，ul下有2個(gè)li铁坎，每個(gè)li下有2個(gè)div蜂奸，則通過student_entries.li可以獲取第一個(gè)li節(jié)點(diǎn)的數(shù)據(jù)，繼續(xù)通過student_entries.li.div可以獲取第一個(gè)li下第一個(gè)div的數(shù)據(jù)硬萍，例如：

input
print(student_entries.li)
output
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li>

input
print(student_entries.li.div)
output
<div class="name">Carl</div>

繼續(xù)通過div.string可以獲取div的內(nèi)容：

input
print(student_entries.li.div.string)
output
'Carl'

使用正則表達(dá)式查找：

find()方法支持根據(jù)正則表達(dá)式查找內(nèi)容扩所，例如：

input
import re
email_id_example ="""<div>The below HTML has the information that has email ids.</div>
abc@example.com
<div>xyz@example.com</div>
<span>foo@example.com</span>"""
soup = BeautifulSoup(email_id_example,"lxml")
emailid_regexp = re.compile("\w+@\w+\.\w+")
first_email_id = soup.find(text=emailid_regexp)
print(first_email_id)
output
abc@example.com

find_all()方法

find()方法返回第一個(gè)匹配的內(nèi)容，find_all()方法會(huì)返回所有匹配的內(nèi)容列表朴乖，例如上面的根據(jù)正則表達(dá)式查找郵箱地址祖屏，將find()方法換成find_all()方法，則會(huì)返回所有匹配成功的內(nèi)容：

input
all_email_id = soup.find_all(text=emailid_regexp)
print(all_email_id)
output
['abc@example.com', 'xyz@example.com', 'foo@example.com']

find_parent()方法

find_parent()方法往上查找內(nèi)容买羞，例如袁勺，從第一個(gè)li節(jié)點(diǎn)上使用find_parent()方法，可以獲取父節(jié)點(diǎn)的內(nèi)容：

input
print(first_student)
output
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li>

input
all_students = first_student.find_parent('ul')
print(all_students)
output
<ul id="students">
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li>
<li class="student">
<div class="name">Lucy</div>
<div class="age">25</div>
</li>
</ul>

find_next_sibling()方法

sibling是兄弟姐妹的意思畜普，find_next_sibling()方法獲取下一個(gè)同級(jí)別的兄弟節(jié)點(diǎn)期丰，例如：

input
second_student = first_student.find_next_sibling()
print(second_student)
output
<li class="student">
<div class="name">Lucy</div>
<div class="age">25</div>
</li>

其它方法還有很多，例如：

find_next()方法
find_all_next()方法
find_previous_sibling()方法
find_all_previous()方法
這里不在一一贅述吃挑，具體請查看官方文檔：https://www.crummy.com/software/BeautifulSoup/bs4/doc/#searching-the-tree

五钝荡、瀏覽內(nèi)容

瀏覽子節(jié)點(diǎn)

使用自節(jié)點(diǎn)的標(biāo)簽名即可獲取子節(jié)點(diǎn)的內(nèi)容，例如：

input
print(first_student)
output
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li>

input
name = first_student.div
print(name)
output
<div class="name">Carl</div>

瀏覽父節(jié)點(diǎn)

使用.parent屬性可以瀏覽父節(jié)點(diǎn)舶衬，例如：

input
print(name.parent)
output
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li>

瀏覽兄弟節(jié)點(diǎn)

兄弟節(jié)點(diǎn)即同級(jí)節(jié)點(diǎn)埠通，next_sibling和previous_sibling屬性分別獲取上一個(gè)和下一個(gè)兄弟節(jié)點(diǎn)。例如：

input
print(first_student.next_sibling)
output
<li class="student">
<div class="name">Lucy</div>
<div class="age">25</div>
</li>

完整方法列表請查看:
https://www.crummy.com/software/BeautifulSoup/bs4/doc/#navigating-the-tree

六逛犹、修改內(nèi)容

修改標(biāo)簽的名字

可以通過.name屬性獲取某個(gè)節(jié)點(diǎn)的標(biāo)簽名植阴，同樣將某個(gè)標(biāo)簽名賦值給.name屬性可以很輕易改變標(biāo)簽的名稱，例如：

input
first_student
output
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li>

input
first_student.name
output
'li'

input
first_student.name = 'div'
first_student.name
output
'div'

input
first_student
output
<div class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</div>

修改標(biāo)簽的屬性

input
first_student['class'] = 'student_new'
print(first_student)
output
<div class="student_new">
<div class="name">Carl</div>
<div class="age">32</div>
</div>

注意：如果class屬性沒有的話圾浅，則此操作不會(huì)報(bào)錯(cuò)掠手，而變?yōu)橐粋€(gè)新增操作。

刪除一個(gè)標(biāo)簽的屬性

使用del方法可以將一個(gè)節(jié)點(diǎn)的某個(gè)屬性刪除狸捕。例如：

input 
del first_student['class']
print(first_student)
output
<div>
<div class="name">Carl</div>
<div class="age">32</div>
</div>

修改標(biāo)簽的內(nèi)容

使用.string屬性可以獲取標(biāo)簽的內(nèi)容值('Carl')喷鸽，同樣，對(duì)此屬性的賦值操作也可以更該其值灸拍，例如：

input
print(first_student.div.string)
output
Carl

input
first_student.div.string = 'carl_new'
print(first_student.div.string)
output
carl_new

直接刪除某個(gè)節(jié)點(diǎn)

使用decompose()方法可以直接刪除某個(gè)節(jié)點(diǎn)：

input 
print(first_student)
output
<li class="student">
<div class="name">carl_new</div>
<div class="age">32</div>
</li>

input 
first_student.div.decompose()
print(first_student)
output
<li class="student">
<div class="age">32</div>
</li>

使用extract()方法同樣可以刪除某個(gè)節(jié)點(diǎn)做祝，不過它和decompose()方法不同的是砾省，extract()會(huì)返回被刪除的這個(gè)節(jié)點(diǎn)的內(nèi)容。

我們處于大數(shù)據(jù)時(shí)代混槐，對(duì)數(shù)據(jù)處理感興趣的朋友歡迎查看另一個(gè)系列隨筆：利用Python進(jìn)行數(shù)據(jù)分析基礎(chǔ)系列隨筆匯總

接下來將利用這篇的Beautiful Soup基礎(chǔ)知識(shí)完成一個(gè)簡單的爬蟲编兄，分別獲取兩個(gè)網(wǎng)站的書籍信息和價(jià)格并組合在一起并輸出到csv文件中。有興趣的朋友歡迎關(guān)注本博客声登，也歡迎大家留言進(jìn)行討論狠鸳。

最后編輯于：2017.12.04 01:55:01

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市悯嗓，隨后出現(xiàn)的幾起案子件舵，更是在濱河造成了極大的恐慌，老刑警劉巖脯厨，帶你破解...
沈念sama閱讀 217,907評(píng)論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件铅祸，死亡現(xiàn)場離奇詭異，居然都是意外死亡合武，警方通過查閱死者的電腦和手機(jī)临梗，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,987評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來稼跳，“玉大人夜焦，你說我怎么就攤上這事∑穹罚” “怎么了茫经？”我有些...
開封第一講書人閱讀 164,298評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長萎津。經(jīng)常有香客問我卸伞，道長，這世上最難降的妖魔是什么锉屈？我笑而不...
開封第一講書人閱讀 58,586評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任荤傲，我火速辦了婚禮，結(jié)果婚禮上颈渊，老公的妹妹穿的比我還像新娘遂黍。我一直安慰自己，他們只是感情好俊嗽，可當(dāng)我...
茶點(diǎn)故事閱讀 67,633評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布雾家。她就那樣靜靜地躺著，像睡著了一般绍豁。火紅的嫁衣襯著肌膚如雪芯咧。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,488評(píng)論 1贊 302
城市分裂傳說
那天，我揣著相機(jī)與錄音敬飒，去河邊找鬼邪铲。笑死，一個(gè)胖子當(dāng)著我的面吹牛无拗，可吹牛的內(nèi)容都是我干的带到。我是一名探鬼主播，決...
沈念sama閱讀 40,275評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼英染，長吁一口氣：“原來是場噩夢啊……” “哼揽惹！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起税迷，我...
開封第一講書人閱讀 39,176評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎锹漱，沒想到半個(gè)月后箭养，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,619評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡哥牍，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,819評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年毕泌，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片嗅辣。...
茶點(diǎn)故事閱讀 39,932評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡撼泛，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出澡谭，到底是詐尸還是另有隱情愿题，我是刑警寧澤，帶...
沈念sama閱讀 35,655評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布蛙奖，位于F島的核電站潘酗，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏雁仲。R本人自食惡果不足惜仔夺，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,265評(píng)論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望攒砖。院中可真熱鬧缸兔，春花似錦、人聲如沸吹艇。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,871評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽受神。三九已至蝎抽，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背樟结。一陣腳步聲響...
開封第一講書人閱讀 32,994評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工养交，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人瓢宦。一個(gè)月前我還...
沈念sama閱讀 48,095評(píng)論 3贊 370
代替公主和親
正文我出身青樓碎连，卻偏偏與公主長得像，于是被迫代替她去往敵國和親驮履。傳聞我的和親對(duì)象是個(gè)殘疾皇子鱼辙，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,884評(píng)論 2贊 354