使用Beautiful Soup抓取結構化數(shù)據(jù)

寫了Scrapy XPath抓取結構化數(shù)據(jù)的方法和技巧:

再來一篇如何使用Beautiful Soup抓取結構化數(shù)據(jù)。把一些不同的寫法匯總、對比列出來兰迫。
Beautiful Soup 官方文檔較詳細,每個方法下也有示例厨埋,Beautiful Soup4.2.0 文檔 documentation
但沒有抓取結構化數(shù)據(jù)的例子抖拦。

結構化數(shù)據(jù)

Beautiful Soup提供的方法都是按標簽查找(select方法可以按標簽逐層查找雀鹃,相當于路徑)久又,對比一下XPath是按路徑查找整份。著重講BS的三個方法。

1. find_all()

find_all( name , attrs , recursive , text , **kwargs )

find_all() 方法搜索當前tag的所有子節(jié)點籽孙,并判斷是否符合過濾器的條件。

soup.find_all("a")  ##查找文檔中所有的<a>標簽

soup.find_all('tr',  "item")  ##查找tr標簽火俄,class="item"

soup.find_all('tr', class_='item') 

soup.find_all('tr', attrs={"class": "item"}) # attrs 參數(shù)定義一個字典參數(shù)來搜索包含特殊屬性的tag

帶屬性的標簽犯建,推薦用上面的第2種或第3種寫法。

2. find()

find( name , attrs , recursive , text , **kwargs )

find_all()方法返回的是文檔中符合條件的所有tag瓜客,是一個集合(class 'bs4.element.ResultSet')适瓦,find()方法返回的一個Tag(class 'bs4.element.Tag')

3. select()

select可以篩選元素,按標簽逐層查找谱仪。

soup.select("html head title")  ##標簽層級查找

soup.select('td  div  a')  ## 標簽路徑 td --> div --> a

soup.select('td > div > a') 

注意玻熙,以上按路徑 標簽之間的空格 td div a,可以用>疯攒,但也要注意>與標簽之間都有空格嗦随。

注意:select()方法指定標簽屬性可以這樣用:

uls = soup.select('a.nbg')   # <a class="nbg">

舉栗子來說明

還是以 https://book.douban.com/top250為例,抓取圖書名,出版社枚尼、價格贴浙,評分,評價推薦語署恍。

1) 選擇數(shù)據(jù)塊(結構化數(shù)據(jù))的循環(huán)點

在這里:


一個圖書所有信息包含在表格的一行中tr

for link in soup.find_all('tr', class_='item'):
    ## 循環(huán)取出單個圖書的信息

2)在循環(huán)中取每條數(shù)據(jù)
完整代碼:

#-*-coding:utf8-*-
import requests
from bs4 import BeautifulSoup
import sys

reload(sys)
sys.setdefaultencoding('utf-8')


headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
}

url = 'https://book.douban.com/top250'

def get_info2(url):
    html = requests.get(url, headers=headers).text
    soup = BeautifulSoup(html, 'lxml')

    for link in soup.find_all('tr', attrs={"class": "item"}):

        name = link.find("a")
        print name['href']
        info = link.find('p')
        print info.text

        title = link.find('div')
        print (str(title.a.text)).strip()

        quote = link.find('span',class_="inq")

        if quote:
            print quote.text

更多的代碼崎溃,不同的寫法放在Github:https://github.com/ppy2790/BeautifulSoup

使用Beautiful Soup最大不方便的地方,在于需要定位標簽時盯质,它沒有屬性袁串,或者屬性不足于支持篩選出要所要的數(shù)據(jù)。這時就結合select選取路徑呼巷,或者使用find_next_siblings()等其他方法囱修。如碰到取不到數(shù)據(jù)或取出來的是空的時候,調(diào)試的辦法就是往上一級標簽找數(shù)據(jù)朵逝。

其他內(nèi)容可以多看看文檔蔚袍。

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市配名,隨后出現(xiàn)的幾起案子啤咽,更是在濱河造成了極大的恐慌,老刑警劉巖渠脉,帶你破解...
    沈念sama閱讀 207,113評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件宇整,死亡現(xiàn)場離奇詭異,居然都是意外死亡芋膘,警方通過查閱死者的電腦和手機鳞青,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評論 2 381
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來为朋,“玉大人臂拓,你說我怎么就攤上這事∠按纾” “怎么了胶惰?”我有些...
    開封第一講書人閱讀 153,340評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長霞溪。 經(jīng)常有香客問我孵滞,道長,這世上最難降的妖魔是什么鸯匹? 我笑而不...
    開封第一講書人閱讀 55,449評論 1 279
  • 正文 為了忘掉前任坊饶,我火速辦了婚禮,結果婚禮上殴蓬,老公的妹妹穿的比我還像新娘匿级。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 64,445評論 5 374
  • 文/花漫 我一把揭開白布根蟹。 她就那樣靜靜地躺著脓杉,像睡著了一般。 火紅的嫁衣襯著肌膚如雪简逮。 梳的紋絲不亂的頭發(fā)上球散,一...
    開封第一講書人閱讀 49,166評論 1 284
  • 那天,我揣著相機與錄音散庶,去河邊找鬼蕉堰。 笑死,一個胖子當著我的面吹牛悲龟,可吹牛的內(nèi)容都是我干的屋讶。 我是一名探鬼主播,決...
    沈念sama閱讀 38,442評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼须教,長吁一口氣:“原來是場噩夢啊……” “哼皿渗!你這毒婦竟也來了?” 一聲冷哼從身側響起轻腺,我...
    開封第一講書人閱讀 37,105評論 0 261
  • 序言:老撾萬榮一對情侶失蹤乐疆,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后贬养,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體挤土,經(jīng)...
    沈念sama閱讀 43,601評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,066評論 2 325
  • 正文 我和宋清朗相戀三年误算,在試婚紗的時候發(fā)現(xiàn)自己被綠了仰美。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,161評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡儿礼,死狀恐怖咖杂,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情蚊夫,我是刑警寧澤诉字,帶...
    沈念sama閱讀 33,792評論 4 323
  • 正文 年R本政府宣布,位于F島的核電站这橙,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏导披。R本人自食惡果不足惜屈扎,卻給世界環(huán)境...
    茶點故事閱讀 39,351評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望撩匕。 院中可真熱鬧鹰晨,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,352評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至忍疾,卻和暖如春闯传,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背卤妒。 一陣腳步聲響...
    開封第一講書人閱讀 31,584評論 1 261
  • 我被黑心中介騙來泰國打工甥绿, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人则披。 一個月前我還...
    沈念sama閱讀 45,618評論 2 355
  • 正文 我出身青樓共缕,卻偏偏與公主長得像,于是被迫代替她去往敵國和親士复。 傳聞我的和親對象是個殘疾皇子图谷,可洞房花燭夜當晚...
    茶點故事閱讀 42,916評論 2 344

推薦閱讀更多精彩內(nèi)容