爬蟲基礎_02——BeautifulSoup

今天主要是利用BeautifulSoup爬一下糗百 http://www.qiushibaike.com/
包括:作者愈涩,年齡,段子內容慢显,好笑數持际,評論數
主要思想:利用BeautifulSoup獲取網頁中的數據,然后存到本地的csv
下面了解一下BeautifulSoup的用法
首先必須要導入 bs4 庫
BeautifulSoup 的用法
下面是具體代碼:

import requests
from bs4 import BeautifulSoup
import csv


user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"
header = {'User-Agent': user_agent}


html = requests.get('http://www.qiushibaike.com', headers = header).content
soup = BeautifulSoup(html, 'lxml')
# 獲取要爬取的部分
divs = soup.select('.article.block.untagged.mb15')

authors = soup.select('div > a > h2')


if soup.select('div.author.clearfix > div'):
    ages = soup.select('div.author.clearfix > div')
else:
    ages = '不知道'
contents = soup.select('a > div.content > span')
laughs = soup.select('div.stats > span > i')
comments = soup.select('div.stats > span > a > i')
#新建一個列表殴蹄,把獲取的數據存到這個列表究抓;
a = []
for author, age, content, laugh, comment in zip(authors, ages, contents, laughs, comments):
    data = {
        'author': author.get_text(),

        'age': age.get_text(),
        'content': content.get_text(),
        'laugh': laugh.get_text(),
        'comment': comment.get_text()
    }
    a.append(data)
#把列表的數據存到本地的csv文件;
csv_name = ['author', 'age', 'content', 'laugh', 'comment']
with open('qiubai.csv', 'w', newline = '',encoding='utf-8')as csvfile:
    write = csv.DictWriter(csvfile, fieldnames = csv_name)
    write.writeheader()
    write.writerows(a)
    csvfile.close()

結果:

糗百 .png

小結:
1袭灯、利用BeautifulSoup爬取數據刺下,感覺比之前的正則方便多了,其實后面還有更方便的方法稽荧,請?zhí)较乱黄榭?a href="http://www.reibang.com/p/0abf49d3816b" target="_blank">爬蟲基礎_03——xpath橘茉;
2、這里存儲數據是用的csv文件姨丈,但是如果數據太多的話畅卓,這個方法就有局限性了,后面還會介紹一下其他的存儲方法蟋恬;

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末翁潘,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子歼争,更是在濱河造成了極大的恐慌拜马,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,561評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件沐绒,死亡現場離奇詭異俩莽,居然都是意外死亡,警方通過查閱死者的電腦和手機乔遮,發(fā)現死者居然都...
    沈念sama閱讀 90,218評論 3 385
  • 文/潘曉璐 我一進店門扮超,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事瞒津〔跻拢” “怎么了?”我有些...
    開封第一講書人閱讀 157,162評論 0 348
  • 文/不壞的土叔 我叫張陵巷蚪,是天一觀的道長病毡。 經常有香客問我,道長屁柏,這世上最難降的妖魔是什么啦膜? 我笑而不...
    開封第一講書人閱讀 56,470評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮淌喻,結果婚禮上僧家,老公的妹妹穿的比我還像新娘。我一直安慰自己裸删,他們只是感情好八拱,可當我...
    茶點故事閱讀 65,550評論 6 385
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著涯塔,像睡著了一般肌稻。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上匕荸,一...
    開封第一講書人閱讀 49,806評論 1 290
  • 那天爹谭,我揣著相機與錄音,去河邊找鬼榛搔。 笑死诺凡,一個胖子當著我的面吹牛,可吹牛的內容都是我干的践惑。 我是一名探鬼主播腹泌,決...
    沈念sama閱讀 38,951評論 3 407
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼尔觉!你這毒婦竟也來了凉袱?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 37,712評論 0 266
  • 序言:老撾萬榮一對情侶失蹤穷娱,失蹤者是張志新(化名)和其女友劉穎绑蔫,沒想到半個月后运沦,有當地人在樹林里發(fā)現了一具尸體泵额,經...
    沈念sama閱讀 44,166評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,510評論 2 327
  • 正文 我和宋清朗相戀三年携添,在試婚紗的時候發(fā)現自己被綠了嫁盲。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,643評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖羞秤,靈堂內的尸體忽然破棺而出缸托,到底是詐尸還是另有隱情,我是刑警寧澤瘾蛋,帶...
    沈念sama閱讀 34,306評論 4 330
  • 正文 年R本政府宣布俐镐,位于F島的核電站,受9級特大地震影響哺哼,放射性物質發(fā)生泄漏佩抹。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,930評論 3 313
  • 文/蒙蒙 一取董、第九天 我趴在偏房一處隱蔽的房頂上張望棍苹。 院中可真熱鬧,春花似錦茵汰、人聲如沸枢里。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,745評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽栏豺。三九已至,卻和暖如春画侣,著一層夾襖步出監(jiān)牢的瞬間冰悠,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,983評論 1 266
  • 我被黑心中介騙來泰國打工配乱, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留溉卓,地道東北人。 一個月前我還...
    沈念sama閱讀 46,351評論 2 360
  • 正文 我出身青樓搬泥,卻偏偏與公主長得像桑寨,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子忿檩,可洞房花燭夜當晚...
    茶點故事閱讀 43,509評論 2 348

推薦閱讀更多精彩內容