Python第二試

爬取簡書首頁信息洼冻,包括:標(biāo)題,作者隅很,發(fā)表時(shí)間忠藤,閱讀量堤瘤,評(píng)論數(shù),點(diǎn)贊數(shù),打賞數(shù)齿坷,所投專題

因?yàn)樽约嚎催^一篇?jiǎng)e人寫的爬取趕集網(wǎng)的信息述呐,再加上也沒事做篮迎,就想著模仿著試一試甫菠,反正做的過程中是很痛苦的,好多基礎(chǔ)的都不會(huì)婴谱,就只能邊查資料邊學(xué)習(xí)了蟹但,硬著頭皮弄了一天,終于有了結(jié)果谭羔。
先上結(jié)果圖矮湘,存儲(chǔ)在mongodb中。


爬取的數(shù)據(jù)

好了口糕,記錄一下做的過程吧。

1.查看要爬取頁面的源碼

經(jīng)過查看元素磕蛇,發(fā)現(xiàn)在 ul 標(biāo)簽下的不同的 li 對(duì)應(yīng)不同的文章景描,而每個(gè)文章獲取標(biāo)題、作者等等的方法都一樣秀撇,那只需獲取這個(gè)文章列表超棺,然后讓他們執(zhí)行相同的操作即可獲得所需數(shù)據(jù)

2.查找自己所需數(shù)據(jù)所在的標(biāo)簽范圍

作者名和文章發(fā)布時(shí)間
標(biāo)題
閱讀量呵燕、評(píng)論數(shù)棠绘、點(diǎn)贊數(shù)和打賞數(shù)

3.具體的爬取數(shù)據(jù)過程

#encoding=utf-8
import requests,pymongo
from bs4 import BeautifulSoup

def get_info(url):

    r=requests.get(url) # 向服務(wù)器請(qǐng)求頁面
    r.encoding='utf-8' # 標(biāo)明編碼為utf-8,以免出現(xiàn)解碼錯(cuò)誤
    soup=BeautifulSoup(r.text,'html.parser')  # 以html.parser方式對(duì)頁面進(jìn)行解析
    articlelist=soup.select('ul.note-list li')  #獲取首頁文章列表
    #print articlelist
    for article in articlelist:
        title=article.select('a.title')[0].text
        author=article.select('a.blue-link')[0].text
        date=article.select('span.time')[0].get('data-shared-at')
        if article.find_all('a',attrs={'class':'collection-tag'}):  #因?yàn)橛行┪恼聸]有所屬分類,所以先判斷再扭,以免獲取為None
            collection=article.select('div.meta a.collection-tag')[0].text
            readnum=article.select('div.meta a:nth-of-type(2)')[0].text  #:nth-of-type(n) 選擇器匹配屬于父元素的特定類型的第 N 個(gè)子元素的每個(gè)元素.
            if article.find_all('i',attrs={'class':'iconfont ic-list-comments'}):
                commentnum=article.select('div.meta a:nth-of-type(3)')[0].text
            else:
                commentnum=0
        else:               #如果沒有所屬分類氧苍,那么閱讀量就是第一個(gè)a標(biāo)簽里的內(nèi)容
            collection='所屬分類無'
            readnum=article.select('div.meta a:nth-of-type(1)')[0].text
            if article.find_all('i',attrs={'class':'iconfont ic-list-comments'}):
                commentnum=article.select('div.meta a:nth-of-type(2)')[0].text
            else:
                commentnum=0
        likenum=article.select('div.meta span:nth-of-type(1)')[0].text
        if article.find_all('i',attrs={'class':'iconfont ic-list-money'}):
            money=article.select('div.meta span:nth-of-type(2)')[0].text
        else:
            money=0
        data = {
            'title' : title,
            'author' :author,
            'date': date,
            'readnum' : readnum,
            'commentnum' :commentnum,
            'likenum' : likenum,
            'money' : money,
            'collection' : collection
        }
        jianshu.insert_one(data)    #將獲取的數(shù)據(jù)存入到數(shù)據(jù)庫中
client = pymongo.MongoClient('localhost',27017)  # 連接mongodb
test = client['test']  # 創(chuàng)建一個(gè)名叫test的數(shù)據(jù)庫文件
jianshu = test['jianshu'] # 創(chuàng)建一個(gè)jianshu的表
get_info('http://www.reibang.com/')
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市泛范,隨后出現(xiàn)的幾起案子让虐,更是在濱河造成了極大的恐慌,老刑警劉巖罢荡,帶你破解...
    沈念sama閱讀 217,907評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件赡突,死亡現(xiàn)場離奇詭異对扶,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)惭缰,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,987評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門浪南,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人漱受,你說我怎么就攤上這事络凿。” “怎么了拜效?”我有些...
    開封第一講書人閱讀 164,298評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵喷众,是天一觀的道長。 經(jīng)常有香客問我紧憾,道長到千,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,586評(píng)論 1 293
  • 正文 為了忘掉前任赴穗,我火速辦了婚禮憔四,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘般眉。我一直安慰自己了赵,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,633評(píng)論 6 392
  • 文/花漫 我一把揭開白布甸赃。 她就那樣靜靜地躺著柿汛,像睡著了一般。 火紅的嫁衣襯著肌膚如雪埠对。 梳的紋絲不亂的頭發(fā)上络断,一...
    開封第一講書人閱讀 51,488評(píng)論 1 302
  • 那天,我揣著相機(jī)與錄音项玛,去河邊找鬼貌笨。 笑死,一個(gè)胖子當(dāng)著我的面吹牛襟沮,可吹牛的內(nèi)容都是我干的锥惋。 我是一名探鬼主播,決...
    沈念sama閱讀 40,275評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼开伏,長吁一口氣:“原來是場噩夢啊……” “哼膀跌!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起固灵,我...
    開封第一講書人閱讀 39,176評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤淹父,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后怎虫,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體暑认,經(jīng)...
    沈念sama閱讀 45,619評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡困介,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,819評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了蘸际。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片座哩。...
    茶點(diǎn)故事閱讀 39,932評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖粮彤,靈堂內(nèi)的尸體忽然破棺而出根穷,到底是詐尸還是另有隱情,我是刑警寧澤导坟,帶...
    沈念sama閱讀 35,655評(píng)論 5 346
  • 正文 年R本政府宣布屿良,位于F島的核電站,受9級(jí)特大地震影響惫周,放射性物質(zhì)發(fā)生泄漏尘惧。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,265評(píng)論 3 329
  • 文/蒙蒙 一递递、第九天 我趴在偏房一處隱蔽的房頂上張望喷橙。 院中可真熱鬧,春花似錦登舞、人聲如沸贰逾。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,871評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽疙剑。三九已至,卻和暖如春践叠,著一層夾襖步出監(jiān)牢的瞬間核芽,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,994評(píng)論 1 269
  • 我被黑心中介騙來泰國打工酵熙, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人驰坊。 一個(gè)月前我還...
    沈念sama閱讀 48,095評(píng)論 3 370
  • 正文 我出身青樓匾二,卻偏偏與公主長得像,于是被迫代替她去往敵國和親拳芙。 傳聞我的和親對(duì)象是個(gè)殘疾皇子察藐,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,884評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容