python爬蟲之爬簡書熱門內(nèi)容

初學(xué)爬蟲,簡單講下月洛,上面代碼爬的是簡書30日熱門內(nèi)容何恶,運(yùn)用到了抓包所以能夠爬取任意頁面的內(nèi)容,不過在下目前還不會封裝嚼黔,有些粗糙细层,湊合著看吧

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import requests
import time
from bs4 import BeautifulSoup
import os
import codecs
import csv
headers = {'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"}
url = 'http://www.reibang.com/trending/monthly?seen_snote_ids%5B%5D=9417518&seen_snote_ids%5B%5D=9975670&seen_snote_ids%5B%5D=9983984&seen_snote_ids%5B%5D=9707970&seen_snote_ids%5B%5D=9650477&seen_snote_ids%5B%5D=10065620&seen_snote_ids%5B%5D=10239288&seen_snote_ids%5B%5D=9917498&seen_snote_ids%5B%5D=10066091&seen_snote_ids%5B%5D=10050042&seen_snote_ids%5B%5D=9417837&seen_snote_ids%5B%5D=10133511&seen_snote_ids%5B%5D=9587458&seen_snote_ids%5B%5D=10189199&seen_snote_ids%5B%5D=10443321&seen_snote_ids%5B%5D=10094112&seen_snote_ids%5B%5D=10270938&seen_snote_ids%5B%5D=9654829&seen_snote_ids%5B%5D=8446458&seen_snote_ids%5B%5D=10465818&page='
for a in range(1,100):#爬去前100頁的內(nèi)容
    new_url = url + str(a)
    page = requests.get(new_url,headers=headers)
    soup = BeautifulSoup(page.text,'lxml')
    text = soup.find_all('div',{'class':'content'})
    for i in text:
        authorName = i.find_all('a')[1].get_text() #獲得作者名字
        pageTitle = i.find_all('a')[2].get_text()#獲得標(biāo)題
        peopleRead = i.find_all('a')[3].get_text()#獲得閱讀量
        peopleRead = peopleRead.strip()
        peopleComment = i.find_all('a')[4].get_text()#獲得評論數(shù)
        peopleComment = peopleComment.strip()
        peopleLike = i.find_all('span')[1].get_text()#獲得點(diǎn)贊數(shù)
        peopleLike = peopleLike.strip()
        pageAbstract = i.find('p', {'class': 'abstract'}).get_text()#獲得摘要
        pageAbstract = pageAbstract.strip()
        getMoney = i.find_all('span')[-1].get_text()  #獲得贊賞數(shù)( 由于是最后一個了,所以很報錯唬涧,只能改為逆向)

        authorName = list(authorName.strip().split(','))#生成一維列表
        pageTitle = list(pageTitle.strip().split(','))
        peopleRead= list(peopleRead.strip().split(','))
        peopleComment = list(peopleComment.strip().split(','))
        peopleLike = list(peopleLike.strip().split(','))
        pageAbstract = list(pageAbstract.strip().split(','))
        getMoney = list(getMoney.strip().split(','))
        item = [ [a,b,c,d,e,f,g] for a,b,c,d,e,f,g in zip(authorName,pageTitle,pageAbstract,peopleRead,peopleComment,peopleLike,getMoney)]#將七個列表合成一個二維表
        #print(item)
        #item_name = ['作者', '標(biāo)題', '摘要', '閱讀量', '評論數(shù)', '點(diǎn)贊數(shù)', '贊賞數(shù)']
        with open('簡書.csv', 'a+', newline='',encoding="utf_8_sig") as csvfile: #newline=''解決新加入的內(nèi)容有一行空行
            csvfile.write("\xef\xbb\xbf")#解決亂碼問題
            spamwriter = csv.writer(csvfile, delimiter=' ',
                                    quotechar='|', quoting=csv.QUOTE_MINIMAL)
            spamwriter.writerow(item)

time.sleep(1)#設(shè)置間隔時間疫赎,防止被封IP


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市碎节,隨后出現(xiàn)的幾起案子捧搞,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 210,978評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件胎撇,死亡現(xiàn)場離奇詭異介粘,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)晚树,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,954評論 2 384
  • 文/潘曉璐 我一進(jìn)店門姻采,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人爵憎,你說我怎么就攤上這事慨亲。” “怎么了纲堵?”我有些...
    開封第一講書人閱讀 156,623評論 0 345
  • 文/不壞的土叔 我叫張陵巡雨,是天一觀的道長。 經(jīng)常有香客問我席函,道長,這世上最難降的妖魔是什么冈涧? 我笑而不...
    開封第一講書人閱讀 56,324評論 1 282
  • 正文 為了忘掉前任茂附,我火速辦了婚禮,結(jié)果婚禮上督弓,老公的妹妹穿的比我還像新娘营曼。我一直安慰自己,他們只是感情好愚隧,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,390評論 5 384
  • 文/花漫 我一把揭開白布蒂阱。 她就那樣靜靜地躺著,像睡著了一般狂塘。 火紅的嫁衣襯著肌膚如雪录煤。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,741評論 1 289
  • 那天荞胡,我揣著相機(jī)與錄音妈踊,去河邊找鬼。 笑死泪漂,一個胖子當(dāng)著我的面吹牛廊营,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播萝勤,決...
    沈念sama閱讀 38,892評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼露筒,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了敌卓?” 一聲冷哼從身側(cè)響起慎式,我...
    開封第一講書人閱讀 37,655評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后瞬捕,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體鞍历,經(jīng)...
    沈念sama閱讀 44,104評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評論 2 325
  • 正文 我和宋清朗相戀三年肪虎,在試婚紗的時候發(fā)現(xiàn)自己被綠了劣砍。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,569評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡扇救,死狀恐怖刑枝,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情迅腔,我是刑警寧澤装畅,帶...
    沈念sama閱讀 34,254評論 4 328
  • 正文 年R本政府宣布,位于F島的核電站沧烈,受9級特大地震影響掠兄,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜锌雀,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,834評論 3 312
  • 文/蒙蒙 一蚂夕、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧腋逆,春花似錦婿牍、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,725評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至撑蚌,卻和暖如春上遥,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背锨并。 一陣腳步聲響...
    開封第一講書人閱讀 31,950評論 1 264
  • 我被黑心中介騙來泰國打工露该, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人第煮。 一個月前我還...
    沈念sama閱讀 46,260評論 2 360
  • 正文 我出身青樓解幼,卻偏偏與公主長得像,于是被迫代替她去往敵國和親包警。 傳聞我的和親對象是個殘疾皇子撵摆,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,446評論 2 348

推薦閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 171,734評論 25 707
  • 爬蟲文章 in 簡書程序員專題: like:128-Python 爬取落網(wǎng)音樂 like:127-【圖文詳解】py...
    喜歡吃栗子閱讀 21,742評論 4 412
  • 1 前言 作為一名合格的數(shù)據(jù)分析師,其完整的技術(shù)知識體系必須貫穿數(shù)據(jù)獲取害晦、數(shù)據(jù)存儲特铝、數(shù)據(jù)提取暑中、數(shù)據(jù)分析、數(shù)據(jù)挖掘鲫剿、...
    whenif閱讀 18,061評論 45 523
  • 今天的長安城鳄逾,暴雨,藍(lán)色警報灵莲。糟糕的天氣中和了我早晨喝的雞血雕凹。單調(diào)的洗漱,背上公包政冻,早早跑去擠那我罵了半個月的2...
    OnlyMorrison閱讀 259評論 0 1
  • 臨近寒冬枚抵,白晝愈來愈短,晚上下班明场,出地鐵站汽摹,臨近八點(diǎn),外面的世界除了寒意侵人苦锨,便是黑夜逼泣,深深的黑;燈火通明的地鐵站...
    咖啡與薔薇閱讀 254評論 0 0