Python 爬取簡書個人文章目錄包帚、查看數(shù)及鏈接地址

Python 爬取簡書個人文章目錄呐赡、查看數(shù)及鏈接地址



1. 通過360極速瀏覽器的審查元素,選“Network”->“XHR”選項,滾動頁面,找出連接地址構(gòu)成的規(guī)律。http://www.reibang.com/u/55b597320c4e?order_by=shared_at&page=2

如下圖:


2. 根據(jù)文件數(shù)和每頁顯示的數(shù)量履肃,構(gòu)建鏈接地址。

urls =[ 'http://www.reibang.com/u/55b597320c4e?order_by=shared_at&page={}'.format(str(i)) for i in range(1,13)]


3. 使用LXML庫坐桩,查找需要的標(biāo)題尺棋,查看量,超鏈地址绵跷。

代碼如下:

# -*- coding: utf-8 -*-

import? requests,time

from lxml import? etree

import pymongo

from multiprocessing import Pool? #多線程庫

client = pymongo.MongoClient('localhost',27017)

mydb = client['mydb']

jianshu_user_dy = mydb['jianshu_user_dy']

headers = {

'X-Requested-With': 'XMLHttpRequest',

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36',

'Referer': 'http://www.reibang.com/u/9104ebf5e177'

}

def get_infos(url):

try:

html = requests.get(url,headers =headers)

selector = etree.HTML(html.text)

try:

links = selector.xpath('//*[@id="list-container"]/ul/li')

for link in links:

title = link.xpath('div/a/text()')[0]

view = link.xpath('div/div/a[1]/text()')[-1].strip()

title_url ='http://www.reibang.com'+ link.xpath('div/a/@href')[0]

print(title,view)

infos = {

'title':title,

'url':title_url,

'view':view

}

jianshu_user_dy.insert_one(infos)

except:

print("抓取不到內(nèi)容咯膘螟??抖坪?萍鲸??擦俐?脊阴??蚯瞧?嘿期??埋合?备徐??甚颂?")

except requests.ConnectionError:

print("網(wǎng)頁出錯啦蜜猾!***************")

urls =[ 'http://www.reibang.com/u/55b597320c4e?order_by=shared_at&page={}'.format(str(i)) for i? in range(1,13)]

if __name__ == '__main__':

start = time.time()

pool = Pool(processes=4)

pool.map(get_infos,urls)

print("合計用時:{}".format(str(time.time()-start)))

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末秀菱,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子蹭睡,更是在濱河造成了極大的恐慌衍菱,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,627評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件肩豁,死亡現(xiàn)場離奇詭異脊串,居然都是意外死亡,警方通過查閱死者的電腦和手機清钥,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,180評論 3 399
  • 文/潘曉璐 我一進(jìn)店門琼锋,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人祟昭,你說我怎么就攤上這事缕坎。” “怎么了从橘?”我有些...
    開封第一講書人閱讀 169,346評論 0 362
  • 文/不壞的土叔 我叫張陵念赶,是天一觀的道長础钠。 經(jīng)常有香客問我恰力,道長,這世上最難降的妖魔是什么旗吁? 我笑而不...
    開封第一講書人閱讀 60,097評論 1 300
  • 正文 為了忘掉前任踩萎,我火速辦了婚禮,結(jié)果婚禮上很钓,老公的妹妹穿的比我還像新娘香府。我一直安慰自己,他們只是感情好码倦,可當(dāng)我...
    茶點故事閱讀 69,100評論 6 398
  • 文/花漫 我一把揭開白布企孩。 她就那樣靜靜地躺著,像睡著了一般袁稽。 火紅的嫁衣襯著肌膚如雪勿璃。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,696評論 1 312
  • 那天推汽,我揣著相機與錄音补疑,去河邊找鬼。 笑死歹撒,一個胖子當(dāng)著我的面吹牛莲组,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播暖夭,決...
    沈念sama閱讀 41,165評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼锹杈,長吁一口氣:“原來是場噩夢啊……” “哼撵孤!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起竭望,我...
    開封第一講書人閱讀 40,108評論 0 277
  • 序言:老撾萬榮一對情侶失蹤早直,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后市框,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體霞扬,經(jīng)...
    沈念sama閱讀 46,646評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,709評論 3 342
  • 正文 我和宋清朗相戀三年枫振,在試婚紗的時候發(fā)現(xiàn)自己被綠了喻圃。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,861評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡粪滤,死狀恐怖斧拍,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情杖小,我是刑警寧澤肆汹,帶...
    沈念sama閱讀 36,527評論 5 351
  • 正文 年R本政府宣布,位于F島的核電站予权,受9級特大地震影響昂勉,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜扫腺,卻給世界環(huán)境...
    茶點故事閱讀 42,196評論 3 336
  • 文/蒙蒙 一岗照、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧笆环,春花似錦攒至、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,698評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至账忘,卻和暖如春志膀,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背闪萄。 一陣腳步聲響...
    開封第一講書人閱讀 33,804評論 1 274
  • 我被黑心中介騙來泰國打工梧却, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人败去。 一個月前我還...
    沈念sama閱讀 49,287評論 3 379
  • 正文 我出身青樓放航,卻偏偏與公主長得像,于是被迫代替她去往敵國和親圆裕。 傳聞我的和親對象是個殘疾皇子广鳍,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,860評論 2 361

推薦閱讀更多精彩內(nèi)容