Python 爬取簡書個人文章目錄包帚、查看數(shù)及鏈接地址

Python 爬取簡書個人文章目錄呐赡、查看數(shù)及鏈接地址

1. 通過360極速瀏覽器的審查元素，選“Network”->“XHR”選項，滾動頁面，找出連接地址構(gòu)成的規(guī)律。http://www.reibang.com/u/55b597320c4e?order_by=shared_at&page=2

如下圖：

2. 根據(jù)文件數(shù)和每頁顯示的數(shù)量履肃，構(gòu)建鏈接地址。

urls =[ 'http://www.reibang.com/u/55b597320c4e?order_by=shared_at&page={}'.format(str(i)) for i in range(1,13)]

3. 使用LXML庫坐桩，查找需要的標(biāo)題尺棋，查看量，超鏈地址绵跷。

代碼如下：

# -*- coding: utf-8 -*-

import? requests,time

from lxml import? etree

import pymongo

from multiprocessing import Pool? #多線程庫

client = pymongo.MongoClient('localhost',27017)

mydb = client['mydb']

jianshu_user_dy = mydb['jianshu_user_dy']

headers = {

'X-Requested-With': 'XMLHttpRequest',

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36',

'Referer': 'http://www.reibang.com/u/9104ebf5e177'

}

def get_infos(url):

try:

html = requests.get(url,headers =headers)

selector = etree.HTML(html.text)

try:

links = selector.xpath('//*[@id="list-container"]/ul/li')

for link in links:

title = link.xpath('div/a/text()')[0]

view = link.xpath('div/div/a[1]/text()')[-1].strip()

title_url ='http://www.reibang.com'+ link.xpath('div/a/@href')[0]

print(title,view)

infos = {

'title':title,

'url':title_url,

'view':view

}

jianshu_user_dy.insert_one(infos)

except:

print("抓取不到內(nèi)容咯膘螟？？抖坪？萍鲸？？擦俐？脊阴？？蚯瞧？嘿期？？埋合？备徐？？甚颂？")

except requests.ConnectionError:

print("網(wǎng)頁出錯啦蜜猾！***************")

urls =[ 'http://www.reibang.com/u/55b597320c4e?order_by=shared_at&page={}'.format(str(i)) for i? in range(1,13)]

if __name__ == '__main__':

start = time.time()

pool = Pool(processes=4)

pool.map(get_infos,urls)

print("合計用時:{}".format(str(time.time()-start)))

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末秀菱，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子蹭睡，更是在濱河造成了極大的恐慌衍菱，老刑警劉巖，帶你破解...
沈念sama閱讀 222,627評論 6贊 517
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件肩豁，死亡現(xiàn)場離奇詭異脊串，居然都是意外死亡，警方通過查閱死者的電腦和手機清钥，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,180評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門琼锋，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人祟昭，你說我怎么就攤上這事缕坎。” “怎么了从橘？”我有些...
開封第一講書人閱讀 169,346評論 0贊 362
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵念赶，是天一觀的道長础钠。經(jīng)常有香客問我恰力，道長，這世上最難降的妖魔是什么旗吁？我笑而不...
開封第一講書人閱讀 60,097評論 1贊 300
?港島之戀（遺憾婚禮）
正文為了忘掉前任踩萎，我火速辦了婚禮，結(jié)果婚禮上很钓，老公的妹妹穿的比我還像新娘香府。我一直安慰自己，他們只是感情好码倦，可當(dāng)我...
茶點故事閱讀 69,100評論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布企孩。她就那樣靜靜地躺著，像睡著了一般袁稽。火紅的嫁衣襯著肌膚如雪勿璃。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,696評論 1贊 312
城市分裂傳說
那天推汽，我揣著相機與錄音补疑，去河邊找鬼。笑死歹撒，一個胖子當(dāng)著我的面吹牛莲组，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播暖夭，決...
沈念sama閱讀 41,165評論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼锹杈，長吁一口氣：“原來是場噩夢啊……” “哼撵孤！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起竭望，我...
開封第一講書人閱讀 40,108評論 0贊 277
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤早直，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后市框，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體霞扬，經(jīng)...
沈念sama閱讀 46,646評論 1贊 319
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,709評論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年枫振，在試婚紗的時候發(fā)現(xiàn)自己被綠了喻圃。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,861評論 1贊 353
活死人
序言：一個原本活蹦亂跳的男人離奇死亡粪滤，死狀恐怖斧拍，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情杖小，我是刑警寧澤肆汹，帶...
沈念sama閱讀 36,527評論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站予权，受9級特大地震影響昂勉，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜扫腺，卻給世界環(huán)境...
茶點故事閱讀 42,196評論 3贊 336
男人毒藥：我在死后第九天來索命
文/蒙蒙一岗照、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧笆环，春花似錦攒至、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,698評論 0贊 25
一樁弒父案迫吐，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至账忘，卻和暖如春志膀，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背闪萄。一陣腳步聲響...
開封第一講書人閱讀 33,804評論 1贊 274
情欲美人皮
我被黑心中介騙來泰國打工梧却，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人败去。一個月前我還...
沈念sama閱讀 49,287評論 3贊 379
代替公主和親
正文我出身青樓放航，卻偏偏與公主長得像，于是被迫代替她去往敵國和親圆裕。傳聞我的和親對象是個殘疾皇子广鳍，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,860評論 2贊 361

Python 爬取簡書個人文章目錄、查看數(shù)及鏈接地址

Python 爬取簡書個人文章目錄包帚、查看數(shù)及鏈接地址

推薦閱讀更多精彩內(nèi)容