ps:課前規(guī)矩,ps一下。上節(jié)我們講了最簡(jiǎn)單的爬蟲轿塔,但是在真實(shí)的網(wǎng)絡(luò)環(huán)境下,并不是所有的網(wǎng)頁(yè)都能用那樣的方式抓取仲墨,用ajax異步請(qǐng)求數(shù)據(jù)的網(wǎng)頁(yè)就沒辦法用如上方式勾缭,那么我們今天就來(lái)看看如何抓取異步加載數(shù)據(jù)的網(wǎng)頁(yè)。(找網(wǎng)頁(yè)的時(shí)候發(fā)現(xiàn)簡(jiǎn)書的部分頁(yè)面也是用這種方式加載的目养,忍了很久還是放過了簡(jiǎn)書~~)
代碼預(yù)覽
#coding:utf-8
from bs4 import BeautifulSoup
import requests
import json
import pymongo
url = 'http://www.guokr.com/scientific/'
def dealData(url):
client = pymongo.MongoClient('localhost', 27017)
guoke = client['guoke']
guokeData = guoke['guokeData']
web_data = requests.get(url)
datas = json.loads(web_data.text)
print datas.keys()
for data in datas['result']:
guokeData.insert_one(data)
def start():
urls = ['http://www.guokr.com/apis/minisite/article.json?retrieve_type=by_subject&limit=20&offset={}&_=1462252453410'.format(str(i)) for i in range(20, 100, 20)]
for url in urls:
dealData(url)
start()
代碼剖析
細(xì)心的同學(xué)可能發(fā)現(xiàn)了俩由,這和昨天的沒什么區(qū)別啊0.0。其實(shí)不是這樣的混稽,這次我們要抓取的數(shù)據(jù)是果殼網(wǎng)的科學(xué)人分頁(yè)采驻,如果直接通過requests.get('http://www.guokr.com/scientific/')
你會(huì)發(fā)現(xiàn)我們要的數(shù)據(jù)都不在返回網(wǎng)頁(yè)源代碼中审胚,這是因?yàn)槲覀円臄?shù)據(jù)都是通過ajax的方式異步加載的。那我們應(yīng)該如何抓取這部分內(nèi)容呢礼旅?首先用瀏覽器打開我們要抓的網(wǎng)頁(yè)
隨便選擇一個(gè)地方點(diǎn)開查看元素膳叨,細(xì)心的同學(xué)發(fā)現(xiàn)我們這次不用chrome改用火狐了,原因一會(huì)告訴大家~
選擇網(wǎng)絡(luò)標(biāo)簽和XHR分頁(yè)痘系,然后我們向下滑動(dòng)鼠標(biāo)滾輪可以發(fā)現(xiàn)一個(gè)一個(gè)的GET請(qǐng)求被列了出來(lái)菲嘴,這便是ajax異步加載的數(shù)據(jù),此時(shí)進(jìn)行觀察汰翠,如下圖:
我們可以看到每次請(qǐng)求的url龄坪,然后通過觀察url變化我們找到了規(guī)律,每次的偏移量offset都不一樣复唤,代表了我們?nèi)〕鰪氖裁次恢萌〕龆嗌贄l數(shù)據(jù)健田,觀察完url規(guī)律,我們點(diǎn)擊其中一條url佛纫,切換到響應(yīng)分頁(yè)妓局,如下圖所示:
我們可以看到請(qǐng)求回來(lái)的數(shù)據(jù)格式是json,而且數(shù)據(jù)結(jié)構(gòu)非常清晰呈宇,這也是我選用火狐的原因好爬,我們一眼可以找出我們需要的數(shù)據(jù)就在result這個(gè)key下面。
下面進(jìn)入我們的代碼甥啄,start()中拼接url的代碼我就不在贅述存炮,我們可以看到這次和上次不同的是引入了兩個(gè)新庫(kù)
import json
import pymongo
json庫(kù)是python自帶的json解析庫(kù),功能夠我們使用的蜈漓。pymongo是python和mongoDB交互用的庫(kù)穆桂。首先我們來(lái)看這段代碼:
client = pymongo.MongoClient('localhost', 27017)
guoke = client['guoke']
guokeData = guoke['guokeData']
PS:一定記得在執(zhí)行這段代碼之前先打開你本地的mongoDB數(shù)據(jù)庫(kù),我在環(huán)境配置章節(jié)有講怎么安裝mongoDB迎变,不會(huì)的同學(xué)請(qǐng)參見第二章環(huán)境配置充尉。
第一句飘言,建立一個(gè)pymongo的數(shù)據(jù)交互客戶端衣形,第二句選擇名為guoke的database,注意:如果有名為guoke的database則會(huì)直接使用已有的姿鸿,如果沒有則會(huì)自動(dòng)建立谆吴。第三句選擇guoke數(shù)據(jù)庫(kù)中名為guokeData的collection。
接下來(lái):
datas = json.loads(web_data.text)
print datas.keys()
用json庫(kù)加載我們?nèi)〕龅臄?shù)據(jù)苛预,然后打印出數(shù)據(jù)的keys句狼,
我們可以看到和我們?cè)诨鸷鼮g覽器中的數(shù)據(jù)結(jié)構(gòu)一致,我們需要用的是其中的result字段热某,剛剛我們通過火狐觀察到result是一個(gè)list腻菇,然后我們遍歷result依次存入guokeData這個(gè)collection之中胳螟。所以,最后一句
guokeData.insert_one(data)
就是給collection中插入一條數(shù)據(jù)筹吐,我個(gè)人很喜歡抓取返回格式是json的網(wǎng)站糖耸,因?yàn)閿?shù)據(jù)格式很規(guī)范,可以直接存入mongo中任意取用丘薛,操作簡(jiǎn)單嘉竟。不用做數(shù)據(jù)序列化操作,而我們上節(jié)那樣解析出來(lái)的數(shù)據(jù)要存入數(shù)據(jù)庫(kù)就需要做序列化操作洋侨。
下來(lái)時(shí)代碼執(zhí)行完畢后數(shù)據(jù)庫(kù)的情況舍扰,可以看到我們的數(shù)據(jù)已經(jīng)盡數(shù)插入數(shù)據(jù)庫(kù)
![6.png]ACURNVC.png](http://upload-images.jianshu.io/upload_images/1957582-b3cd1e541ed57afd.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
可以看到很舒服的數(shù)據(jù)結(jié)構(gòu)。
至此希坚,這一節(jié)的內(nèi)容告一段落边苹,當(dāng)然,并不是所有的異步加載網(wǎng)頁(yè)都需要我們?nèi)ネㄟ^觀察法獲取url然后再采集裁僧,這樣豈不是會(huì)很累勾给,下節(jié)將向大家介紹一種非常舒服的方式去做這件事。
寫在最后
慣例锅知,最佳實(shí)踐的前兩步我?guī)湍銈冏鐾炅瞬ゼ保信d趣的同學(xué)可以看一下擴(kuò)展作業(yè)哦。
作業(yè):抓取http://rent.591.com.hk/ 這個(gè)網(wǎng)站租房的信息售睹,信息都是采用ajax異步加載的方式桩警。而且剛好和我們上節(jié)的內(nèi)容是個(gè)強(qiáng)烈對(duì)比,不能通過更改url獲取分頁(yè)的數(shù)據(jù)了昌妹,很適合練手~~
有興趣的同學(xué)可以加群498945822一起交流學(xué)習(xí)哦~~
發(fā)現(xiàn)問題的同學(xué)歡迎指正捶枢,直接說就行,不用留面子飞崖,博主臉皮厚烂叔!