python 利用phantomJS和selenium爬取動(dòng)態(tài)網(wǎng)頁(yè)

在利用urllib進(jìn)行網(wǎng)頁(yè)爬取的時(shí)候，由于很多網(wǎng)頁(yè)都是js動(dòng)態(tài)生成的圆恤，因此抓取到的網(wǎng)頁(yè)存在信息沒(méi)有加載成功突倍，比如一個(gè)搜索網(wǎng)頁(yè)沒(méi)有加載搜索結(jié)果。

利用phantomJS和selenium模擬瀏覽器盆昙，從而能夠一定程度上解決這個(gè)問(wèn)題羽历！

1. phantomJS和selenium的安裝

phantomJS需要下載壓縮包，直接打包即可淡喜。需要用到的是壓縮路徑里的./bin/phantomjs.exe, 我理解的是秕磷，里面應(yīng)該有各種瀏覽器的驅(qū)動(dòng)。

selenium的安裝炼团，可以通過(guò)pip install selenium直接安裝

2. 代碼

from bs4 import BeautifulSoup
from selenium import webdriver
import time
from urllib import request
import os
url = 'http://www.sse.com.cn/home/search/?webswd=%E6%8B%9B%E8%82%A1%E8%AF%B4%E6%98%8E%E4%B9%A6'
dir = '***\\pdf\\'
sleep_time = 10
driver = webdriver.PhantomJS(executable_path=r'F:\phantomjs_2_1_1\bin\phantomjs.exe')
driver.set_window_size(1920, 1080)

def parse(url):

    driver.get(url)
     ###等待網(wǎng)頁(yè)加載完成
    time.sleep(sleep_time)

    page = BeautifulSoup(driver.page_source)
    while True:
        extract(page)

        ###需要注意
        driver.set_window_size(1920, 1080)
        ### 獲取下一頁(yè)
        next = driver.find_element_by_class_name('nextPage')
        next.click()
        if not next:
            break
        next.click()
        time.sleep(sleep_time)
        page = BeautifulSoup(driver.page_source)


def extract(page):
    list = page.find(id='sse_query_list')
    for a in list.find_all('a'):
        fileName = a['title'] + '.pdf'
        url= 'http://www.sse.com.cn' + a['href']
        d = os.path.join(dir, fileName)
        print(fileName, " ", d)
        print(url)
        request.urlretrieve(url, d)

3.幾個(gè)比較坑的地方

1.driver.set_window_size(1920, 1080)
這個(gè)一定要盡可能大吧澎嚣，應(yīng)為涉及到從網(wǎng)頁(yè)源碼中解析一些元素疏尿，如果沒(méi)有這句，可能元素所在超過(guò)屏幕大小币叹，導(dǎo)致無(wú)法獲取該元素润歉，然后報(bào)錯(cuò)信息是：Element is not currently visible and may not be manipulated

2.time.sleep(10)
因?yàn)榫W(wǎng)頁(yè)需要時(shí)間加載，所以在driver獲取url后颈抚，需要讓現(xiàn)成等待一段時(shí)間踩衩，讓網(wǎng)頁(yè)加載完成。否則獲取的網(wǎng)頁(yè)信息不全贩汉。

3.獲取下一頁(yè)

最后編輯于：2018.07.22 14:40:37

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末驱富，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子匹舞，更是在濱河造成了極大的恐慌褐鸥，老刑警劉巖，帶你破解...
沈念sama閱讀 216,997評(píng)論 6贊 502
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件赐稽，死亡現(xiàn)場(chǎng)離奇詭異叫榕，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)姊舵，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,603評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門晰绎，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人括丁，你說(shuō)我怎么就攤上這事荞下。” “怎么了史飞？”我有些...
開(kāi)封第一講書(shū)人閱讀 163,359評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵尖昏，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我构资，道長(zhǎng)抽诉，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,309評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任吐绵，我火速辦了婚禮掸鹅，結(jié)果婚禮上眷射，老公的妹妹穿的比我還像新娘糊饱。我一直安慰自己吆你，他們只是感情好歇竟，可當(dāng)我...
茶點(diǎn)故事閱讀 67,346評(píng)論 6贊 390
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布丧枪。她就那樣靜靜地躺著俄删，像睡著了一般疗锐。火紅的嫁衣襯著肌膚如雪愉豺。梳的紋絲不亂的頭發(fā)上允乐，一...
開(kāi)封第一講書(shū)人閱讀 51,258評(píng)論 1贊 300
城市分裂傳說(shuō)
那天矮嫉，我揣著相機(jī)與錄音削咆，去河邊找鬼。笑死蠢笋，一個(gè)胖子當(dāng)著我的面吹牛拨齐，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播昨寞，決...
沈念sama閱讀 40,122評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼瞻惋，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了援岩？” 一聲冷哼從身側(cè)響起歼狼，我...
開(kāi)封第一講書(shū)人閱讀 38,970評(píng)論 0贊 275
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎享怀，沒(méi)想到半個(gè)月后羽峰，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,403評(píng)論 1贊 313
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡添瓷，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,596評(píng)論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年梅屉，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片鳞贷。...
茶點(diǎn)故事閱讀 39,769評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡坯汤，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出悄晃，到底是詐尸還是另有隱情玫霎，我是刑警寧澤凿滤，帶...
沈念sama閱讀 35,464評(píng)論 5贊 344
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布妈橄，位于F島的核電站，受9級(jí)特大地震影響翁脆，放射性物質(zhì)發(fā)生泄漏眷蚓。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,075評(píng)論 3贊 327
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一反番、第九天我趴在偏房一處隱蔽的房頂上張望沙热。院中可真熱鬧，春花似錦罢缸、人聲如沸篙贸。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,705評(píng)論 0贊 22
一樁弒父案枫疆，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)爵川。三九已至，卻和暖如春息楔，著一層夾襖步出監(jiān)牢的瞬間寝贡，已是汗流浹背扒披。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,848評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留圃泡，地道東北人碟案。一個(gè)月前我還...
沈念sama閱讀 47,831評(píng)論 2贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像颇蜡，于是被迫代替她去往敵國(guó)和親价说。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,678評(píng)論 2贊 354