JS頁面信息的抓取

由于網(wǎng)頁模塊化的開發(fā)桥帆,很多網(wǎng)頁的信息加載都是通過js完成的嘹黔,單純靠解析靜態(tài)網(wǎng)頁已不能完成需求伶贰,本文通過PhantomJS來完成js的渲染愁溜,然后通過上一篇介紹的beautifusoup完成解析。
首先是安裝PhantomJS,閱讀官網(wǎng)文檔豪嗽。由于js需要瀏覽器才能運(yùn)行谴蔑,所以還需要一個無界面的瀏覽器內(nèi)核工具:selenium,以及火狐驅(qū)動程序eckodriver
為詳細(xì)介紹龟梦,本文使用以下需求作為開發(fā)任務(wù):
抓取百度圖片輸入關(guān)鍵詞“ SHE”后頁面顯示的圖片隐锭,如圖:

SHE圖片.png

通過查看網(wǎng)頁源代碼可以發(fā)現(xiàn),此頁面采用了js異步加載圖片完成计贰,故需要先將js信息渲染完成钦睡,然后才能完成解析工作。
代碼如下:

#coding:utf-8
from selenium import webdriver
from bs4 import BeautifulSoup

# browser = webdriver.Firefox(executable_path="/Users/brave/geckodriver/geckodriver")
browser = webdriver.PhantomJS()
browser.get("http://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&word=SHE")
soup = BeautifulSoup(browser.page_source, 'html.parser')
imgpage = soup.find("div",class_="imgpage")
list = imgpage.find_all("li",class_="imgitem")
print(len(list))

for i in range(1,len(list)):
    imagitem = list[i]
    imageURL = imagitem["data-objurl"]
    savePath = "/Users/brave/Documents/python/SHE/" + str(i) +".jpg"
    print(savePath)
    try:
        saveImage(imageURL,savePath)
    except:
        print(imageURL)

browser.quit()

根據(jù)圖片URL即可下載圖片躁倒,此處由于簡化次要細(xì)節(jié)默認(rèn)圖片格式為.jpg荞怒,代碼如下:

def saveImage(imageURL,savePath):
    # headers = {'User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:55.0) Gecko/20100101 Firefox/55.0'}
    # req = urllib.request.Request(url=imageURL, headers=headers)
    # data = urllib.request.urlopen(req).read()
    data = urllib.request.urlopen(imageURL).read()
    fout = open(savePath, "wb")
    fout.write(data)
    fout.close()

抓取結(jié)果示例:

SHE圖片.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市秧秉,隨后出現(xiàn)的幾起案子褐桌,更是在濱河造成了極大的恐慌,老刑警劉巖象迎,帶你破解...
    沈念sama閱讀 206,723評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件荧嵌,死亡現(xiàn)場離奇詭異,居然都是意外死亡砾淌,警方通過查閱死者的電腦和手機(jī)啦撮,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來汪厨,“玉大人赃春,你說我怎么就攤上這事〗颈溃” “怎么了聘鳞?”我有些...
    開封第一講書人閱讀 152,998評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長要拂。 經(jīng)常有香客問我抠璃,道長,這世上最難降的妖魔是什么脱惰? 我笑而不...
    開封第一講書人閱讀 55,323評論 1 279
  • 正文 為了忘掉前任搏嗡,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘采盒。我一直安慰自己旧乞,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,355評論 5 374
  • 文/花漫 我一把揭開白布磅氨。 她就那樣靜靜地躺著尺栖,像睡著了一般。 火紅的嫁衣襯著肌膚如雪烦租。 梳的紋絲不亂的頭發(fā)上延赌,一...
    開封第一講書人閱讀 49,079評論 1 285
  • 那天,我揣著相機(jī)與錄音叉橱,去河邊找鬼挫以。 笑死,一個胖子當(dāng)著我的面吹牛窃祝,可吹牛的內(nèi)容都是我干的掐松。 我是一名探鬼主播,決...
    沈念sama閱讀 38,389評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼粪小,長吁一口氣:“原來是場噩夢啊……” “哼大磺!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起糕再,我...
    開封第一講書人閱讀 37,019評論 0 259
  • 序言:老撾萬榮一對情侶失蹤量没,失蹤者是張志新(化名)和其女友劉穎玉转,沒想到半個月后突想,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,519評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡究抓,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,971評論 2 325
  • 正文 我和宋清朗相戀三年猾担,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片刺下。...
    茶點(diǎn)故事閱讀 38,100評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡绑嘹,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出橘茉,到底是詐尸還是另有隱情工腋,我是刑警寧澤,帶...
    沈念sama閱讀 33,738評論 4 324
  • 正文 年R本政府宣布畅卓,位于F島的核電站擅腰,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏翁潘。R本人自食惡果不足惜趁冈,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,293評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧渗勘,春花似錦沐绒、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,289評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至取刃,卻和暖如春申眼,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背蝉衣。 一陣腳步聲響...
    開封第一講書人閱讀 31,517評論 1 262
  • 我被黑心中介騙來泰國打工括尸, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人病毡。 一個月前我還...
    沈念sama閱讀 45,547評論 2 354
  • 正文 我出身青樓濒翻,卻偏偏與公主長得像,于是被迫代替她去往敵國和親啦膜。 傳聞我的和親對象是個殘疾皇子有送,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,834評論 2 345

推薦閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 171,515評論 25 707
  • 發(fā)現(xiàn) 關(guān)注 消息 iOS 第三方庫、插件僧家、知名博客總結(jié) 作者大灰狼的小綿羊哥哥關(guān)注 2017.06.26 09:4...
    肇東周閱讀 12,029評論 4 62
  • 宋仲基宋慧喬要結(jié)婚啦八拱!一大早在朋友圈刷到這個消息阵赠,我困成一條縫的眼睛瞬間睜大。哎呦喂肌稻,傳了這么久清蚀,如今不是承認(rèn)戀愛...
    瑪麗蓮懵露閱讀 692評論 1 5
  • 六年級八班 趙雯宇 為什么我病了呢?本來我好好的暗贰枷邪!早晨一醒來,我就在想這件事诺凡,難不成昨晚吃的那塊巧克力有問題东揣? ...
    東營王建軍閱讀 581評論 2 2
  • 題目:給定一個無序的整數(shù)數(shù)組,怎么找到第一個大于0腹泌,并且不在此數(shù)組的整數(shù)嘶卧。比如[1,2,0]返回3,[3,4,-1...
    IT孤獨(dú)者閱讀 1,129評論 0 0