scrapy+selenium爬取UC頭條網(wǎng)站

Scrapy是Python優(yōu)秀的爬蟲框架掠兄,selenium是非常好用的自動(dòng)化WEB測(cè)試工具双抽,兩者結(jié)合可以非常容易對(duì)動(dòng)態(tài)網(wǎng)頁進(jìn)行爬蟲。
本文的需求是抓取UC頭條各個(gè)板塊的內(nèi)容嫁蛇。UC頭條(https://news.uc.cn/ )網(wǎng)站沒有提供搜索入口抑党,只能每個(gè)板塊的首頁向下滾動(dòng)鼠標(biāo)加載更多暑中。要對(duì)這樣的網(wǎng)站進(jìn)行檢索牵素,抓取其內(nèi)容,采用一般的scrapy請(qǐng)求方式询筏,每次只能獲取最新的10條數(shù)據(jù)痹筛,分析其JS請(qǐng)求砌们,發(fā)現(xiàn)參數(shù)過于復(fù)雜赢笨,沒有規(guī)律梅忌。如果想獲取更多數(shù)據(jù),則需要采用模擬瀏覽器的方法尸诽,這時(shí)候selenium就派上用場(chǎng)了。

image

1部宿,定義spider

模擬從百度搜索進(jìn)入悟耘,這個(gè)步驟可以省略,主要為了跳到parse函數(shù)

class UCTouTiaoSpider(VideoBaseSpider):
    name = "uctoutiao_spider"
    df_keys = ['人物', '百科', '烏鎮(zhèn)']
 
 
    def __init__(self, scrapy_task_id=None, *args, **kwargs):        
        self.url_src = "http://www.baidu.com"
 
    def start_requests(self):
 
        requests = []
        request = scrapy.Request("http://www.baidu.com", callback=self.parse)
        requests.append(request)       
        return requests

2厨埋,parse函數(shù)

def parse(self, response):
    self.log(response.url)
 
 
    urls = ["https://news.uc.cn/",
            "https://news.uc.cn/c_redian/",
            # "https://news.uc.cn/c_shipin/",
            # "https://news.uc.cn/c_gaoxiao/",
            "https://news.uc.cn/c_shehui/",
            "https://news.uc.cn/c_yule/",
            "https://news.uc.cn/c_keji/",
            "https://news.uc.cn/c_tiyu/",
            "https://news.uc.cn/c_qiche/",
            "https://news.uc.cn/c_caijing/",
            "https://news.uc.cn/c_junshi/",
            "https://news.uc.cn/c_tansuo/",
            "https://news.uc.cn/c_lishi/",
            "https://news.uc.cn/c_youxi/",
            "https://news.uc.cn/c_lvyou/",
            "https://news.uc.cn/news/",
            "https://news.uc.cn/c_shishang/",
            "https://news.uc.cn/c_jiankang/",
            "https://news.uc.cn/c_guoji/",
            "https://news.uc.cn/c_yuer/",
            "https://news.uc.cn/c_meishi/"]
      
    # 啟動(dòng)瀏覽器,這里用的火狐,如果在linux環(huán)境下可以用PhantomJS,穩(wěn)定性稍微差點(diǎn)忠售,有內(nèi)存泄露的風(fēng)險(xiǎn)。
    driver = webdriver.Firefox()
    for url in urls:
        try:
            print(url)
            driver.get(url)
            #模擬鼠標(biāo)滾到底部(加載100條數(shù)據(jù))
            for _ in range(10):
                driver.execute_script("window.scrollTo(0, document.body.scrollHeight)")
                driver.implicitly_wait(10)  # 隱性等待,最長(zhǎng)10秒
 
            # print driver.page_source
            soup = bs(driver.page_source, 'lxml')
            articles = soup.find_all(href=re.compile("/a_\w+?/"), text=re.compile(".+"))
            for article in articles:
                for key in self.df_keys:
                    item = VideoItem()  #自定義的Item
                    item['title'] = article.text
                    item['href'] = article['href']                    
                    self.log(item)
                    yield item
 
        except Exception as e:
            print e
            if driver == None:
                driver = webdriver.Firefox()
 
    if driver != None:
        driver.quit()

真正的實(shí)現(xiàn)部分比較簡(jiǎn)單卦方,幾句代碼就搞定了盼砍。

附:

selenium使用實(shí)例

1乐纸,切換焦點(diǎn)至新窗口

在頁面上點(diǎn)擊一個(gè)button, 然后打開了一個(gè)新的window, 將當(dāng)前IWebDriver的focus切換到新window,使用IWebDriver.SwitchTo().Window(string windowName)吗跋。

例如宁昭, 我點(diǎn)擊按鈕以后彈出一個(gè)名字叫做"Content Display"的window, 要切換焦點(diǎn)到新窗口的方法是疆拘, 首先,獲得新window的window name, 大家不要誤以為page tile就是window name 哦哎迄, 如果你使用driver.SwitchTo().Window("Content Display")是找不到window name 叫做"Content Display"的窗口的漱挚, 其實(shí)Window Name 是一長(zhǎng)串?dāng)?shù)字渺氧,類似“59790103-4e06-4433-97a9-b6e519a84fd0”。

要正確切換到"Content Display"的方法是:

  1. 獲得當(dāng)前所有的WindowHandles白华。

  2. 循環(huán)遍歷到所有的window, 查找window.title與"Content Display"相符的window返回慨默。

for handle in dr.window_handles:
    dr.switch_to.window(handle)
    print dr.title
    if len(dr.title) == '目標(biāo)窗口標(biāo)題':
        break

參考:Selenium - IWebDriver.SwitchTo() frame 和 Window 的用法

2 厦取,移至底部

driver.execute_script("window.scrollTo(0, document.body.scrollHeight)")

3蒜胖,移動(dòng)至指定元素

某些按鈕點(diǎn)擊時(shí)必須可見抛蚤,于是要把屏幕移動(dòng)到按鈕可見的區(qū)域

element = driver.find_element_by_xpath("http://a[@class='p-next']")
element.location_once_scrolled_into_view
 
#或者
driver.set_window_size(800,800)
element = driver.find_element_by_xpath("http://a[@class='p-next']")
js = "window.scrollTo({},{});".format(element.location['x'], element.location['y'] - 100)
driver.execute_script(js)

參考:
Python selenium —— 一定要會(huì)用selenium的等待,三種等待方式解讀

鏈接博客:http://kekefund.com/2017/12/06/scrapy-and-selenium/

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末朋沮,一起剝皮案震驚了整個(gè)濱河市樊拓,隨后出現(xiàn)的幾起案子塘慕,更是在濱河造成了極大的恐慌,老刑警劉巖条篷,帶你破解...
    沈念sama閱讀 211,194評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蛤织,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡乞巧,警方通過查閱死者的電腦和手機(jī)摊鸡,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,058評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門免猾,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事赢乓∈ぃ” “怎么了?”我有些...
    開封第一講書人閱讀 156,780評(píng)論 0 346
  • 文/不壞的土叔 我叫張陵松逊,是天一觀的道長(zhǎng)经宏。 經(jīng)常有香客問我,道長(zhǎng)烁兰,這世上最難降的妖魔是什么徊都? 我笑而不...
    開封第一講書人閱讀 56,388評(píng)論 1 283
  • 正文 為了忘掉前任主之,我火速辦了婚禮,結(jié)果婚禮上槽奕,老公的妹妹穿的比我還像新娘房轿。我一直安慰自己,他們只是感情好琼讽,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,430評(píng)論 5 384
  • 文/花漫 我一把揭開白布洪唐。 她就那樣靜靜地躺著,像睡著了一般问欠。 火紅的嫁衣襯著肌膚如雪粒蜈。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,764評(píng)論 1 290
  • 那天注整,我揣著相機(jī)與錄音,去河邊找鬼寿冕。 笑死捺癞,一個(gè)胖子當(dāng)著我的面吹牛堪侯,可吹牛的內(nèi)容都是我干的呀邢。 我是一名探鬼主播揪垄,決...
    沈念sama閱讀 38,907評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼优俘,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼京办!你這毒婦竟也來了臂港?” 一聲冷哼從身側(cè)響起视搏,我...
    開封第一講書人閱讀 37,679評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎佑力,沒想到半個(gè)月后筋遭,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,122評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡编饺,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,459評(píng)論 2 325
  • 正文 我和宋清朗相戀三年透且,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了豁鲤。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,605評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡锅论,死狀恐怖最易,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情耘纱,我是刑警寧澤,帶...
    沈念sama閱讀 34,270評(píng)論 4 329
  • 正文 年R本政府宣布,位于F島的核電站员寇,受9級(jí)特大地震影響第美,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜扳缕,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,867評(píng)論 3 312
  • 文/蒙蒙 一躯舔、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧省古,春花似錦粥庄、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,734評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至琳拭,卻和暖如春训堆,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背白嘁。 一陣腳步聲響...
    開封第一講書人閱讀 31,961評(píng)論 1 265
  • 我被黑心中介騙來泰國(guó)打工坑鱼, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人权薯。 一個(gè)月前我還...
    沈念sama閱讀 46,297評(píng)論 2 360
  • 正文 我出身青樓姑躲,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親盟蚣。 傳聞我的和親對(duì)象是個(gè)殘疾皇子黍析,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,472評(píng)論 2 348