Scrapy爬蟲教程四 Scrapy+Selenium有瀏覽器界面模擬登錄知乎

Scrapy爬蟲教程一 Windows下安裝Scrapy的方式和問題總結

Scrapy爬蟲教程二 淺析最煩人的反爬蟲手段

Scrapy爬蟲教程三 詳細的Python Scrapy模擬登錄知乎

Scrapy爬蟲教程四 Scrapy+Selenium有瀏覽器界面模擬登錄知乎

Scrapy爬蟲教程五 爬蟲部署

之前單獨使用Scrapy來模擬登錄了知乎,今天在這里結合Selenium來模擬JavaScript(也就是模擬人點擊和輸入)來模擬登陸知乎俯树,這篇文章中只使用了Selenium進行有界面的模擬操作驶鹉。先來介紹幾個概念:

Phantomjs

????作為一個基于webkit內(nèi)核的沒有UI界面的瀏覽器饥漫,看到這里還有一些神秘感,大家就把這個當做一個瀏覽器就好了。而其中的一些點擊槽畔、翻頁等操作則由代碼實現(xiàn)。Phantomjs提供javascript API接口胁编,即我們可以通過js與webkit內(nèi)核交互厢钧。

? ? 關于Phantomjs的詳細介紹大家可以關注這篇文章:blog.csdn.net/tengdazhang770960436/article/details/41320079

Selenium

????作為一個用于Web應用程序測試的工具,其測試直接運行在瀏覽器中嬉橙,框架底層使用JavaScript模擬真實用戶對瀏覽器的操作早直,從終端用戶的角度測試應用程序。將Selenium與Phantomjs聯(lián)系起來市框,便是我們可以通過使用Selenium操作Phantomjs訪問網(wǎng)頁以獲得js生成后的網(wǎng)頁霞扬。

有好多文章介紹了在Scrapy工程中,建立中間件枫振,在中間件中使用Selenium來請求數(shù)據(jù)喻圃,并對返回的結果進行包裝再返回到爬蟲文件對應的方法中(也就是爬蟲文件的方法中的response其實是在中間件中Selenium獲得數(shù)據(jù)driver.page_source),針對這種形式在這里先不說明了粪滤。

簡單的概念已經(jīng)介紹完了斧拍,下面開始上代碼,老規(guī)矩杖小,依然是上圖片:



親測有效肆汹,這回可以肆無忌憚的借用數(shù)據(jù)啦,這里提醒一下知乎的反爬蟲啊予权,User-Agent和IP代理池的使用昂勉,之后我也會有介紹的。

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末扫腺,一起剝皮案震驚了整個濱河市岗照,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖谴返,帶你破解...
    沈念sama閱讀 206,378評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件煞肾,死亡現(xiàn)場離奇詭異,居然都是意外死亡嗓袱,警方通過查閱死者的電腦和手機籍救,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,356評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來渠抹,“玉大人蝙昙,你說我怎么就攤上這事∥嗳矗” “怎么了奇颠?”我有些...
    開封第一講書人閱讀 152,702評論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長放航。 經(jīng)常有香客問我烈拒,道長,這世上最難降的妖魔是什么广鳍? 我笑而不...
    開封第一講書人閱讀 55,259評論 1 279
  • 正文 為了忘掉前任荆几,我火速辦了婚禮,結果婚禮上赊时,老公的妹妹穿的比我還像新娘吨铸。我一直安慰自己,他們只是感情好祖秒,可當我...
    茶點故事閱讀 64,263評論 5 371
  • 文/花漫 我一把揭開白布诞吱。 她就那樣靜靜地躺著,像睡著了一般竭缝。 火紅的嫁衣襯著肌膚如雪房维。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,036評論 1 285
  • 那天抬纸,我揣著相機與錄音咙俩,去河邊找鬼。 笑死松却,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的溅话。 我是一名探鬼主播晓锻,決...
    沈念sama閱讀 38,349評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼飞几!你這毒婦竟也來了砚哆?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,979評論 0 259
  • 序言:老撾萬榮一對情侶失蹤屑墨,失蹤者是張志新(化名)和其女友劉穎躁锁,沒想到半個月后纷铣,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,469評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡战转,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,938評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片移必。...
    茶點故事閱讀 38,059評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡掖蛤,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出刁标,到底是詐尸還是另有隱情颠通,我是刑警寧澤,帶...
    沈念sama閱讀 33,703評論 4 323
  • 正文 年R本政府宣布膀懈,位于F島的核電站顿锰,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏启搂。R本人自食惡果不足惜硼控,卻給世界環(huán)境...
    茶點故事閱讀 39,257評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望狐血。 院中可真熱鬧淀歇,春花似錦、人聲如沸匈织。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,262評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽缀匕。三九已至纳决,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間乡小,已是汗流浹背阔加。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留满钟,地道東北人胜榔。 一個月前我還...
    沈念sama閱讀 45,501評論 2 354
  • 正文 我出身青樓,卻偏偏與公主長得像湃番,于是被迫代替她去往敵國和親夭织。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,792評論 2 345