爬蟲面試基礎(chǔ)整理

  1. 常用網(wǎng)絡(luò)數(shù)據(jù)爬取方法
    urllib
    正則表達(dá)式
    Beautiful Soup
    Selenium
    Scrapy
    Lxml
  2. 常見的反爬手段與應(yīng)對方法
  • 反爬手段:headers字段(User-Agent字段蛇摸、過referer字段板辽、cookie)
    解決方法:在爬蟲中添加Headers祷杈,瀏覽器的User-Agent復(fù)制到爬蟲的Headers中,將Referer值修改為目標(biāo)網(wǎng)站域名策吠。
  • 反爬手段:js(跳轉(zhuǎn)、生成了請求參數(shù)、數(shù)據(jù)的加密)
    解決方法:selenium+phantomJS框架识椰,調(diào)用瀏覽器內(nèi)核,并利用phantomJS執(zhí)行js來模擬人為操作以及觸發(fā)頁面中的js腳本深碱。
  • 反爬手段:IP地址
    解決方法:IP代理腹鹉,隨機(jī)間隔幾秒。
  • 反爬手段:驗證碼
    解決方法:cookie登錄敷硅、打碼平臺功咒、selenium 模擬
  • 反爬手段:css(利用css掩蓋真實數(shù)據(jù))
    解決方法:找到被替換文本和順序、重排文本绞蹦、對原文中span標(biāo)簽根據(jù)class序號進(jìn)行替換力奋。
  1. 數(shù)據(jù)去重,清洗幽七,存入數(shù)據(jù)庫
  • set()
  • 數(shù)據(jù)庫唯一約束
  • Scrapy內(nèi)置的url去重方法
  • 正則表達(dá)式
  • 編寫代碼清洗數(shù)據(jù)
  • 數(shù)據(jù)庫存儲后清洗
  1. Scrapy的基本結(jié)構(gòu)
    引擎(Scrapy)
    調(diào)度器(Scheduler)
    下載器(Downloader)
    爬蟲(Spiders)
    項目管道(Pipeline)
    下載器中間件(Downloader Middlewares)
    爬蟲中間件(Spider Middlewares)
    調(diào)度中間件(Scheduler Middewares)
  2. Scrapy運行流程
    1.引擎從調(diào)度器中取出一個URL用于抓取
    2.引擎把URL封裝成一個Request給下載器
    3.下載器把資源下載并封裝成Response
    4.爬蟲解析Response
    5.解析出Item交給管道進(jìn)一步處理
    6.解析出URL把URL交給調(diào)度器等待抓取
  3. Scrapy幾種中間件
  • 下載器中間件(Downloader Middlewares):請求到網(wǎng)頁后景殷,頁面被下載時進(jìn)行處理
  • 爬蟲中間件(Spider Middlewares):在爬蟲運行中進(jìn)行一些處理
  • 調(diào)度中間件(Scheduler Middewares)
  1. 代理怎么使用
    可以放在一個列表中,隨機(jī)選擇一個代理去訪問網(wǎng)站。
  2. 同步和異步
  • 線程方面:
    同步:多個線程同時訪問同一資源猿挚,等待訪問結(jié)束咐旧,浪費時間、效率低下绩蜻。
    異步:在訪問資源的時休偶,在空閑等待時可以同時訪問其他的資源。
  • 網(wǎng)絡(luò)方面:
    同步:提交請求→等待服務(wù)器處理→處理完畢返回 期間客戶端瀏覽器不能做任何事情辜羊。
    異步:事件觸發(fā)請求→服務(wù)器處理→處理完畢 期間瀏覽器可以做其他事情踏兜。
  1. 鏈表和順序存儲
  • 順序存儲:
    原理:數(shù)據(jù)存儲在一塊連續(xù)的內(nèi)存空間。
    優(yōu)點:存儲效率高八秃、速度快碱妆、通過下標(biāo)直接存儲。
    缺點:插入刪除慢昔驱、不可以增長長度疹尾。
  • 鏈表存儲
    原理:動態(tài)分配空間,存儲器有空間就不會發(fā)生存儲溢出骤肛。
    優(yōu)點:插入刪除速度快纳本、保留物理順序,更改只需改變指針指向腋颠。
    缺點:查找需要循環(huán)鏈表繁成,速度慢。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末淑玫,一起剝皮案震驚了整個濱河市巾腕,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌絮蒿,老刑警劉巖尊搬,帶你破解...
    沈念sama閱讀 210,978評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異土涝,居然都是意外死亡佛寿,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,954評論 2 384
  • 文/潘曉璐 我一進(jìn)店門但壮,熙熙樓的掌柜王于貴愁眉苦臉地迎上來冀泻,“玉大人,你說我怎么就攤上這事茵肃∏怀ぃ” “怎么了?”我有些...
    開封第一講書人閱讀 156,623評論 0 345
  • 文/不壞的土叔 我叫張陵验残,是天一觀的道長捞附。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么鸟召? 我笑而不...
    開封第一講書人閱讀 56,324評論 1 282
  • 正文 為了忘掉前任胆绊,我火速辦了婚禮,結(jié)果婚禮上欧募,老公的妹妹穿的比我還像新娘压状。我一直安慰自己,他們只是感情好跟继,可當(dāng)我...
    茶點故事閱讀 65,390評論 5 384
  • 文/花漫 我一把揭開白布种冬。 她就那樣靜靜地躺著,像睡著了一般舔糖。 火紅的嫁衣襯著肌膚如雪娱两。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,741評論 1 289
  • 那天金吗,我揣著相機(jī)與錄音十兢,去河邊找鬼。 笑死摇庙,一個胖子當(dāng)著我的面吹牛旱物,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播卫袒,決...
    沈念sama閱讀 38,892評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼宵呛,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了玛臂?” 一聲冷哼從身側(cè)響起烤蜕,我...
    開封第一講書人閱讀 37,655評論 0 266
  • 序言:老撾萬榮一對情侶失蹤封孙,失蹤者是張志新(化名)和其女友劉穎迹冤,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體虎忌,經(jīng)...
    沈念sama閱讀 44,104評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡泡徙,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,451評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了膜蠢。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片堪藐。...
    茶點故事閱讀 38,569評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖挑围,靈堂內(nèi)的尸體忽然破棺而出礁竞,到底是詐尸還是另有隱情,我是刑警寧澤杉辙,帶...
    沈念sama閱讀 34,254評論 4 328
  • 正文 年R本政府宣布模捂,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏狂男。R本人自食惡果不足惜综看,卻給世界環(huán)境...
    茶點故事閱讀 39,834評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望岖食。 院中可真熱鬧红碑,春花似錦、人聲如沸泡垃。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,725評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽蔑穴。三九已至唾琼,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間澎剥,已是汗流浹背锡溯。 一陣腳步聲響...
    開封第一講書人閱讀 31,950評論 1 264
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留哑姚,地道東北人祭饭。 一個月前我還...
    沈念sama閱讀 46,260評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像叙量,于是被迫代替她去往敵國和親倡蝙。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,446評論 2 348