爬蟲簡析

爬蟲簡介

????????“爬蟲”不是一只生活在泥土里的小蟲子,網(wǎng)絡(luò)爬蟲(web crawler)钞澳,也叫網(wǎng)絡(luò)蜘蛛(spider),是一種用來自動瀏覽網(wǎng)絡(luò)上內(nèi)容的機器人。 爬蟲訪問網(wǎng)站的過程會消耗目標系統(tǒng)資源狠轻,很多網(wǎng)站不允許被爬蟲抓取(這就是你遇到過的 robots.txt 文件彬犯, 這個文件可以要求機器人只對網(wǎng)站的一部分進行索引向楼,或完全不作處理)查吊。 因此在訪問大量頁面時,爬蟲需要考慮到規(guī)劃湖蜕、負載逻卖,還需要講“禮貌”(大兄弟,慢點)昭抒。

爬蟲邏輯

?????? 爬蟲邏輯大概是评也,輸入一個要爬取的URL地址,發(fā)送網(wǎng)絡(luò)請求獲取頁面信息灭返,處理自己需要的數(shù)據(jù)盗迟,模塊大致可設(shè)計為:URL管理,網(wǎng)頁下載器熙含,爬蟲調(diào)度器罚缕,網(wǎng)頁解析器,數(shù)據(jù)處理器怎静。

URL管理器

????????爬蟲框架要處理很多的URL邮弹,我們需要設(shè)計一個隊列存儲所有要處理的URL,這種先進先出的數(shù)據(jù)結(jié)構(gòu)非常符合這個需求消约。 將所有要下載的URL存儲在待處理隊列中肠鲫,每次下載會取出一個,隊列中就會少一個或粮。我們知道有些URL的下載會有反爬蟲策略导饲, 所以針對這些請求需要做一些特殊的設(shè)置,進而可以對URL進行封裝抽出 Request氯材。

網(wǎng)頁下載器

? ? ?????如果沒有網(wǎng)頁下載器渣锦,用戶就要編寫網(wǎng)絡(luò)請求的處理代碼,這無疑對每個URL都是相同的動作氢哮。 所以在框架設(shè)計中我們選取合適的下載器直接加入它就好了袋毙。

爬蟲調(diào)度器

????????調(diào)度器和我們在開發(fā) web 應(yīng)用中的控制器是一個類似的概念,它用于在下載器冗尤、解析器之間做流轉(zhuǎn)處理听盖。 解析器可以解析到更多的URL發(fā)送給調(diào)度器,調(diào)度器再次的傳輸給下載器裂七,這樣就會讓各個組件有條不紊的進行工作皆看。

數(shù)據(jù)處理器

??? ????普通的爬蟲程序中是把 網(wǎng)頁解析器 和 數(shù)據(jù)處理器 合在一起的,解析到數(shù)據(jù)后馬上處理背零。 在一個標準化的爬蟲程序中腰吟,他們應(yīng)該是各司其職的,我們先通過解析器將需要的數(shù)據(jù)解析出來徙瓶,可能是封裝成對象毛雇。 然后傳遞給數(shù)據(jù)處理器嫉称,處理器接收到數(shù)據(jù)后可能是存儲到數(shù)據(jù)庫,也可能通過接口發(fā)送給老王灵疮。

參考地址:https://blog.csdn.net/huangshulang1234/article/details/79081628

用戶權(quán)限

?????? UserAgent中文名為用戶代理织阅,是Http協(xié)議中的一部分,屬于頭域的組成部分始藕,UserAgent也簡稱UA蒲稳。它是一個特殊字符串頭,是一種向訪問網(wǎng)站提供你所使用的瀏覽器類型及版本伍派、操作系統(tǒng)及版本江耀、瀏覽器內(nèi)核、等信息的標識诉植。通過這個標識祥国,用戶所訪問的網(wǎng)站可以顯示不同的排版從而為用戶提供更好的體驗或者進行信息統(tǒng)計;例如用手機訪問谷歌和電腦訪問是不一樣的晾腔,這些是谷歌根據(jù)訪問者的UA來判斷的舌稀。UA可以進行偽裝。?

瀏覽器的UA字串的標準格式:瀏覽器標識(操作系統(tǒng)標識;加密等級標識;瀏覽器語言)渲染引擎標識版本信息灼擂。但各個瀏覽器有所不同壁查。

我們在做爬蟲的時候,不是通過瀏覽器正常訪問剔应,所以會被很多網(wǎng)站禁止訪問睡腿,這個時候我們就需要手動在headers里加上UA屬性,來偽裝成瀏覽器進行訪問峻贮。

參考地址:https://www.cnblogs.com/fu-yong/p/9017471.html


防爬規(guī)避

? ? 1席怪,User Agent pool

?????? 用戶信息池,可以偽裝不同的用戶在瀏覽網(wǎng)頁纤控。

? ? 2挂捻,IP pools

?????? Ip池,可以偽裝成不同的ip在不同的地方瀏覽網(wǎng)頁船万。

參考地址:https://blog.csdn.net/wtftx/article/details/89642527

golang 爬蟲框架推薦

????????gocolly是用go實現(xiàn)的網(wǎng)絡(luò)爬蟲框架刻撒,gocolly快速優(yōu)雅,在單核上每秒可以發(fā)起1K以上請求耿导;以回調(diào)函數(shù)的形式提供了一組接口声怔,可以實現(xiàn)任意類型的爬蟲;依賴goquery庫可以像jquery一樣選擇web元素碎节。

??? 參考地址:https://studygolang.com/articles/12073

? ? github地址:https://github.com/gocolly/colly

? ? ?gocolly官網(wǎng):http://go-colly.org

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末捧搞,一起剝皮案震驚了整個濱河市抵卫,隨后出現(xiàn)的幾起案子狮荔,更是在濱河造成了極大的恐慌胎撇,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,188評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件殖氏,死亡現(xiàn)場離奇詭異晚树,居然都是意外死亡,警方通過查閱死者的電腦和手機雅采,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,464評論 3 395
  • 文/潘曉璐 我一進店門爵憎,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人婚瓜,你說我怎么就攤上這事宝鼓。” “怎么了巴刻?”我有些...
    開封第一講書人閱讀 165,562評論 0 356
  • 文/不壞的土叔 我叫張陵愚铡,是天一觀的道長。 經(jīng)常有香客問我胡陪,道長沥寥,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,893評論 1 295
  • 正文 為了忘掉前任柠座,我火速辦了婚禮邑雅,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘妈经。我一直安慰自己淮野,他們只是感情好,可當我...
    茶點故事閱讀 67,917評論 6 392
  • 文/花漫 我一把揭開白布狂塘。 她就那樣靜靜地躺著录煤,像睡著了一般。 火紅的嫁衣襯著肌膚如雪荞胡。 梳的紋絲不亂的頭發(fā)上妈踊,一...
    開封第一講書人閱讀 51,708評論 1 305
  • 那天泪漂,我揣著相機與錄音廊营,去河邊找鬼。 笑死萝勤,一個胖子當著我的面吹牛露筒,可吹牛的內(nèi)容都是我干的慎式。 我是一名探鬼主播瘪吏,決...
    沈念sama閱讀 40,430評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼蕾盯,長吁一口氣:“原來是場噩夢啊……” “哼级遭!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起渺尘,我...
    開封第一講書人閱讀 39,342評論 0 276
  • 序言:老撾萬榮一對情侶失蹤挫鸽,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后鸥跟,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體掠兄,經(jīng)...
    沈念sama閱讀 45,801評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,976評論 3 337
  • 正文 我和宋清朗相戀三年锌雀,在試婚紗的時候發(fā)現(xiàn)自己被綠了蚂夕。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,115評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡腋逆,死狀恐怖婿牍,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情惩歉,我是刑警寧澤等脂,帶...
    沈念sama閱讀 35,804評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站撑蚌,受9級特大地震影響上遥,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜争涌,卻給世界環(huán)境...
    茶點故事閱讀 41,458評論 3 331
  • 文/蒙蒙 一粉楚、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧亮垫,春花似錦模软、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,008評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至继蜡,卻和暖如春回俐,著一層夾襖步出監(jiān)牢的瞬間逛腿,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,135評論 1 272
  • 我被黑心中介騙來泰國打工仅颇, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留鳄逾,地道東北人。 一個月前我還...
    沈念sama閱讀 48,365評論 3 373
  • 正文 我出身青樓灵莲,卻偏偏與公主長得像,于是被迫代替她去往敵國和親殴俱。 傳聞我的和親對象是個殘疾皇子政冻,可洞房花燭夜當晚...
    茶點故事閱讀 45,055評論 2 355

推薦閱讀更多精彩內(nèi)容

  • HTTP基本原理 URI、URL线欲、URN(Uninform Resource) URI(Identifier):統(tǒng)...
    GHope閱讀 2,083評論 2 26
  • 目錄 學(xué)渣講爬蟲之Python爬蟲從入門到出門第一講 目錄 爬蟲的常用形式 爬蟲的基本原理 前期準備 簡單爬蟲 爬...
    Python編程社區(qū)閱讀 1,179評論 0 6
  • 今天明场,梳理一下我與金錢的關(guān)系。在我來說李丰,錢就是安全感苦锨,身上錢少了就極度不安。小時候家境貧寒趴泌,家里姐妹比較多舟舒,只要爸...
    我愛人人事事閱讀 254評論 1 1
  • 漫漫的夜…… 漫漫的路…… 漫漫的人生…… 慢慢旋轉(zhuǎn)的時針…… 蔓蔓思緒的繚繞…… 曼曼旅途的徘徊……
    曉風(fēng)殘月以夢為馬閱讀 171評論 0 0