爬蟲實戰(zhàn)技巧-前言

要圖才好看是嗎

大家好妖啥,我是Zoe陨晶,簡稱Rust Rabbit,這是爬蟲實戰(zhàn)技巧系列蚜点。

我會定期在這個系列中分享自己在平時爬蟲相關(guān)工作中的一些小的技巧和處理問題的方法。

這一期是這個系列的大綱拌阴,羅列下后面的分享可能會涉及的內(nèi)容绍绘,分享的實際內(nèi)容以具體文章為準(zhǔn),這里僅作大綱羅列所用迟赃。

如果大家對這方面的內(nèi)容感興趣陪拘,請讓我知道,你們的熱情是我分享的動力纤壁。

背景

我有位同事曾多次這么跟我:“最佩服的不是你的寫代碼能力左刽,而是獲取數(shù)據(jù)來源的能力,什么找接口酌媒、逆向欠痴、漏洞等等∶胱桑”(這是在嫌疑我的代碼么喇辽?)

沒錯,爬蟲系統(tǒng)框架發(fā)展到今天雨席,已經(jīng)走向配置化菩咨,自動化,還需要人肉寫代碼的情況已經(jīng)不多了陡厘。性能在數(shù)據(jù)抓取上已經(jīng)不是問題抽米,數(shù)據(jù)抓取的難點可能更多的是在數(shù)據(jù)源的尋找,抓取途徑的選擇上糙置,以及如何應(yīng)付對方的反爬機(jī)制云茸。

從某種意義上來說,數(shù)據(jù)抓取可能不單純的屬于開發(fā)類谤饭,同時會涉及安全方向的很多內(nèi)容查辩。更多的是偷別人的數(shù)據(jù),而不是搶网持。你看宜岛,如今社會,一片祥和功舀,強(qiáng)盜不多萍倡,但小偷仍是層出不窮。對爬蟲工程師來說辟汰,想對數(shù)據(jù)抓取得心應(yīng)手列敲,修煉一手爐火純青的偷竊技術(shù)是必不可少的阱佛。那么,這個系列我會分享一些自己在這方面的經(jīng)驗戴而。

注意

  1. 數(shù)據(jù)抓取一定要溫和凑术,不要沒有操守地一次性講對方拖跨
  2. 只能獲取公開數(shù)據(jù),堅決不要使用利用XSS等攻擊方式獲取敏感信息
  3. 發(fā)現(xiàn)對方有漏洞可以利用后所意,最好先上報給廠商
  4. 再說一邊淮逊,慢慢抓,不要猛搞扶踊,影響對方正常瀏覽

以上只是個人觀點泄鹏,若有不妥,歡迎指出秧耗。同時备籽,我分享的內(nèi)容里面,肯定不是100%正確分井,如果有描述得不恰當(dāng)或錯誤的地方车猬,歡迎大家提出指正。

涉及內(nèi)容

這里我先羅列一些之后會分享到的內(nèi)容尺锚,每一點都能算得上是一個小的技巧诈唬,我所分享的這些,可能各位對其都熟悉并在工作中有所應(yīng)用缩麸,但是對于一些新人來說铸磅,仍不乏會有一醍醐灌頂,茅塞頓開的效果杭朱。

1. 抓取源的選擇

這應(yīng)該算的上是最初級的技巧了阅仔,基本只要從事過一段時間數(shù)據(jù)抓取工作的人都知道。但據(jù)我所見弧械,仍有不少人八酒,也不乏有一段時間的爬蟲工作經(jīng)驗的人,他們對數(shù)據(jù)來源的認(rèn)識只是停留在桌面瀏覽器的web界面中刃唐,他們始終認(rèn)為所見即所得羞迷。

我們經(jīng)常會遇到一些不能夠直接在桌面瀏覽器中被看到,或者說這一類的數(shù)據(jù)更利于我們來抓取画饥。選擇一個合適的數(shù)據(jù)抓取來源衔瓮,會發(fā)現(xiàn)后續(xù)的抽取工作會大大降低,抓取的效率也有很大的提升抖甘。

2. 數(shù)據(jù)抓包的方式

抓包的目的热鞍,無非我們是想看下是發(fā)出什么樣子的請求猜能拿到我們想要的數(shù)據(jù)。大多情況下,我們所說的抓包指的是狹義上特指HTTP協(xié)議的數(shù)據(jù)包薇宠,但特殊情況下也會涉及TCP的數(shù)據(jù)偷办,但這時我們一般不是從中獲取數(shù)據(jù),更多的是在通過重放等方式來確定對方的漏洞澄港。
當(dāng)然也會有用來做協(xié)議分析的時候椒涯,但對于爬蟲來說,我們要盡量避免取分析協(xié)議回梧,我們不一定能夠承擔(dān)得起做協(xié)議分析的時間本废岂,需要采取一些特殊的方法來獲取數(shù)據(jù),在具體文章中我會用微信抓取來舉例說明漂辐。

3. 巧用搜索引擎

搜索引擎是很好工具,除了檢索資料棕硫,社工等這些常規(guī)用途髓涯,對爬蟲來說,通過搜索引擎來找一些突破點也是常有的事哈扮。
通過抓包的方式纬纪,我們可能只能找到一部分的數(shù)據(jù)接口,或者說這些接口的校驗策略比較繁瑣滑肉,不利于快速的進(jìn)行數(shù)據(jù)的抓取包各。
那我們不妨利用搜索引擎來尋找一些特殊的頁面,多數(shù)情況下靶庙,我們會有很多意外的收獲问畅。

4. 猜測后臺實現(xiàn),尋找漏洞

這里可能更多偏向于安全的范疇六荒,但是我們爬蟲工程師不妨利用這里面的一些方式來抓取我們想要的數(shù)據(jù)护姆。當(dāng)然從某種角度來說,這個做法并不可取掏击,當(dāng)發(fā)現(xiàn)廠家有漏洞時卵皂,理應(yīng)及時向其報告,幫助其完善后臺系統(tǒng)砚亭,避免造成更大損失灯变。我這里只是提供這個思路,具體問題的取舍捅膘,這個各位自行把握添祸。

5. 要會JS哇

不會JS的爬蟲工程師,怎么能抓得好數(shù)據(jù)呢寻仗?很多情況下膝捞,我們要去分析其JS代碼,來達(dá)到我們數(shù)據(jù)抓取的目的。一般是兩種情況:1. 分析數(shù)據(jù)流和處理邏輯蔬咬,比如實現(xiàn)Web微信鲤遥;2. 反爬策略的分析,當(dāng)你直接在瀏覽器訪問數(shù)據(jù)接口時林艘,發(fā)現(xiàn)取不到數(shù)據(jù)盖奈,這時候可能對方在JS里面有認(rèn)證策略。

6. 客戶端抓取怎么辦

抓取時狐援,當(dāng)Web端久攻不下钢坦,或者處理異常復(fù)雜時,我們應(yīng)該要換一個方向啥酱,從APP端入手爹凹。APP端抓取的幾個有點:1. 數(shù)據(jù)規(guī)范,大部分情況下回事JSON或XML镶殷;2. APP后臺反爬策略相對寬松禾酱。那么,當(dāng)確定要走APP抓取時绘趋,我們第一步應(yīng)該怎么處理颤陶,中間會遇到哪些問題呢?

7. 突破反爬策略

爬蟲與反爬是相通的陷遮,所謂知己知彼滓走,百戰(zhàn)不殆。反爬系統(tǒng)必然是知道爬蟲會使用怎樣的方式來盜取數(shù)據(jù)帽馋,而爬蟲工程師也理應(yīng)要知道反爬系統(tǒng)是怎么執(zhí)行他的反爬策略搅方。一般的情況,中了反爬可能只是沒有數(shù)據(jù)绽族,但是有一些公司會直接將爬蟲引入蜜罐腰懂,返回偽造的假數(shù)據(jù),我們的爬蟲并不能區(qū)分這些假數(shù)據(jù)项秉,直接增加了爬蟲的成本绣溜。那么,在對抗對方反爬策略時娄蔼,我們應(yīng)該要有怎樣的一個思路呢怖喻。

后面的話

寫分享還是挺耗時間的,特別是對于我這種岁诉,表述能力欠缺的人來說锚沸,更是一個需要花時間的事情。

平時上班時間都挺久的涕癣,只能抽周日(沒打錯哗蜈,就是周日;解決溫飽而已)的時間來做這件事情。

如果大家喜歡距潘,覺得對自己有幫助炼列,我會堅持下去,每月更新一篇音比。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末俭尖,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子洞翩,更是在濱河造成了極大的恐慌稽犁,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,214評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件骚亿,死亡現(xiàn)場離奇詭異已亥,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)来屠,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,307評論 2 382
  • 文/潘曉璐 我一進(jìn)店門虑椎,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人的妖,你說我怎么就攤上這事绣檬∽阍桑” “怎么了嫂粟?”我有些...
    開封第一講書人閱讀 152,543評論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長墨缘。 經(jīng)常有香客問我星虹,道長,這世上最難降的妖魔是什么镊讼? 我笑而不...
    開封第一講書人閱讀 55,221評論 1 279
  • 正文 為了忘掉前任宽涌,我火速辦了婚禮,結(jié)果婚禮上蝶棋,老公的妹妹穿的比我還像新娘卸亮。我一直安慰自己,他們只是感情好玩裙,可當(dāng)我...
    茶點故事閱讀 64,224評論 5 371
  • 文/花漫 我一把揭開白布兼贸。 她就那樣靜靜地躺著,像睡著了一般吃溅。 火紅的嫁衣襯著肌膚如雪溶诞。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,007評論 1 284
  • 那天决侈,我揣著相機(jī)與錄音螺垢,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛枉圃,可吹牛的內(nèi)容都是我干的功茴。 我是一名探鬼主播,決...
    沈念sama閱讀 38,313評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼讯蒲,長吁一口氣:“原來是場噩夢啊……” “哼痊土!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起墨林,我...
    開封第一講書人閱讀 36,956評論 0 259
  • 序言:老撾萬榮一對情侶失蹤赁酝,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后旭等,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體酌呆,經(jīng)...
    沈念sama閱讀 43,441評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,925評論 2 323
  • 正文 我和宋清朗相戀三年搔耕,在試婚紗的時候發(fā)現(xiàn)自己被綠了隙袁。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,018評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡弃榨,死狀恐怖嘱吗,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情盛嘿,我是刑警寧澤关划,帶...
    沈念sama閱讀 33,685評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站官辈,受9級特大地震影響箱舞,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜拳亿,卻給世界環(huán)境...
    茶點故事閱讀 39,234評論 3 307
  • 文/蒙蒙 一晴股、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧肺魁,春花似錦电湘、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,240評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至瞬雹,卻和暖如春昧谊,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背酗捌。 一陣腳步聲響...
    開封第一講書人閱讀 31,464評論 1 261
  • 我被黑心中介騙來泰國打工呢诬, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留涌哲,地道東北人。 一個月前我還...
    沈念sama閱讀 45,467評論 2 352
  • 正文 我出身青樓尚镰,卻偏偏與公主長得像阀圾,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子狗唉,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,762評論 2 345

推薦閱讀更多精彩內(nèi)容