寫采集器(爬蟲)遇到的那些坑

背景

雖然寫過很多爬蟲豺妓,近期卻瞞著寫一個(gè)采集器惜互。一整套爬蟲的集合布讹,踩坑不少,特別寫一文記錄下來训堆。

語言的選擇

Python描验!

應(yīng)為語言足夠靈活,而且又足夠多的庫選擇坑鱼。項(xiàng)目之初我還考慮過使用erlang膘流。erlang的多進(jìn)程特性雖然很好,但是erlang在編碼處理姑躲,文本解析方面的能力太弱睡扬,寫代碼寫的十分痛苦。故棄之黍析。據(jù)說golang可能會(huì)更好,但是我還沒對(duì)這語言深入研究屎开,用到公司的項(xiàng)目上來阐枣,實(shí)在有些欠妥。

Request包

很多人用python寫爬蟲奄抽,可能會(huì)使用Scrapy這樣的框架蔼两,但是我覺得因?yàn)樽ト∵@種事情,很多時(shí)候逞度,往往是兩個(gè)程序員之間的對(duì)決额划。所以,我傾向于更靈活的使用一個(gè)Request包档泽,然后自己各方面分析來構(gòu)建請(qǐng)求包俊戳,達(dá)到抓取數(shù)據(jù)的目的。

selenium

不是所有的頁面都能通過構(gòu)造請(qǐng)求包來獲取的馆匿,尤其是很多需要驗(yàn)證的頁面抑胎。還有很多頁面的數(shù)據(jù),需要通過一大串js運(yùn)算才會(huì)顯示出來渐北,這樣無疑增加了抓取的難度阿逃,但是兵來將擋,水來土掩赃蛛。

這個(gè)時(shí)候借助測(cè)試人員常用的自動(dòng)化測(cè)試工具selenium恃锉,模擬人的訪問,獲取到你想要的數(shù)據(jù)呕臂。當(dāng)然selenium也是對(duì)python兼容的破托。

當(dāng)然,模擬自動(dòng)化測(cè)試的方式诵闭,難度大炼团,性能差澎嚣,不到萬不得已不出招。

項(xiàng)目結(jié)構(gòu)

項(xiàng)目結(jié)構(gòu)圖
  • collector:
    程序的主體

    • repo: 公共模塊瘟芝,將抓取和分析的代碼抽取出來易桃,還要又對(duì)時(shí)間的運(yùn)算類,和日志類锌俱,以及操作數(shù)據(jù)庫和消息隊(duì)列的類晤郑。

    • task: 任務(wù)模塊,任務(wù)要做的事即使確定什么時(shí)候執(zhí)行抓取贸宏,抓取的結(jié)果放到那里造寝。

    • worker:工作者模塊,抓取數(shù)據(jù)和分析數(shù)據(jù)的模塊吭练。

  • tests:同等的目下诫龙, 是測(cè)試用例

  • runtime: 目錄下是日志和錯(cuò)誤數(shù)據(jù)的記錄。

  • run*.py: 這些每個(gè)抓取的入口鲫咽。因?yàn)槭嵌噙M(jìn)程的方式签赃,故而分成多個(gè)入口。不同入口分尸,對(duì)應(yīng)不同的抓取內(nèi)容锦聊。

多進(jìn)程

為什么使用多進(jìn)程的形式呢?因?yàn)榫€程不好控制箩绍,我的每個(gè)抓取進(jìn)程之下孔庭,不同的任務(wù)用到不同的線程。但是不同抓取內(nèi)容材蛛,沒有耦合的東西圆到,所以采取這樣進(jìn)程的方式,好管理仰税,想啟動(dòng)就啟動(dòng)构资,想關(guān)掉,kill掉進(jìn)程就是了陨簇。

使用nohup命令在后臺(tái)執(zhí)行程序:

nohup python run_xxx.py > runtime/xxxx.out &

異常的處理

采集器程序吐绵,是要把外部資源轉(zhuǎn)化為內(nèi)部資源。凡是依賴外部的情況河绽,都要考慮異常的風(fēng)險(xiǎn)己单。比如我抓取的很多東西在境外,因?yàn)槟承?strong>不可描述的原因耙饰,網(wǎng)絡(luò)服務(wù)一直很不穩(wěn)定纹笼。所以超時(shí)處理的是必須的,超時(shí)拋出異常苟跪,而這個(gè)異常是我們認(rèn)為沒什么大不了的事情廷痘,所以沒有必要因?yàn)檫@個(gè)異常破壞程序的執(zhí)行蔓涧,所以我們只要抓取到異常,就直接重新發(fā)起請(qǐng)求再來一次就是了笋额。

當(dāng)然元暴,這樣的處理過于簡單除暴了,最好還是讓程序讓程序稍后發(fā)起請(qǐng)求兄猩,因?yàn)榘l(fā)生異常之后茉盏,我的程序會(huì)觸發(fā)一個(gè)事件,這個(gè)事件回去檢查最近數(shù)據(jù)的一致性枢冤。做到盡量讓程序來監(jiān)督程序鸠姨。

總結(jié)

簡單總結(jié)一下,還有什么坑淹真,我想到再補(bǔ)讶迁。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市趟咆,隨后出現(xiàn)的幾起案子添瓷,更是在濱河造成了極大的恐慌,老刑警劉巖值纱,帶你破解...
    沈念sama閱讀 210,914評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異坯汤,居然都是意外死亡虐唠,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,935評(píng)論 2 383
  • 文/潘曉璐 我一進(jìn)店門惰聂,熙熙樓的掌柜王于貴愁眉苦臉地迎上來疆偿,“玉大人,你說我怎么就攤上這事搓幌「斯剩” “怎么了?”我有些...
    開封第一講書人閱讀 156,531評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵溉愁,是天一觀的道長处铛。 經(jīng)常有香客問我,道長拐揭,這世上最難降的妖魔是什么撤蟆? 我笑而不...
    開封第一講書人閱讀 56,309評(píng)論 1 282
  • 正文 為了忘掉前任,我火速辦了婚禮堂污,結(jié)果婚禮上家肯,老公的妹妹穿的比我還像新娘。我一直安慰自己盟猖,他們只是感情好讨衣,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,381評(píng)論 5 384
  • 文/花漫 我一把揭開白布换棚。 她就那樣靜靜地躺著,像睡著了一般反镇。 火紅的嫁衣襯著肌膚如雪固蚤。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,730評(píng)論 1 289
  • 那天愿险,我揣著相機(jī)與錄音颇蜡,去河邊找鬼。 笑死辆亏,一個(gè)胖子當(dāng)著我的面吹牛风秤,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播扮叨,決...
    沈念sama閱讀 38,882評(píng)論 3 404
  • 文/蒼蘭香墨 我猛地睜開眼缤弦,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了彻磁?” 一聲冷哼從身側(cè)響起碍沐,我...
    開封第一講書人閱讀 37,643評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎衷蜓,沒想到半個(gè)月后累提,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,095評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡磁浇,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,448評(píng)論 2 325
  • 正文 我和宋清朗相戀三年斋陪,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片置吓。...
    茶點(diǎn)故事閱讀 38,566評(píng)論 1 339
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡无虚,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出衍锚,到底是詐尸還是另有隱情友题,我是刑警寧澤,帶...
    沈念sama閱讀 34,253評(píng)論 4 328
  • 正文 年R本政府宣布戴质,位于F島的核電站度宦,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏置森。R本人自食惡果不足惜斗埂,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,829評(píng)論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望凫海。 院中可真熱鬧呛凶,春花似錦、人聲如沸行贪。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,715評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至崭捍,卻和暖如春尸折,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背殷蛇。 一陣腳步聲響...
    開封第一講書人閱讀 31,945評(píng)論 1 264
  • 我被黑心中介騙來泰國打工实夹, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人粒梦。 一個(gè)月前我還...
    沈念sama閱讀 46,248評(píng)論 2 360
  • 正文 我出身青樓亮航,卻偏偏與公主長得像,于是被迫代替她去往敵國和親匀们。 傳聞我的和親對(duì)象是個(gè)殘疾皇子缴淋,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,440評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢(shì)1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 171,726評(píng)論 25 707
  • 你爬了嗎? 要玩大數(shù)據(jù)泄朴,沒有數(shù)據(jù)怎么玩重抖?這里推薦一些33款開源爬蟲軟件給大家。 爬蟲祖灰,即網(wǎng)絡(luò)爬蟲钟沛,是一種自動(dòng)獲取網(wǎng)...
    Albert新榮閱讀 2,221評(píng)論 0 8
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn)局扶,斷路器讹剔,智...
    卡卡羅2017閱讀 134,626評(píng)論 18 139
  • 33款可用來抓數(shù)據(jù)的開源爬蟲軟件工具 要玩大數(shù)據(jù),沒有數(shù)據(jù)怎么玩详民?這里推薦一些33款開源爬蟲軟件給大家。 爬蟲陌兑,即...
    visiontry閱讀 7,295評(píng)論 1 99
  • 今天感恩于我的手機(jī)鬧鐘把我從睡夢(mèng)中喚醒心情愉悅梳妝打扮精神出門上班沈跨。 感恩楊琳和大家分享的...
    念秀閱讀 136評(píng)論 0 1