R爬蟲(chóng)項(xiàng)目結(jié)構(gòu)解析

最近完成了一項(xiàng)簡(jiǎn)單的靜態(tài)爬蟲(chóng)任務(wù),麻雀雖小五臟俱全,借此梳理下R項(xiàng)目基本架構(gòu)
注泳挥,有疑問(wèn) 加QQ群..[174225475].. 共同探討進(jìn)步
有償求助請(qǐng) 出門(mén)左轉(zhuǎn) door , 合作愉快

基本架構(gòu)

  1. R 腳本
    R程序可以是單一的完整運(yùn)行代碼文件,也可以是多個(gè)相互間協(xié)調(diào)或調(diào)用的函數(shù)/程序代碼集,本文介紹的主要是第二種
  2. Powershell 調(diào)用

通過(guò) windows 的 powershell 終端調(diào)用 R程序, 實(shí)現(xiàn) R程序 的后臺(tái)運(yùn)行

xx/xx/Rscript.exe xx/xx/run.R
run

也可以編輯 .bat文件,然后保存雙擊 .bat文件就可以了

xx/xx/Rscript.exe xx/xx/run.R
bat1
  1. Linux終端調(diào)用與此類(lèi)同

終端運(yùn)行

chmod u+x ./run.R
/usr/bin/Rscript  /xx/run.R

或 run.R 首行添加 line1, 然后終端運(yùn)行 line2,3

#!/usr/bin/Rscript
chmod u+x ./run.R
./run.R

R 腳本

本案例是個(gè)靜態(tài)爬蟲(chóng)項(xiàng)目,大致涵蓋以下幾個(gè)流程:

  1. 獲取爬取目標(biāo)
  2. 爬取
  3. 爬取結(jié)果分段存儲(chǔ)
  4. 分段結(jié)果合并及碎文件刪除
  5. 根據(jù)結(jié)果中信息進(jìn)行二次爬取
  6. 二次爬取結(jié)果存儲(chǔ)


    files

1. 確定爬取目標(biāo)

爬取目標(biāo)可以是個(gè)單一網(wǎng)址也可以是個(gè)目標(biāo)list
比如通過(guò)動(dòng)態(tài)查詢獲取與某主題相關(guān)的網(wǎng)頁(yè)地址list(get_addr.R)

2. 爬取和分段存儲(chǔ)

爬蟲(chóng)最重要的部分就是爬蟲(chóng)代碼的編寫(xiě),個(gè)中辛酸自己體會(huì),大有阿慶嫂大戰(zhàn)刁德一的意思,碼完code之后還得測(cè)試(大部分網(wǎng)頁(yè)代碼都不那么規(guī)整),時(shí)不時(shí)會(huì)如下所示


err

為了節(jié)省內(nèi)存及防止程序半路崩潰而前功盡棄,可以設(shè)置分段保存(每爬取n條存儲(chǔ)一個(gè)本地文件),以求最大限度保存勝利成果

3. 合并并清空分段文件

爬蟲(chóng)程序運(yùn)行完畢,需要將分段文件合并成最終的結(jié)果集,然后將無(wú)用的分段集清理,如下所示


parts1

4. 組織協(xié)調(diào)的 run.R

最后看看 run.R 里的代碼結(jié)構(gòu)


run.R

總結(jié)

一個(gè)完整的項(xiàng)目下來(lái),R是需要很多自定義函數(shù)支持的,這些自定義函數(shù)可能結(jié)構(gòu)復(fù)雜(可以定義2級(jí)函數(shù)支持1級(jí)函數(shù)的調(diào)用)代碼行數(shù)較多或會(huì)被多次調(diào)用,這個(gè)時(shí)候我們就需要將他獨(dú)立出來(lái)作為一個(gè)功能模塊或?qū)ο髞?lái)使用.
這樣的項(xiàng)目梳理出來(lái),就會(huì)結(jié)構(gòu)清晰,便于理解和后續(xù)個(gè)性化修改

Reference:

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市夭委,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌演侯,老刑警劉巖憔四,帶你破解...
    沈念sama閱讀 218,525評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異措拇,居然都是意外死亡我纪,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,203評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)丐吓,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)浅悉,“玉大人,你說(shuō)我怎么就攤上這事券犁∈踅。” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,862評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵粘衬,是天一觀的道長(zhǎng)荞估。 經(jīng)常有香客問(wèn)我,道長(zhǎng)稚新,這世上最難降的妖魔是什么勘伺? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,728評(píng)論 1 294
  • 正文 為了忘掉前任,我火速辦了婚禮枷莉,結(jié)果婚禮上娇昙,老公的妹妹穿的比我還像新娘。我一直安慰自己笤妙,他們只是感情好冒掌,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,743評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布噪裕。 她就那樣靜靜地躺著,像睡著了一般股毫。 火紅的嫁衣襯著肌膚如雪膳音。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,590評(píng)論 1 305
  • 那天铃诬,我揣著相機(jī)與錄音祭陷,去河邊找鬼。 笑死趣席,一個(gè)胖子當(dāng)著我的面吹牛兵志,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播宣肚,決...
    沈念sama閱讀 40,330評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼想罕,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了霉涨?” 一聲冷哼從身側(cè)響起按价,我...
    開(kāi)封第一講書(shū)人閱讀 39,244評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎笙瑟,沒(méi)想到半個(gè)月后楼镐,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,693評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡往枷,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,885評(píng)論 3 336
  • 正文 我和宋清朗相戀三年框产,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片师溅。...
    茶點(diǎn)故事閱讀 40,001評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡茅信,死狀恐怖盾舌,靈堂內(nèi)的尸體忽然破棺而出墓臭,到底是詐尸還是另有隱情,我是刑警寧澤妖谴,帶...
    沈念sama閱讀 35,723評(píng)論 5 346
  • 正文 年R本政府宣布窿锉,位于F島的核電站,受9級(jí)特大地震影響膝舅,放射性物質(zhì)發(fā)生泄漏嗡载。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,343評(píng)論 3 330
  • 文/蒙蒙 一仍稀、第九天 我趴在偏房一處隱蔽的房頂上張望洼滚。 院中可真熱鬧,春花似錦技潘、人聲如沸遥巴。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,919評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)铲掐。三九已至拾弃,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間摆霉,已是汗流浹背豪椿。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,042評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留携栋,地道東北人搭盾。 一個(gè)月前我還...
    沈念sama閱讀 48,191評(píng)論 3 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像婉支,于是被迫代替她去往敵國(guó)和親增蹭。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,955評(píng)論 2 355