爬蟲數(shù)據(jù)庫一些簡單的設(shè)計邏輯

場景:爬取某商城的部分商品。

隊列設(shè)計

這里至少需要爬取2種資源宪哩,一種是商品列表娩贷,一種是商品信息第晰。
所以要設(shè)計1條隊列锁孟,保存商品信息URL彬祖。

爬蟲1定期爬前N個列表頁 URL,把里面的商品信息URL爬下來品抽,保存到隊列里储笑。

爬蟲2定期從隊列中抽出商品信息URL,爬取商品信息圆恤,爬完后把該URL移出隊列突倍。

所以呢,簡單來說盆昙,只要有2張表就行了羽历,一張保存隊列信息,一張保存商品信息淡喜。

何時停止問題

為了避免每次都把所有商品爬一遍秕磷,就要在適當(dāng)?shù)臅r候停止。
爬列表頁的時候炼团,一般是設(shè)定只爬前 N 頁澎嚣。
爬商品信息URL的時候,一般是先檢查這個商品是否存在瘟芝,不存在就入隊易桃,存在的話,就表示接下來都是舊數(shù)據(jù)了锌俱,可以停止了晤郑。

當(dāng)然有種情況,就是有些舊的商品贸宏,會被人為地置頂贩汉,或者排到前面來。

這時候就要設(shè)置一個值 M锚赤,每次最多爬前 M 個匹舞,多了不爬。

數(shù)據(jù)更新問題:

有新商品進來线脚,直接插入即可赐稽,如果是舊商品,那要不要更新數(shù)據(jù)庫里的內(nèi)容呢浑侥?
一般來說是可以更新的姊舵,但有種情況例外,就是你的數(shù)據(jù)庫會有人去編輯的情況寓落。

如果你的數(shù)據(jù)庫有專人編輯括丁,那么最好不要更新舊商品,因為會覆蓋掉編輯的內(nèi)容伶选。并且史飞,數(shù)據(jù)表要采用軟刪除的方式尖昏,避免前面的人剛刪除了數(shù)據(jù),你的爬蟲又把數(shù)據(jù)寫進去了构资。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末抽诉,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子吐绵,更是在濱河造成了極大的恐慌迹淌,老刑警劉巖,帶你破解...
    沈念sama閱讀 207,113評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件己单,死亡現(xiàn)場離奇詭異唉窃,居然都是意外死亡,警方通過查閱死者的電腦和手機纹笼,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評論 2 381
  • 文/潘曉璐 我一進店門句携,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人允乐,你說我怎么就攤上這事矮嫉。” “怎么了牍疏?”我有些...
    開封第一講書人閱讀 153,340評論 0 344
  • 文/不壞的土叔 我叫張陵蠢笋,是天一觀的道長。 經(jīng)常有香客問我鳞陨,道長昨寞,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,449評論 1 279
  • 正文 為了忘掉前任厦滤,我火速辦了婚禮援岩,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘掏导。我一直安慰自己享怀,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 64,445評論 5 374
  • 文/花漫 我一把揭開白布趟咆。 她就那樣靜靜地躺著添瓷,像睡著了一般。 火紅的嫁衣襯著肌膚如雪值纱。 梳的紋絲不亂的頭發(fā)上鳞贷,一...
    開封第一講書人閱讀 49,166評論 1 284
  • 那天,我揣著相機與錄音虐唠,去河邊找鬼搀愧。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的咱筛。 我是一名探鬼主播搓幌,決...
    沈念sama閱讀 38,442評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼炭剪!你這毒婦竟也來了窗宇?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,105評論 0 261
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎狠角,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體变擒,經(jīng)...
    沈念sama閱讀 43,601評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡颊艳,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,066評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了枫疆。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片爵川。...
    茶點故事閱讀 38,161評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖息楔,靈堂內(nèi)的尸體忽然破棺而出寝贡,到底是詐尸還是另有隱情,我是刑警寧澤值依,帶...
    沈念sama閱讀 33,792評論 4 323
  • 正文 年R本政府宣布圃泡,位于F島的核電站,受9級特大地震影響愿险,放射性物質(zhì)發(fā)生泄漏颇蜡。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,351評論 3 307
  • 文/蒙蒙 一辆亏、第九天 我趴在偏房一處隱蔽的房頂上張望风秤。 院中可真熱鬧,春花似錦扮叨、人聲如沸缤弦。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,352評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽甸鸟。三九已至,卻和暖如春兵迅,著一層夾襖步出監(jiān)牢的瞬間抢韭,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,584評論 1 261
  • 我被黑心中介騙來泰國打工恍箭, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留刻恭,地道東北人。 一個月前我還...
    沈念sama閱讀 45,618評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像鳍贾,于是被迫代替她去往敵國和親鞍匾。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,916評論 2 344

推薦閱讀更多精彩內(nèi)容

  • 這個項目也是初窺python爬蟲的一個項目骑科,也是我的畢業(yè)設(shè)計橡淑,當(dāng)時選題的時候,發(fā)現(xiàn)大多數(shù)人選擇的都是網(wǎng)站類咆爽,實在是...
    夢航韓語閱讀 2,985評論 2 37
  • 每一個結(jié)婚的女人梁棠,都會遇到婆媳問題。婆媳能夠關(guān)系特別好的很少斗埂,一部分婆媳能夠做到和平相處符糊,相敬如賓,更多的夫妻關(guān)系...
    沂yi諾閱讀 440評論 0 3
  • ngCordova安裝 安裝bower(方便安裝ngCordova):npm install -g bower 安...
    誓詞傾城閱讀 2,237評論 0 1
  • 越貧乏的人越吝嗇,越富足的人越慷慨漾稀。 慷慨的人會愈加成功模闲,因為資源會涌向他,吝嗇的人會愈加落魄崭捍,因為資源會遠(yuǎn)離他尸折。...
    維琪Vicky閱讀 176評論 0 3
  • 前段時間翁授,朋友落落經(jīng)常打電話跟我抱怨,說她一天到晚起早貪黑晾咪,人就像是一個旋轉(zhuǎn)機器收擦,沒有夢想中溫暖幸福的感覺不說,還...
    默默huangjuan閱讀 572評論 24 12