斷點續(xù)傳大規(guī)模爬蟲

編寫程序

一葫掉、count()方法

(1)python中的count()方法:統(tǒng)計字符串中子字符串的出現(xiàn)次數(shù)些举,統(tǒng)計列表中相同元素的出現(xiàn)次數(shù)。python中生成器不能用該方法俭厚。

(2)mongodb中collection的count()函數(shù):統(tǒng)計條目數(shù)户魏。在pymongo生成器可采用該方法。

二挪挤、pymongo把字典保存到mongodb后叼丑,字典中會自動添加一個mongodb的id鍵值對。

三电禀、BeatifulSoup的find()與find_all()幢码,python自帶的find()和mongodb的find()

(1)find()的參數(shù)依次為(標簽名笤休,標簽屬性)尖飞,返回一個標簽(可多重嵌套)或None;

(2)find_all()的參數(shù)依次為(標簽名店雅,標簽屬性)政基,返回一個標簽列表或者空列表[];

(3)soup.find('head').find('title')可簡寫為soup.head.title闹啦。

(4)python的find()是字符串對象的方法沮明,用于查找子字符串,返回第一個字串出現(xiàn)的位置或-1(字串不存在)窍奋。

(5)mongodb的find()是列表對象的方法荐健,接收字典參數(shù),鍵值對為所要查找條目鍵值對琳袄,用于查找條目江场,返回True

四、在引用其它py文件或其函數(shù)窖逗,列表址否,變量等等時,如果運行主程序碎紊,被引用的py文件中的可執(zhí)行語句也會被執(zhí)行佑附,因此樊诺,所有的py文件都應(yīng)該封裝好再在主程序中引用。

五音同、requests拋出錯誤词爬,達到最大連接次數(shù)仍然無法連接成功,說明對網(wǎng)站請求頻率過高权均,應(yīng)延長請求的時間間隔缸夹。

六、dict添加新的鍵值對用字典的setdefault(鍵螺句,值)方法虽惭。

七、list和dict可以通過pop(位置)刪除該位置的元素蛇尚。

八芽唇、mongodb的查詢方法find()與find_one()

find()方法成功找到符合條件的記錄則返回一個生成器(實質(zhì)是停留在符合條件記錄的集合的第一條記錄位置的cursor),用list方法轉(zhuǎn)化為列表后取劫,如果該存在符合條件的記錄匆笤,則生成一個列表,否則生成一個空列表谱邪。

find_one({查詢鍵值對}炮捧,{顯示字段:0表示不顯示or1表示顯示,其余默認不顯示惦银,'_id'默認顯示})返回查詢到的第一條咆课。

特別注意:

(1)只返回第一條,沒查詢到返回null扯俱。

(2)find_one第二個參數(shù)留空則返回一條完整的記錄书蚪。

九、BautifulSoup可以尋找下一個標簽和內(nèi)容迅栅,分別是next_sibling方法和next_element方法殊校。

程序運行

中斷常見原因:

(1)數(shù)組越界,BeautifulSoup沒成功抓取读存,嘗試按標簽列表處理時出錯为流。處理方式:所有抓取到的數(shù)據(jù)都要進行判斷分析。

如果BautifulSoup的select方法沒成功抓取让簿,它會返回一個空列表[]敬察,空列表的bool值為False,通過代碼:

if []:

run part1;

if not []:

run part2

可以進行正反判斷拜英。

(2)編碼出錯静汤,所有需要保存的數(shù)據(jù)(寫入文件或者寫入數(shù)據(jù)庫)都要先用encode('utf-8')編碼為utf-8碼再保存,讀取時用decode解碼為unicode碼(大部分編程界面碼)。為了避免出現(xiàn)類似錯誤虫给,還可以將pycharm的程序編碼設(shè)置為‘utf-8’藤抡。

編碼錯誤有兩個問題:

如果抓取的內(nèi)容是utf-8編碼的,抓取到后如果要在cmd運行界面print出來抹估,有時就會報錯:

UnicodeEncodeError: 'gbk' codec can't encode character

這個呢缠黍,并不是程序的編碼有問題,問題是出在操作系統(tǒng)的默認編碼上药蜻,windows的默認編碼是‘gbk’瓷式,對有些unicode碼并不能顯示。

處理方法:不要設(shè)置print语泽,直接將數(shù)據(jù)保存到mongodb數(shù)據(jù)庫中贸典。或者將數(shù)據(jù)用utf-8方式encode為bytes保存到mongodb中踱卵,不過這樣查詢起來非常不方便廊驼,因為都是bytes符號。建議采取第一個方式惋砂。

(3)網(wǎng)站達到最大連接次數(shù)仍無法成功連接妒挎,抓取動作太頻繁,保存數(shù)據(jù)隔一段時間再抓西饵。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末酝掩,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子眷柔,更是在濱河造成了極大的恐慌期虾,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件闯割,死亡現(xiàn)場離奇詭異彻消,居然都是意外死亡,警方通過查閱死者的電腦和手機宙拉,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來丙笋,“玉大人谢澈,你說我怎么就攤上這事∮澹” “怎么了锥忿?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長怠肋。 經(jīng)常有香客問我敬鬓,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任钉答,我火速辦了婚禮础芍,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘数尿。我一直安慰自己仑性,他們只是感情好,可當我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布右蹦。 她就那樣靜靜地躺著诊杆,像睡著了一般。 火紅的嫁衣襯著肌膚如雪何陆。 梳的紋絲不亂的頭發(fā)上晨汹,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天,我揣著相機與錄音贷盲,去河邊找鬼宰缤。 笑死,一個胖子當著我的面吹牛晃洒,可吹牛的內(nèi)容都是我干的慨灭。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼球及,長吁一口氣:“原來是場噩夢啊……” “哼氧骤!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起吃引,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤筹陵,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后镊尺,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體朦佩,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年庐氮,在試婚紗的時候發(fā)現(xiàn)自己被綠了语稠。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡弄砍,死狀恐怖仙畦,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情音婶,我是刑警寧澤慨畸,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站衣式,受9級特大地震影響寸士,放射性物質(zhì)發(fā)生泄漏檐什。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一弱卡、第九天 我趴在偏房一處隱蔽的房頂上張望乃正。 院中可真熱鬧,春花似錦谐宙、人聲如沸烫葬。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽搭综。三九已至,卻和暖如春划栓,著一層夾襖步出監(jiān)牢的瞬間兑巾,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工忠荞, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留蒋歌,地道東北人。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓委煤,卻偏偏與公主長得像堂油,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子碧绞,可洞房花燭夜當晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容