停更了許久耸采,從今天開始繼續(xù)更新常拓。
基礎(chǔ)爬蟲架構(gòu)及運(yùn)行流程
爬蟲架構(gòu)由5部分組成,爬蟲調(diào)度器番宁,URL管理器冯痢,HTML下載器氮昧,HTML解析器和數(shù)據(jù)存儲器。其功能如下:
爬蟲調(diào)度器:主要負(fù)責(zé)統(tǒng)籌其他四個(gè)模塊的協(xié)調(diào)工作浦楣。
URL管理器:負(fù)責(zé)管理URL鏈接袖肥,維護(hù)已經(jīng)爬取的URL集合和未爬取的URL集合,提供獲取新URL鏈接的借口振劳。
HTML下載器:用于從URL管理器中獲取未爬取的URL鏈接并下載HTML網(wǎng)頁椎组。
HTML解析器:用于從HTML下載器中獲取已經(jīng)下載的HTML網(wǎng)頁,并從中解析出新的URL鏈接交給URL管理器历恐,解析出有效的數(shù)據(jù)交給數(shù)據(jù)存儲器寸癌。
數(shù)據(jù)存儲器:用于將HTML解析器解析出來的數(shù)據(jù)通過文件或數(shù)據(jù)庫的形式存儲起來。
URL管理器
URL管理器主要包括兩個(gè)變量弱贼,一個(gè)是已爬取URL的集合灵份,另一個(gè)是未爬取的URL集合,采用python中的set數(shù)據(jù)類型哮洽,進(jìn)行去重,另外還配有以下接口弦聂,以便供其他模塊使用鸟辅。