什么是爬蟲?
網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛句旱,網(wǎng)絡(luò)機(jī)器人), 是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本讼油。
爬蟲的用途
- 搜索引擎
- 咨詢新聞網(wǎng)站
- 購物助手(慧慧購物)
- 數(shù)據(jù)分析與研究積累原始數(shù)據(jù)資源
- 搶票軟件等
爬蟲的基本原理:
我們把互聯(lián)網(wǎng)比喻為一張大網(wǎng),網(wǎng)絡(luò)爬蟲我們想象為網(wǎng)上的蜘蛛,網(wǎng)頁與網(wǎng)頁之間的連接我們理解為節(jié)點俱尼,爬蟲就相當(dāng)于是訪問網(wǎng)頁,獲取網(wǎng)頁的信息萎攒,又通過節(jié)點可以爬取另一個網(wǎng)站遇八,然后不停的通過一個個節(jié)點即訪問一個個網(wǎng)頁,這樣網(wǎng)站的數(shù)據(jù)就可以被我們獲取下來了耍休。
爬蟲分為通用爬蟲和聚焦爬蟲通用爬蟲
通用網(wǎng)絡(luò)爬蟲 是 捜索引擎抓取系統(tǒng)(Baidu刃永、Google、Yahoo等)的重要組成部分羊精。主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁下載到本地斯够,形成一個互聯(lián)網(wǎng)內(nèi)容的鏡像備份。
聚焦爬蟲 聚焦爬蟲园匹,是"面向特定主題需求"的一種網(wǎng)絡(luò)爬蟲程序雳刺,它與通用搜索引擎爬蟲的區(qū)別在于: 聚焦爬蟲在實施網(wǎng)頁抓取時會對內(nèi)容進(jìn)行處理篩選,盡量保證只抓取與需求相關(guān)的網(wǎng)頁信息裸违。