? ? ? ? 今天贮缅,搜索引擎已經(jīng)成為大家上網(wǎng)沖浪的標(biāo)配晃听,甚至有“內(nèi)事不決問百度百侧,外事不決問谷歌”的說法着帽。搜索引擎可以根據(jù)用戶的需要提供內(nèi)容豐富的網(wǎng)上信息,相對于傳統(tǒng)的紙質(zhì)信息媒介移层,從根本上改變了人們獲取及處理信息的習(xí)慣仍翰,極大提高了效率。而其基礎(chǔ)就在于大量收集網(wǎng)頁信息的網(wǎng)絡(luò)爬蟲观话。在搜索引擎發(fā)展的初期予借,程序猿小哥哥相互間炫耀的一個指標(biāo)就是自己的爬蟲收集的網(wǎng)頁數(shù)量。
? ? ? ? 由于網(wǎng)絡(luò)爬蟲的策略是盡可能多的“爬過”網(wǎng)站中的高價值信息频蛔,會根據(jù)特定策略盡可能多的訪問頁面灵迫,占用網(wǎng)絡(luò)帶寬并增加網(wǎng)絡(luò)服務(wù)器的處理開銷。例如晦溪,某個網(wǎng)站上有一個10MB的文件瀑粥,使用爬蟲抓取該文件1000次,就會使網(wǎng)站產(chǎn)生大量出站流量(可在數(shù)分鐘內(nèi)達(dá)到GB級)三圆,引起的后果很可能是災(zāi)難性的狞换。這種攻擊達(dá)到的效果似曾相識,類似臭名昭著的DDoS攻擊舟肉,使網(wǎng)頁服務(wù)在大量的暴力訪問下修噪,資源耗盡而停止提供服務(wù)。
? ? ? ? 此外路媚,惡意用戶還可能通過網(wǎng)絡(luò)爬蟲抓取各種敏感資料用于不正當(dāng)用途黄琼,主要表現(xiàn)在以下幾個方面:(1)網(wǎng)站入侵,大多數(shù)基于網(wǎng)頁服務(wù)的系統(tǒng)都附帶了測試頁面及調(diào)試用后門程序等整慎。通過這些頁面或程序甚至可以繞過認(rèn)證直接訪問服務(wù)器敏感數(shù)據(jù)脏款,成為惡意用戶分析攻擊的有效情報來源,而且這些文件的存在本身也暗示網(wǎng)站中存在潛在的安全漏洞裤园。(2)搜索管理員登錄頁面撤师,許多在線系統(tǒng)提供了基于網(wǎng)頁的管理接口,允許管理員對其進(jìn)行遠(yuǎn)程管理與控制比然。如果管理員疏于防范丈氓,一旦其管理員登錄頁面被惡意用戶搜索到,將面臨極大的威脅强法。(3)搜索互聯(lián)網(wǎng)用戶的個人資料万俗,互聯(lián)網(wǎng)用戶的個人資料包括姓名、身份證號饮怯、電話闰歪、郵箱地址、QQ號蓖墅、通信地址等個人信息库倘,惡意用戶獲取后有可能實施攻擊或詐騙临扮。因此,采取適當(dāng)?shù)拇胧┫拗凭W(wǎng)絡(luò)爬蟲的訪問權(quán)限教翩,向網(wǎng)絡(luò)爬蟲開放網(wǎng)站希望推廣的頁面杆勇,屏蔽比較敏感的頁面,對于保持網(wǎng)站的安全運行饱亿、保護(hù)用戶的隱私是極其重要的蚜退。
? ? ? ? 當(dāng)人們習(xí)慣于將一切生活轉(zhuǎn)移至互聯(lián)網(wǎng)上時,意味著在這個虛擬世界中彪笼,一個人比在現(xiàn)實生活中還要透明钻注。而大數(shù)據(jù)的興起,讓這種對個人的“網(wǎng)絡(luò)畫像”變得越來越容易配猫,精度也越來越高幅恋。更令人心悸的是,帶著個人信息的各種數(shù)據(jù)在互聯(lián)網(wǎng)上幾乎隨處可見泵肄,并可輕易獲得捆交。別不把自己的信息當(dāng)盤菜,當(dāng)你的一切都變得透明時凡伊,你的還是你的嗎零渐?!