目錄:
一退渗、Robots協(xié)議簡介
二蹲嚣、亞馬遜網(wǎng)站robots.txt分析
一种吸、Robots協(xié)議簡介
Robots協(xié)議——禁止搜索引擎收錄的方法(robots.txt)
1遏佣、什么是robots.txt文件?
搜索引擎通過一種程序robot(又稱spider)胶征,自動訪問互聯(lián)網(wǎng)上的網(wǎng)頁并獲取網(wǎng)頁信息凉唐。您可以在您的網(wǎng)站中創(chuàng)建一個純文本文件robots.txt迅细,在這個文件中聲明該網(wǎng)站中不想被robot訪問的部分衅谷,這樣癞己,該網(wǎng)站的部分或全部內(nèi)容就可以不被搜索引擎收錄了膀斋,或者指定搜索引擎只收錄指定的內(nèi)容。
2痹雅、robots.txt文件放在哪里?
robots.txt文件應(yīng)該放在網(wǎng)站根目錄下仰担。舉例來說,當(dāng)robots訪問一個網(wǎng)站(比如http://www.abc.com)時绩社,首先會檢查該網(wǎng)站中是否存在http://www.abc.com/robots.txt這個文件摔蓝,如果機(jī)器人找到這個文件,它就會根據(jù)這個文件的內(nèi)容愉耙,來確定它訪問權(quán)限的范圍贮尉。
3、robots.txt文件的格式
"robots.txt"文件包含一條或更多的記錄朴沿,這些記錄通過空行分開(以CR,CR/NL, or NL作為結(jié)束符)猜谚,每一條記錄的格式如下所示:":"败砂。在該文件中可以使用#進(jìn)行注解,具體使用方法和UNIX中的慣例一樣魏铅。該文件中的記錄通常以一行或多行User-agent開始昌犹,后面加上若干Disallow行。
在robots.txt文件中览芳,最基本的格式為User-agent 和 Disallow :
User-agent:
該項的值用于描述搜索引擎robot的名字斜姥。
在"robots.txt"文件中,如果有多條User-agent記錄說明有多個robot會受到該協(xié)議的限制沧竟。如果該項的值設(shè)為*铸敏,則該協(xié)議對任何機(jī)器人均有效。
Disallow :
該項的值用于描述不希望被訪問到的一個URL悟泵,這個URL可以是一條完整的路徑搞坝,也可以是部分的,任何以Disallow開頭的URL均不會被robot訪問到魁袜。
任何一條Disallow記錄為空桩撮,說明該網(wǎng)站的所有部分都允許被訪問。如果"/robots.txt"是一個空文件峰弹,則對于所有的搜索引擎robot店量,該網(wǎng)站都是開放的。
?
二鞠呈、亞馬遜網(wǎng)站robots.txt分析
中國亞馬遜:https://www.amazon.cn/robots.txt
User-agent
User-agent: *
User-agent:*表示該協(xié)議對任何機(jī)器人均有效融师。
中國亞馬遜沒有對爬蟲對區(qū)別限制,而是僅設(shè)置了一個所有爬蟲共同遵循的規(guī)則蚁吝。
Allow
Allow: /wishlist/universal*
Allow: /wishlist/vendor-button*
Allow: /wishlist/get-button*
Disallow: /gp/wishlist/
Allow: /gp/wishlist/universal*
Allow: /gp/wishlist/vendor-button*
Allow: /gp/wishlist/ipad-install*
允許爬取的內(nèi)容有六項旱爆,均與心愿單相關(guān)。
Disallow
一點(diǎn)說明:
"Disallow: /help"對/help.html和/help/index.html都不允許搜索引擎訪問窘茁。
"Disallow:/help/"允許robot訪問/help.html怀伦,但不能訪問/help/index.html。
以下選取我能看懂的項目:
Disallow: /buycar??? 購物車
Disallow: /gp/css/homepage.html??? 我的賬戶
Disallow:/gp/help/contact-us/general-questions.html*?type&email&skip=true??? 聯(lián)系客服
Disallow:/gp/help/reports/infringement/jquery/handle-notice-submit.html??? 系統(tǒng)錯誤提示
Disallow: /gp/twitter/??? 推特
Disallow: /gp/history??? 歷史記錄
Disallow: /dp/e-mail-friend/??? 好友
Disallow: /doc??? 文件
Disallow: /gp/voting/??? 投票
Disallow: /dp/product-availability/??? 產(chǎn)品信息
由此可見山林,亞馬遜的爬蟲限制主要有幾個方面:產(chǎn)品信息房待、用戶隱私信息、分享驼抹、錯誤處理等桑孩。
我認(rèn)為其目的有三點(diǎn):
1、保護(hù)網(wǎng)站用戶的個人隱私信息
2框冀、保護(hù)網(wǎng)站的關(guān)鍵信息流椒,保證其商業(yè)運(yùn)轉(zhuǎn)
3、屏蔽沒有必要爬取的錯誤處理數(shù)據(jù)明也,降低網(wǎng)站被爬取時的服務(wù)器負(fù)荷