Rogerbot 是 Moz Pro Campaign 網站審核的 Moz 爬蟲。它與 Dotbot 不同,Dotbot 是為鏈接索引提供支持的網絡爬蟲叶圃。Rogerbot 訪問您網站的代碼以將報告發(fā)送回您的 Moz Pro Campaign。這可以幫助您了解您的網站并教您如何解決可能影響您的排名的問題塞赂。Rogerbot 為您的站點抓取報告春叫、按需抓取噪矛、頁面優(yōu)化報告和頁面評分器提供數(shù)據(jù)小渊。
Rogerbot 是如何處理 Robots.txt 文件
Rogerbot 旨在遵守 robots.txt 文件放可。您可以使用這個奇妙的文件來通知機器人它們應該如何在您的站點上運行谒臼。這有點像行為準則:你知道朝刊,脫掉你的鞋子,遠離餐廳蜈缤,把那些肘部從桌子上拿開拾氓,天哪!之類的東西底哥。
每個站點都應該有一個 robots.txt 文件咙鞍。您可以通過訪問 www.pdflibr.com/robots.txt 來檢查它是否存在。您還可以檢查任何其他站點的 robots.txt 文件趾徽,只是為了好玩续滋。例如:pdf-lib.org/robots.txt
、baidu.com/robots.txt
孵奶,是的疲酌,甚至是 google.com/robots.txt
。任何人都可以看到您的 robots.txt 文件了袁;它是公開的朗恳,所以請記住這一點。
如果您的網站沒有 robots.txt 文件载绿、您的 robots.txt 文件無法加載或返回錯誤粥诫,Rogerbot 可能無法抓取您的網站。這也可能導致導致服務器日志膨脹的錯誤卢鹦。您需要在文件中包含一些內容臀脏,因為空白文件可能會使檢查您的站點是否正確設置的人感到困惑劝堪。他們可能認為這是一個錯誤冀自。即使您沒有阻止任何機器人,配置了某些內容的文件也是可取的秒啦。
Rogerbot 用戶代理
要直接與 rogerbot 交談熬粗,您可以通過他們的名字(也稱為用戶代理)來稱呼他們。Rogerbot 用戶代理是:rogerbot余境。
如何通過 Robots.txt 允許 Rogerbot 抓取您的網站
要告訴 rogerbot 它可以抓取您網站上的所有頁面驻呐,您可以在 robots.txt 文件這樣寫:
User-agent: rogerbot
Disallow:
disallow: 之后的字段為空,則特別表示不應阻止任何 URL芳来。
通過 Robots.txt 阻止 Rogerbot 抓取您的網站
如果您厭倦了 rogerbot 抓取您的網站含末,您可以通過在 robots.txt 文件中的 disallow 指令后添加斜杠 ("/") 來阻止抓取工具。那就是說:“Rogerbot即舌,您無法訪問這些頁面中的任何一個佣盒,該站點上的所有頁面都不適合您,請遠離顽聂,伙計肥惭《⒁牵”
使用您的 robots.txt 文件阻止 rogerbot 如下所示:
User-agent: rogerbot
Disallow: /
注意表示站點根目錄的斜線。添加此代碼將阻止 rogerbot 抓取您的網站所有頁面蜜葱。
您還可以從站點的某些部分(例如子文件夾)中排除 rogerbot全景。下面是阻止 rogerbot 抓取您某個目錄的所有頁面:
User-agent: rogerbot
Disallow: */manage/*
此語法僅告訴 Rogerbot 爬蟲不要爬取任何包含此 URL 字符串的頁面,例如:www.pdflibr.com/marketplace/
建議您在進行更改后使用這個機器人檢查器工具檢查您的 robots.txt 文件牵囤,以避免任何令人討厭的意外爸黄。
通過 Robots.txt 爬行延遲以減慢 Rogerbot 爬蟲對您網站的抓取速度
rogertbot 希望盡可能快地抓取您的網站,以便能夠及時完成抓取揭鳞,而不會給您的人類訪問者帶來問題馆纳。
如果您想減慢 rogerbot 的速度,可以使用 Crawl Delay
指令汹桦。以下指令僅允許 rogerbot 每 10 秒訪問一次您的站點鲁驶,下面是 robots.txt 的具體寫法:
User-agent: rogerbot
Crawl-delay: 10
請記住,當您考慮一天有 86,400 秒時舞骆,這將允許 Rogerbot 在一天內訪問 8,640 個頁面钥弯,因此如果您有很多頁面要抓取,這可能意味著抓取您的網站需要一段時間督禽。
不建議添加大于 30 秒的抓取延遲脆霎,否則 rogerbot 可能無法完成對您網站的抓取。
Rogerbot 的 IP 范圍
不幸的是狈惫,rogerbot 不使用靜態(tài) IP 地址或 IP 地址范圍睛蛛,因為 rogerbot 爬蟲設計為采用動態(tài)方法。這意味著 rogerbot 使用數(shù)千個動態(tài) IP 地址胧谈,每次運行爬網時這些地址都會發(fā)生變化忆肾。這種方法提供了最好的網絡動態(tài)視圖,但它可能使我們與某些服務器或托管服務提供商不兼容菱肖。
最好的選擇是通過用戶代理識別爬蟲:rogerbot客冈。
阻止 Rogerbot 訪問動態(tài)頁面
阻止 rogerbot 的爬蟲訪問這些動態(tài)標記頁面的最佳方法是使用您的 robots.txt 文件中的 disallow 指令阻止它訪問它們。它看起來像這樣:
User-agent: Rogerbot
Disallow: /TAG TYPE
通過 Robots.txt 阻止除 Rogerbot 之外的所有機器人
確保在“所有機器人指令”上方有“用戶代理特定指令”稳强,例如下面的寫法:
User-agent: rogerbot
Disallow:
User-agent: *
Disallow: /
rogerbot 是否支持“allow”指令场仲?
rogerbot 支持“allow”指令。
要允許在目錄中抓取頁面退疫,同時禁止 rogerbot 訪問目錄的其余部分渠缕,您可以在 robots.txt 文件中添加如下內容:
User-agent: rogerbot
Allow: /crawler/roger-bot
Disallow: /crawler/