域名不屬于URL
搜索引擎喜歡靜態(tài)代碼
http://是網(wǎng)絡(luò)協(xié)議皱卓,屬于網(wǎng)址袋坑,https://是網(wǎng)絡(luò)高級(jí)協(xié)議
URl稱為網(wǎng)頁(yè)地址踱稍,網(wǎng)址后面的內(nèi)容是網(wǎng)民來(lái)源鼠冕,URL層級(jí)越短越容易被抓取,有助于排名。
如何縮減織夢(mèng)層級(jí)溅漾?
步驟如下:
織夢(mèng)后臺(tái)→系統(tǒng)→系統(tǒng)基本參數(shù)→刪除 ?/a ?保存(文檔html默認(rèn)保存路徑)→核心→欄目管理→選擇其中一個(gè)欄目更改→文件保存目錄→一個(gè) ?/a ?→高級(jí)選項(xiàng)→文章命名規(guī)則→Y 后面“/”改成“-”→生成
需要手動(dòng)改山叮,沒(méi)有一鍵全部改
robots的協(xié)議
一、robots.txt協(xié)議
1添履,是純文本協(xié)議屁倔,用于聲明該網(wǎng)站中不想被蜘蛛訪問(wèn)部分,或者指定蜘蛛抓取的部分
2暮胧,不是固定锐借,而是一種約定,需要蜘蛛自覺(jué)遵守的一種習(xí)俗
二往衷、robots.txt的作用
1钞翔,防止私密或重要內(nèi)容被搜索引擎抓取
2,節(jié)省服務(wù)器資源席舍,從而提高服務(wù)質(zhì)量
3布轿,減少重復(fù)抓取,提高網(wǎng)站質(zhì)量指定sitemap文件位置
三来颤、robots.txt的常用語(yǔ)法??*是通配符
User-agent
:* 用戶代理 搜素引擎針對(duì)哪個(gè)搜素引擎蜘蛛汰扭,這里的*代表搜素引擎種類,*是通配符
1福铅、AIIOW 允許:定義的允許蜘蛛抓取某個(gè)欄目或文件
2萝毛、AIIOW:/cgi-bin/:定義是允許訪問(wèn)cgi-bin目錄
3、AIIOW:/*htm$ :允許訪問(wèn)意htm為后綴的URL
4滑黔、Disallow 不允許 :禁止蜘蛛抓取某個(gè)欄目或文件
5笆包、User-agent/admin/禁止抓取admin目錄
6、Grawi-delay 延遲時(shí)間 間隔抓取時(shí)間
7拷沸、Visit-time:0100-1600 在每天的01:00-16:00允許抓取
8色查、Request-rate:20/1m 0900-1359 允許在每天9:00-13:59允許抓取,以每秒20抓取
僅允許百度蜘蛛撞芍、谷歌蜘蛛訪問(wèn)格式為:
Userr-agent:baiduspider
Allow:/
Userr-agent:Guglebot
Allow:/
Userr-agent:*
Disallow:/
蜘蛛是從上而下爬行的,假設(shè)網(wǎng)站只有A,B文件夾跨扮,只想讓百度蜘蛛看到A文件序无,格式為:
Userr-agent:baiduspider
Allow:/A
Disallow:/B
Userr-agent:*
Disallow:/
網(wǎng)站地圖
網(wǎng)站地圖可以理解成是一個(gè)文件,包含了自己網(wǎng)站很多重要的鏈接衡创,蜘蛛可以通過(guò)網(wǎng)站地圖提高工作效率帝嗡,能被快速收錄頁(yè)面,一般是和robots.txt放在一起
如何生成網(wǎng)站地圖璃氢?
百度搜索sitemap→點(diǎn)擊小爬蟲→輸入域名→生成→選擇后綴為XML的→出現(xiàn)代碼(整篇復(fù)制)→桌面新建文本文檔哟玷,改名sitemap.xml→用記事本打開→粘貼代碼
在桌面新建一個(gè)robots.txt文本文檔,在尾部加上sitemap:http://網(wǎng)址/sitemap.xml,用ftp工具上傳到根目錄里巢寡。