什么是網(wǎng)站日志
網(wǎng)站日志對于網(wǎng)站建設(shè)的作用相當于監(jiān)控攝像頭對我們的房間,它可以記錄下來滔蝉,這一段時間里面所有的訪客到我們家來訪問的這個記錄。
那我們一個網(wǎng)站每天有很多的用戶來訪問塔沃,同時每天還有很多的搜索引擎的蜘蛛來抓取日志蝠引,網(wǎng)站日志就能夠把所有訪客訪問的情況,它用什么瀏覽器蛀柴,什么操作系統(tǒng)螃概,什么時間點來訪問,訪問了哪些頁面鸽疾?日志能夠把這些數(shù)據(jù)全部記錄下來吊洼。
同時呢搜索引擎的蜘蛛過來抓取,它是百度的搜索引擎的蜘蛛制肮,還是google的還是360的冒窍?他們過來抓取,分別是什么時間點抓取的哪些頁面弄企,抓取的時候返回值是什么超燃?是正常打開還是打不開,所有這些數(shù)據(jù)都能夠記錄到一個叫做日志的一個文件里拘领。
網(wǎng)站日志怎么分析
1.網(wǎng)站日志下載及數(shù)據(jù)解讀
分析網(wǎng)站日志意乓,我們可以了解搜索引擎蜘蛛來到我們網(wǎng)站訪問的時候,它獲取到的信息是什么?網(wǎng)站跟搜索引擎之間它是什么樣的一個對話届良,那網(wǎng)站日志怎么進行分析笆凌,從哪里下載到這個數(shù)據(jù)?
通過FTP訪問網(wǎng)站的根目錄士葫∑蚨可以看到一個包含log的文件夾,這是存放日志的地方慢显。
如何查看網(wǎng)站日志
下載爪模、解壓、打開日志文件荚藻,日志文件內(nèi)容如:
61.135.168.22 - - [11/Jan/2009:04:02:45 +0800] "GET /bbs/thread-7303-1-1.html?HTTP/1.1" 200 8450 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)" (注:百度屋灌,這部分為本文添加)
203.208.60.43 - - [11/Jan/2009:04:02:43 +0800] "GET /sns/space-13563-do-friend-view-me.html HTTP/1.1" 200 5162 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" (注:Google)
202.160.178.21 - - [11/Jan/2009:04:02:44 +0800] "GET /sns/space.php?uid=323 HTTP/1.0" 200 7535 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)" (注:雅虎)
65.55.220.217 - - [11/Jan/2009:04:02:57 +0800] "GET /ucenter/avatar.php?uid=12373&size=small&type=virtual HTTP/1.1" 301 - "-" "msnbot-media/1.1 (+http://search.msn.com/msnbot.htm)" (注:MSN)
65.55.109.46 - - [11/Jan/2009:04:02:57 +0800] "GET /sns/source/script_menu.js HTTP/1.0" 200 7219 "http:/sns/space-5755-do-blog-view-me.html" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)
大概就是上面這樣密密麻麻的代碼,但是這些代碼怎么理解呢应狱。比較好理解共郭,我們看一下這一串日志的內(nèi)容。前面這個ip代表今天來訪問我們的網(wǎng)站疾呻,它是什么ip除嘹?是用戶呢還是搜索引擎蜘蛛它都有一個ip,就是把他的ip記錄下來岸蜗。后面這個是一個時間點尉咕,什么時間來訪問我們的網(wǎng)站?然后呢get就是抓取散吵,抓取的哪一個文件呢?抓取了這個文件龙考。
就是我們的域名下面的www.xxx.com/BBS什么什么,把這個文件抓取回去矾睦。抓取回去之后呢200,這是http狀態(tài)碼炎功,它代表抓取成功枚冗,然后后面這個數(shù)字代表抓取了多少個字節(jié)?那200蛇损,然后這個8000多就是代表成功抓取了8000多個字節(jié)赁温,也就是我們一個網(wǎng)頁的大概的大小。那后面這一段就是代表蜘蛛淤齐,Baidu Spider就代表百度的蜘蛛股囊,那這一句就代表這個內(nèi)容是百度蜘蛛過來抓取,成功抓取了這么多個字節(jié)更啄。
好稚疹,那我們再看這個上面就可以看出這個是誰的蜘蛛,yahuspider這是雅虎的它是這個時間點祭务。然后這上面是誰的呢内狗?google的怪嫌,對吧?最下面看一下柳沙,里面沒有看到這是哪一個具體的搜索引擎岩灭。那它是誰?你看這個有MSIE6.0赂鲤。這就說明微軟的ie6.0噪径,這是一個用戶在來抓取和訪問的一個頁面。
所以日志它就這樣的一個文件数初,把每天每時每刻用戶和蜘蛛來抓取我們網(wǎng)站的所有的情況熄云,把它記錄下來。
2.分析網(wǎng)站日志工具是什么?
這個日志文件妙真,里面看起來密密麻麻的缴允,非常的費勁。一般人是沒法看明白的珍德。而且如果我們的網(wǎng)站的訪問量非常大的話练般,那這個日志往往會有幾十兆幾百兆甚至幾個G的這個大小。那我們在電腦上打開的時候锈候,有的時候電腦都會卡死掉薄料。那么就會用到網(wǎng)站日志分析工具。
一般分析網(wǎng)站日志我們用光年日志工具分析.關(guān)于這個工具的使用泵琳,大家可以看一下這篇https://jingyan.baidu.com/article/15622f240a2e6afdfcbea58a.html百度經(jīng)驗了解一下摄职,也可以去搜外的網(wǎng)站上看一下有免費的教程。
3.網(wǎng)站日志分析http狀態(tài)碼的解讀
那剛才我們看這個日志的時候获列,看到里面有一些剛才提到一個詞叫做http狀態(tài)碼谷市,有看到200或者404,這個叫做HTTP狀態(tài)碼击孩。
那這個http狀態(tài)碼迫悠,就是代表搜索引擎蜘蛛或者用戶來訪問我們網(wǎng)站的時候,它是什么樣的一個狀態(tài)巩梢?什么樣的一個情況创泄?200就代表成功抓取了,如果是404就代表過來抓取這個鏈接括蝠, 但是這個鏈接不存在鞠抑,所以它就返回404。那狀態(tài)碼一般有200或者404忌警,或者500等等這樣的幾個常見的數(shù)字搁拙,
我們不用了解特別多,只要大概的知道這么幾個數(shù)字代表什么?200代表成功抓取感混,404代表錯誤鏈接端幼,500代表服務(wù)器出問題了,大概了解這么幾個數(shù)據(jù)就可以了弧满,不需要把所有的都記住婆跑。那如果想要了解更多http狀態(tài)碼的這個知識的話,可以在百度上搜索一下庭呜,就可以查詢到所有這些代碼分別代表什么意思滑进?
什么樣的場景下需要網(wǎng)站日志分析
那么對于一個職業(yè)網(wǎng)站優(yōu)化人員日志分析的能力是必須要掌握的。那什么樣的場景下需要日志分析,下面我們看一下.
1.比如說我們創(chuàng)建了一個網(wǎng)站募谎,提交給搜索引擎扶关,后來很長時間沒看到搜索引擎的收錄,那這個時候我們就需要下載日志來分析一下数冬,看搜索引擎到底有沒有過來抓取节槐。
2.我們網(wǎng)站原來可能排名很好, 后來突然間發(fā)現(xiàn)異常了拐纱,那我們就需要把日志下載下來看一下搜索引擎這段時間過來抓取我們網(wǎng)站的時候铜异, 它是不是有一些異常情況。
3.網(wǎng)站如果被人攻擊或者入侵秸架,那也要下載一下網(wǎng)站日志來分析我們這個問題出在什么時間點揍庄,什么地方?
做網(wǎng)站日志分析东抹,我們采用的一個方法一般是對比法蚂子, 就是我們網(wǎng)站和排名都正常的情況的日志, 和現(xiàn)在出問題的時候的日志缭黔,拿出來進行對比食茎, 采用光年日志分析,把這個數(shù)據(jù)拿出來看一下试浙,看問題出在哪一個目錄董瞻,或者說哪一些頁面, 然后再去針對性的去研究一下田巴。