一膘魄、seo搜索引擎優(yōu)化。
一)SEO的六個環(huán)節(jié):
1浙踢、關(guān)鍵詞分析(也叫關(guān)鍵詞定位)
這是進行SEO最重要的一環(huán)洛波,關(guān)鍵詞分析包括:
①關(guān)鍵詞關(guān)注量分析
②競爭對手分析
③關(guān)鍵詞與網(wǎng)站相關(guān)性分析
④關(guān)鍵詞布置
⑤關(guān)鍵詞排名預(yù)測
2骚露、網(wǎng)站架構(gòu)分析
網(wǎng)站結(jié)構(gòu)符合搜索引擎的爬蟲喜好則有利于SEO。網(wǎng)站架構(gòu)分析包括:
①剔除網(wǎng)站架構(gòu)不良設(shè)計
②實現(xiàn)樹狀目錄結(jié)構(gòu)
③網(wǎng)站導(dǎo)航與鏈接優(yōu)化
3焰扳、網(wǎng)站目錄和頁面優(yōu)化
SEO不止是讓網(wǎng)站首頁在搜索引擎有好的排名误续,更重要的是讓網(wǎng)站的每個頁面都帶來流量。
4畜份、內(nèi)容發(fā)布和鏈接布置爆雹。
搜索引擎喜歡有規(guī)律的網(wǎng)站內(nèi)容更新愕鼓,所以合理安排網(wǎng)站內(nèi)容的發(fā)布日程是SEO的重要技巧之一菇晃。鏈接布置則把整個網(wǎng)站有機地串聯(lián)起來磺送,讓搜索引擎明白每個網(wǎng)頁的重要性和關(guān)鍵詞灿意,實施的參考是第一點的關(guān)鍵詞布置缤剧。友情鏈接戰(zhàn)役也是這個時候展開荒辕。
5抵窒、與搜索引擎對話
在搜索引擎看SEO的效果李皇,通過site:你的域名疙赠,知道站點的收錄和更新情況朦拖。更好地實現(xiàn)與搜索引擎對話璧帝,建議采用Google網(wǎng)站管理員工具。
6页徐、網(wǎng)站流量分析
網(wǎng)站流量分析從SEO結(jié)果上指導(dǎo)下一步的SEO策略,同時對網(wǎng)站的用戶體驗優(yōu)化也有指導(dǎo)意義恤左。流量分析工具建議采用Google流量分析飞袋。
二)搜索引擎的組成:
1巧鸭、抓取網(wǎng)頁系統(tǒng):
--探測系統(tǒng):蜘蛛麻捻。
蜘蛛在互聯(lián)網(wǎng)上爬行時探測到網(wǎng)站的URL纲仍。
--下載系統(tǒng)
把URL所指向的頁面利用下載系統(tǒng)下載到搜索引擎的服務(wù)器上呀袱,然后將頁面交給數(shù)據(jù)分析系統(tǒng)。
2郑叠、數(shù)據(jù)分析系統(tǒng)
--數(shù)據(jù)分析系統(tǒng):當(dāng)數(shù)據(jù)分析系統(tǒng)從抓取網(wǎng)頁系統(tǒng)那獲取到被下載的頁面夜赵,首先進行數(shù)據(jù)分析去除不相關(guān)的文字或網(wǎng)站重復(fù)內(nèi)容。
--數(shù)據(jù)處理系統(tǒng):
進行頁面文字處理锻拘,然后對處理后的頁面內(nèi)容進行判斷油吭,是否達到收錄標(biāo)準(zhǔn)。達到交給存儲系統(tǒng)署拟,沒有達到刪除婉宰。
3、存儲數(shù)據(jù)系統(tǒng)
將收錄的頁面進行保存心包,然后定時檢查存儲的頁面是否有更新。
4娃殖、緩存系統(tǒng)
存儲搜索引擎認為高價值的內(nèi)容卧晓。當(dāng)用戶搜索某個關(guān)鍵詞時經(jīng)秤羯裕看到收錄量有幾千萬,但搜索引擎顯示的只有1000條封寞,這也就是說只有1000條被放在了緩存系統(tǒng)上,用戶可以最快速地查找到他們想要的內(nèi)容。
5、展示系統(tǒng)
用戶搜索返回到顯示器上的信息竟趾。
三)搜索引擎收錄原理(簡單過程):
1、找到網(wǎng)站的URL并下載頁面。
2贾费、判斷頁面質(zhì)量是否達到收錄標(biāo)準(zhǔn)导犹,是則收錄頁面波丰,否則刪除爽蝴。
3先馆、判斷收錄頁面是否更新梅惯,更新頁面快照她君。
四)搜索引擎收錄頁面的詳細過程(網(wǎng)絡(luò)爬蟲的基本工作流程)
①蜘蛛在整個互聯(lián)網(wǎng)上爬行遇到一個URL。
②提取URL,根據(jù)網(wǎng)站權(quán)重和相關(guān)性插入到URL隊列中肝箱。
③對URL解析DNS退客。
④如果無法解析DNS,則把URL加入到URL隊列中。解釋成功則進入下一步凉当。
⑤分析URL內(nèi)容挟伙。
蜘蛛先去尋找你網(wǎng)站的robots文件瓜贾,根據(jù)你網(wǎng)站的robots規(guī)則判斷是否抓取你這個頁面龟劲。
若robots文件不存在蚕愤,則會返回一個404錯誤裕坊。搜索引擎會繼續(xù)抓取你的網(wǎng)站內(nèi)容饵蒂。
⑥判斷網(wǎng)頁是否達到收錄標(biāo)準(zhǔn)得问,如果不符合則把URL加入到URL隊列中膏萧。如果符合收錄標(biāo)準(zhǔn)就下載網(wǎng)頁內(nèi)容孤个。
⑦當(dāng)搜索引擎拿到下載網(wǎng)頁內(nèi)容后给郊,會提取頁面上的URL,繼續(xù)把URL加入到URL隊列中炭庙。然后把頁面數(shù)據(jù)擦盾,進一步分析腐碱。
⑧判斷網(wǎng)頁內(nèi)容是否達到收錄標(biāo)準(zhǔn)谋作,如果達到收錄標(biāo)準(zhǔn)睡汹,則把頁面提交到數(shù)據(jù)庫文兢,存儲到云數(shù)據(jù)存儲硬盤中。如果不符合標(biāo)準(zhǔn),則刪除。
⑨當(dāng)用戶搜索某個關(guān)鍵詞時循衰,搜索引擎為了減少查詢時間先鱼,將一部分相關(guān)性比較高的內(nèi)容放到臨時緩存區(qū)。
⑩瀏覽器只將緩存中的一部分顯示給用戶。
?存儲在硬盤中的頁面,搜索引擎會根據(jù)網(wǎng)站權(quán)重定時判斷頁面是否更新,是否達到了放入緩存區(qū)的標(biāo)準(zhǔn)哺窄,如果搜索引擎在判斷是否有更新的同時發(fā)現(xiàn)網(wǎng)站頁面被刪除婴程,或網(wǎng)頁達不到被收錄的標(biāo)準(zhǔn)也會被刪除。
參考文獻:
搜索引擎優(yōu)化的原理是什么
SEO從業(yè)者必須了解的搜索引擎工作原理
二窍育、網(wǎng)絡(luò)爬蟲瞬逊。
一)從爬蟲角度對互聯(lián)網(wǎng)進行劃分
可以將互聯(lián)網(wǎng)的所有網(wǎng)頁分為五個部分:
1旨巷、已下載未過期網(wǎng)頁
2拴清、已下載已過期網(wǎng)頁
抓取到的網(wǎng)頁實際上是互聯(lián)網(wǎng)內(nèi)容的一個鏡像和備份,互聯(lián)網(wǎng)是動態(tài)變化的端三,一部分互聯(lián)網(wǎng)上的內(nèi)容已經(jīng)發(fā)生了變化育拨,這時候抓取到的網(wǎng)頁就已經(jīng)過期了害捕。
3倘待、待下載網(wǎng)頁
待抓取URL隊列中的那些頁面
4、可知頁面
還沒有抓取下來庄新,也沒有在待抓取的URL隊列中,但是可以通過對已抓取頁面或者待抓取URL對應(yīng)頁面進行分析獲取到URL纱注,認為是可知網(wǎng)頁勉盅。
5簿透、不可知網(wǎng)頁
爬蟲無法直接抓取下載的。
二)爬蟲的抓取策略
1廷粒、深度優(yōu)先策略
深度優(yōu)先遍歷策略是指網(wǎng)絡(luò)爬蟲會從起始頁開始斤吐,一個鏈接一個鏈接跟蹤下去诬留,處理完這條線路之后再轉(zhuǎn)入下一個起始頁籍铁,繼續(xù)跟蹤鏈接隔嫡。我們以下面的圖為例, 遍歷的路徑:A-F-G E-H-I B C D全释。
2、廣度優(yōu)先遍歷策略
廣度優(yōu)先遍歷策略的基本思路是辩撑,將新下載網(wǎng)頁中發(fā)現(xiàn)的鏈接直接插入待抓取URL隊列的末尾项贺。也就是指網(wǎng)絡(luò)爬蟲會先抓取起始網(wǎng)頁中鏈接的所有網(wǎng)頁,然后再選擇其中的一個鏈接網(wǎng)頁,繼續(xù)抓取在此網(wǎng)頁中鏈接的所有網(wǎng)頁。還是以上面的圖為例谨设,遍歷路徑:A-B-C-D-E-F G H I
3二蓝、反向鏈接數(shù)策略
反向鏈接數(shù)是指一個網(wǎng)頁被其他網(wǎng)頁鏈接指向的數(shù)量衙传。反向鏈接數(shù)表示的是一個網(wǎng)頁的內(nèi)容受到其他人的推薦的程度谷羞。因此,很多時候搜索引擎的抓取系統(tǒng)會使用這個指標(biāo)來評價網(wǎng)頁的重要程度溜徙,從而決定不同網(wǎng)頁的抓取先后順序湃缎。
在真實的網(wǎng)絡(luò)環(huán)境中,由于廣告鏈接蠢壹、作弊鏈接的存在嗓违,反向鏈接數(shù)不能完全等于重要程度。因此图贸,搜索引擎往往考慮一些可靠的反向鏈接數(shù)蹂季。
4、Partial PageRank策略
Partial PageRank算法借鑒了PageRank算法的思想:對于已經(jīng)下載的網(wǎng)頁疏日,連同待抓取URL隊列中的URL偿洁,形成網(wǎng)頁集合,計算每個頁面的PageRank值制恍,計算完之后父能,將待抓取URL隊列中的URL按照PageRank值的大小排列神凑,并按照該順序抓取頁面净神。
如果每次抓取一個頁面,就重新計算PageRank值溉委,一種折中方案是:每抓取K個頁面后鹃唯,重新計算一次PageRank值。但是這種情況還會有一個問題:對于已經(jīng)下載下來的頁面中分析出的鏈接瓣喊,也就是我們之前提到的未知網(wǎng)頁那一部分坡慌,暫時是沒有PageRank值的。為了解決這個問題藻三,會給這些頁面一個臨時的PageRank值:將這個網(wǎng)頁所有入鏈傳遞進來的PageRank值進行匯總洪橘,這樣就形成了該未知頁面的PageRank值,從而參與排序棵帽。
5熄求、OPIC策略
該算法實際上也是對頁面進行一個重要性打分。在算法開始前逗概,給所有頁面一個相同的初始現(xiàn)金(cash)弟晚。當(dāng)下載了某個頁面P之后,將P的現(xiàn)金分攤給所有從P中分析出的鏈接,并且將P的現(xiàn)金清空卿城。對于待抓取URL隊列中的所有頁面按照現(xiàn)金數(shù)進行排序枚钓。
6、大站優(yōu)先策略
對于待抓取URL隊列中的所有網(wǎng)頁瑟押,根據(jù)所屬的網(wǎng)站進行分類搀捷。對于待下載頁面數(shù)多的網(wǎng)站,優(yōu)先下載多望。這個策略也因此叫做大站優(yōu)先策略指煎。
參考文獻:
網(wǎng)絡(luò)爬蟲基本原理(一)