搜索引擎面試題(一)

一膘魄、seo搜索引擎優(yōu)化。

一)SEO的六個環(huán)節(jié):
1浙踢、關(guān)鍵詞分析(也叫關(guān)鍵詞定位)
這是進行SEO最重要的一環(huán)洛波,關(guān)鍵詞分析包括:
①關(guān)鍵詞關(guān)注量分析
②競爭對手分析
③關(guān)鍵詞與網(wǎng)站相關(guān)性分析
④關(guān)鍵詞布置
⑤關(guān)鍵詞排名預(yù)測
2骚露、網(wǎng)站架構(gòu)分析
網(wǎng)站結(jié)構(gòu)符合搜索引擎的爬蟲喜好則有利于SEO。網(wǎng)站架構(gòu)分析包括:
①剔除網(wǎng)站架構(gòu)不良設(shè)計
②實現(xiàn)樹狀目錄結(jié)構(gòu)
③網(wǎng)站導(dǎo)航與鏈接優(yōu)化
3焰扳、網(wǎng)站目錄和頁面優(yōu)化
SEO不止是讓網(wǎng)站首頁在搜索引擎有好的排名误续,更重要的是讓網(wǎng)站的每個頁面都帶來流量。
4畜份、內(nèi)容發(fā)布和鏈接布置爆雹。
搜索引擎喜歡有規(guī)律的網(wǎng)站內(nèi)容更新愕鼓,所以合理安排網(wǎng)站內(nèi)容的發(fā)布日程是SEO的重要技巧之一菇晃。鏈接布置則把整個網(wǎng)站有機地串聯(lián)起來磺送,讓搜索引擎明白每個網(wǎng)頁的重要性和關(guān)鍵詞灿意,實施的參考是第一點的關(guān)鍵詞布置缤剧。友情鏈接戰(zhàn)役也是這個時候展開荒辕。
5抵窒、與搜索引擎對話
在搜索引擎看SEO的效果李皇,通過site:你的域名疙赠,知道站點的收錄和更新情況朦拖。更好地實現(xiàn)與搜索引擎對話璧帝,建議采用Google網(wǎng)站管理員工具。
6页徐、網(wǎng)站流量分析
網(wǎng)站流量分析從SEO結(jié)果上指導(dǎo)下一步的SEO策略,同時對網(wǎng)站的用戶體驗優(yōu)化也有指導(dǎo)意義恤左。流量分析工具建議采用Google流量分析飞袋。


二)搜索引擎的組成:
1巧鸭、抓取網(wǎng)頁系統(tǒng):
--探測系統(tǒng):蜘蛛麻捻。
蜘蛛在互聯(lián)網(wǎng)上爬行時探測到網(wǎng)站的URL纲仍。
--下載系統(tǒng)
把URL所指向的頁面利用下載系統(tǒng)下載到搜索引擎的服務(wù)器上呀袱,然后將頁面交給數(shù)據(jù)分析系統(tǒng)。
2郑叠、數(shù)據(jù)分析系統(tǒng)
--數(shù)據(jù)分析系統(tǒng):當(dāng)數(shù)據(jù)分析系統(tǒng)從抓取網(wǎng)頁系統(tǒng)那獲取到被下載的頁面夜赵,首先進行數(shù)據(jù)分析去除不相關(guān)的文字或網(wǎng)站重復(fù)內(nèi)容。
--數(shù)據(jù)處理系統(tǒng):
進行頁面文字處理锻拘,然后對處理后的頁面內(nèi)容進行判斷油吭,是否達到收錄標(biāo)準(zhǔn)。達到交給存儲系統(tǒng)署拟,沒有達到刪除婉宰。
3、存儲數(shù)據(jù)系統(tǒng)
將收錄的頁面進行保存心包,然后定時檢查存儲的頁面是否有更新。
4娃殖、緩存系統(tǒng)
存儲搜索引擎認為高價值的內(nèi)容卧晓。當(dāng)用戶搜索某個關(guān)鍵詞時經(jīng)秤羯裕看到收錄量有幾千萬,但搜索引擎顯示的只有1000條封寞,這也就是說只有1000條被放在了緩存系統(tǒng)上,用戶可以最快速地查找到他們想要的內(nèi)容。
5、展示系統(tǒng)
用戶搜索返回到顯示器上的信息竟趾。

三)搜索引擎收錄原理(簡單過程):
1、找到網(wǎng)站的URL并下載頁面。
2贾费、判斷頁面質(zhì)量是否達到收錄標(biāo)準(zhǔn)导犹,是則收錄頁面波丰,否則刪除爽蝴。
3先馆、判斷收錄頁面是否更新梅惯,更新頁面快照她君。

四)搜索引擎收錄頁面的詳細過程(網(wǎng)絡(luò)爬蟲的基本工作流程)


①蜘蛛在整個互聯(lián)網(wǎng)上爬行遇到一個URL。
②提取URL,根據(jù)網(wǎng)站權(quán)重和相關(guān)性插入到URL隊列中肝箱。
③對URL解析DNS退客。
④如果無法解析DNS,則把URL加入到URL隊列中。解釋成功則進入下一步凉当。
⑤分析URL內(nèi)容挟伙。
蜘蛛先去尋找你網(wǎng)站的robots文件瓜贾,根據(jù)你網(wǎng)站的robots規(guī)則判斷是否抓取你這個頁面龟劲。
若robots文件不存在蚕愤,則會返回一個404錯誤裕坊。搜索引擎會繼續(xù)抓取你的網(wǎng)站內(nèi)容饵蒂。
⑥判斷網(wǎng)頁是否達到收錄標(biāo)準(zhǔn)得问,如果不符合則把URL加入到URL隊列中膏萧。如果符合收錄標(biāo)準(zhǔn)就下載網(wǎng)頁內(nèi)容孤个。
⑦當(dāng)搜索引擎拿到下載網(wǎng)頁內(nèi)容后给郊,會提取頁面上的URL,繼續(xù)把URL加入到URL隊列中炭庙。然后把頁面數(shù)據(jù)擦盾,進一步分析腐碱。
⑧判斷網(wǎng)頁內(nèi)容是否達到收錄標(biāo)準(zhǔn)谋作,如果達到收錄標(biāo)準(zhǔn)睡汹,則把頁面提交到數(shù)據(jù)庫文兢,存儲到云數(shù)據(jù)存儲硬盤中。如果不符合標(biāo)準(zhǔn),則刪除。
⑨當(dāng)用戶搜索某個關(guān)鍵詞時循衰,搜索引擎為了減少查詢時間先鱼,將一部分相關(guān)性比較高的內(nèi)容放到臨時緩存區(qū)。
⑩瀏覽器只將緩存中的一部分顯示給用戶。
?存儲在硬盤中的頁面,搜索引擎會根據(jù)網(wǎng)站權(quán)重定時判斷頁面是否更新,是否達到了放入緩存區(qū)的標(biāo)準(zhǔn)哺窄,如果搜索引擎在判斷是否有更新的同時發(fā)現(xiàn)網(wǎng)站頁面被刪除婴程,或網(wǎng)頁達不到被收錄的標(biāo)準(zhǔn)也會被刪除。

參考文獻:
搜索引擎優(yōu)化的原理是什么
SEO從業(yè)者必須了解的搜索引擎工作原理

二窍育、網(wǎng)絡(luò)爬蟲瞬逊。


一)從爬蟲角度對互聯(lián)網(wǎng)進行劃分
可以將互聯(lián)網(wǎng)的所有網(wǎng)頁分為五個部分:
1旨巷、已下載未過期網(wǎng)頁
2拴清、已下載已過期網(wǎng)頁
抓取到的網(wǎng)頁實際上是互聯(lián)網(wǎng)內(nèi)容的一個鏡像和備份,互聯(lián)網(wǎng)是動態(tài)變化的端三,一部分互聯(lián)網(wǎng)上的內(nèi)容已經(jīng)發(fā)生了變化育拨,這時候抓取到的網(wǎng)頁就已經(jīng)過期了害捕。
3倘待、待下載網(wǎng)頁
待抓取URL隊列中的那些頁面
4、可知頁面
還沒有抓取下來庄新,也沒有在待抓取的URL隊列中,但是可以通過對已抓取頁面或者待抓取URL對應(yīng)頁面進行分析獲取到URL纱注,認為是可知網(wǎng)頁勉盅。
5簿透、不可知網(wǎng)頁
爬蟲無法直接抓取下載的。
二)爬蟲的抓取策略
1廷粒、深度優(yōu)先策略
深度優(yōu)先遍歷策略是指網(wǎng)絡(luò)爬蟲會從起始頁開始斤吐,一個鏈接一個鏈接跟蹤下去诬留,處理完這條線路之后再轉(zhuǎn)入下一個起始頁籍铁,繼續(xù)跟蹤鏈接隔嫡。我們以下面的圖為例, 遍歷的路徑:A-F-G E-H-I B C D全释。


2、廣度優(yōu)先遍歷策略
廣度優(yōu)先遍歷策略的基本思路是辩撑,將新下載網(wǎng)頁中發(fā)現(xiàn)的鏈接直接插入待抓取URL隊列的末尾项贺。也就是指網(wǎng)絡(luò)爬蟲會先抓取起始網(wǎng)頁中鏈接的所有網(wǎng)頁,然后再選擇其中的一個鏈接網(wǎng)頁,繼續(xù)抓取在此網(wǎng)頁中鏈接的所有網(wǎng)頁。還是以上面的圖為例谨设,遍歷路徑:A-B-C-D-E-F G H I
3二蓝、反向鏈接數(shù)策略
反向鏈接數(shù)是指一個網(wǎng)頁被其他網(wǎng)頁鏈接指向的數(shù)量衙传。反向鏈接數(shù)表示的是一個網(wǎng)頁的內(nèi)容受到其他人的推薦的程度谷羞。因此,很多時候搜索引擎的抓取系統(tǒng)會使用這個指標(biāo)來評價網(wǎng)頁的重要程度溜徙,從而決定不同網(wǎng)頁的抓取先后順序湃缎。

在真實的網(wǎng)絡(luò)環(huán)境中,由于廣告鏈接蠢壹、作弊鏈接的存在嗓违,反向鏈接數(shù)不能完全等于重要程度。因此图贸,搜索引擎往往考慮一些可靠的反向鏈接數(shù)蹂季。

4、Partial PageRank策略
Partial PageRank算法借鑒了PageRank算法的思想:對于已經(jīng)下載的網(wǎng)頁疏日,連同待抓取URL隊列中的URL偿洁,形成網(wǎng)頁集合,計算每個頁面的PageRank值制恍,計算完之后父能,將待抓取URL隊列中的URL按照PageRank值的大小排列神凑,并按照該順序抓取頁面净神。

如果每次抓取一個頁面,就重新計算PageRank值溉委,一種折中方案是:每抓取K個頁面后鹃唯,重新計算一次PageRank值。但是這種情況還會有一個問題:對于已經(jīng)下載下來的頁面中分析出的鏈接瓣喊,也就是我們之前提到的未知網(wǎng)頁那一部分坡慌,暫時是沒有PageRank值的。為了解決這個問題藻三,會給這些頁面一個臨時的PageRank值:將這個網(wǎng)頁所有入鏈傳遞進來的PageRank值進行匯總洪橘,這樣就形成了該未知頁面的PageRank值,從而參與排序棵帽。

5熄求、OPIC策略
該算法實際上也是對頁面進行一個重要性打分。在算法開始前逗概,給所有頁面一個相同的初始現(xiàn)金(cash)弟晚。當(dāng)下載了某個頁面P之后,將P的現(xiàn)金分攤給所有從P中分析出的鏈接,并且將P的現(xiàn)金清空卿城。對于待抓取URL隊列中的所有頁面按照現(xiàn)金數(shù)進行排序枚钓。
6、大站優(yōu)先策略
對于待抓取URL隊列中的所有網(wǎng)頁瑟押,根據(jù)所屬的網(wǎng)站進行分類搀捷。對于待下載頁面數(shù)多的網(wǎng)站,優(yōu)先下載多望。這個策略也因此叫做大站優(yōu)先策略指煎。
參考文獻:
網(wǎng)絡(luò)爬蟲基本原理(一)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市便斥,隨后出現(xiàn)的幾起案子至壤,更是在濱河造成了極大的恐慌,老刑警劉巖枢纠,帶你破解...
    沈念sama閱讀 218,204評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件像街,死亡現(xiàn)場離奇詭異,居然都是意外死亡晋渺,警方通過查閱死者的電腦和手機镰绎,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,091評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來木西,“玉大人畴栖,你說我怎么就攤上這事“饲В” “怎么了吗讶?”我有些...
    開封第一講書人閱讀 164,548評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長恋捆。 經(jīng)常有香客問我照皆,道長,這世上最難降的妖魔是什么沸停? 我笑而不...
    開封第一講書人閱讀 58,657評論 1 293
  • 正文 為了忘掉前任膜毁,我火速辦了婚禮,結(jié)果婚禮上愤钾,老公的妹妹穿的比我還像新娘瘟滨。我一直安慰自己,他們只是感情好能颁,可當(dāng)我...
    茶點故事閱讀 67,689評論 6 392
  • 文/花漫 我一把揭開白布杂瘸。 她就那樣靜靜地躺著,像睡著了一般劲装。 火紅的嫁衣襯著肌膚如雪胧沫。 梳的紋絲不亂的頭發(fā)上昌简,一...
    開封第一講書人閱讀 51,554評論 1 305
  • 那天,我揣著相機與錄音绒怨,去河邊找鬼纯赎。 笑死,一個胖子當(dāng)著我的面吹牛南蹂,可吹牛的內(nèi)容都是我干的犬金。 我是一名探鬼主播,決...
    沈念sama閱讀 40,302評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼六剥,長吁一口氣:“原來是場噩夢啊……” “哼晚顷!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起疗疟,我...
    開封第一講書人閱讀 39,216評論 0 276
  • 序言:老撾萬榮一對情侶失蹤该默,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后策彤,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體栓袖,經(jīng)...
    沈念sama閱讀 45,661評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,851評論 3 336
  • 正文 我和宋清朗相戀三年店诗,在試婚紗的時候發(fā)現(xiàn)自己被綠了裹刮。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,977評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡庞瘸,死狀恐怖捧弃,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情擦囊,我是刑警寧澤违霞,帶...
    沈念sama閱讀 35,697評論 5 347
  • 正文 年R本政府宣布,位于F島的核電站霜第,受9級特大地震影響葛家,放射性物質(zhì)發(fā)生泄漏户辞。R本人自食惡果不足惜泌类,卻給世界環(huán)境...
    茶點故事閱讀 41,306評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望底燎。 院中可真熱鬧刃榨,春花似錦、人聲如沸双仍。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,898評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽朱沃。三九已至苞轿,卻和暖如春茅诱,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背搬卒。 一陣腳步聲響...
    開封第一講書人閱讀 33,019評論 1 270
  • 我被黑心中介騙來泰國打工瑟俭, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人契邀。 一個月前我還...
    沈念sama閱讀 48,138評論 3 370
  • 正文 我出身青樓摆寄,卻偏偏與公主長得像,于是被迫代替她去往敵國和親坯门。 傳聞我的和親對象是個殘疾皇子微饥,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,927評論 2 355

推薦閱讀更多精彩內(nèi)容