搜索引擎面試題（一）

一膘魄、seo搜索引擎優(yōu)化。

一）SEO的六個環(huán)節(jié)：
1浙踢、關(guān)鍵詞分析（也叫關(guān)鍵詞定位）
這是進行SEO最重要的一環(huán)洛波，關(guān)鍵詞分析包括：
①關(guān)鍵詞關(guān)注量分析
②競爭對手分析
③關(guān)鍵詞與網(wǎng)站相關(guān)性分析
④關(guān)鍵詞布置
⑤關(guān)鍵詞排名預(yù)測
2骚露、網(wǎng)站架構(gòu)分析
網(wǎng)站結(jié)構(gòu)符合搜索引擎的爬蟲喜好則有利于SEO。網(wǎng)站架構(gòu)分析包括：
①剔除網(wǎng)站架構(gòu)不良設(shè)計
②實現(xiàn)樹狀目錄結(jié)構(gòu)
③網(wǎng)站導(dǎo)航與鏈接優(yōu)化
3焰扳、網(wǎng)站目錄和頁面優(yōu)化
SEO不止是讓網(wǎng)站首頁在搜索引擎有好的排名误续，更重要的是讓網(wǎng)站的每個頁面都帶來流量。
4畜份、內(nèi)容發(fā)布和鏈接布置爆雹。
搜索引擎喜歡有規(guī)律的網(wǎng)站內(nèi)容更新愕鼓，所以合理安排網(wǎng)站內(nèi)容的發(fā)布日程是SEO的重要技巧之一菇晃。鏈接布置則把整個網(wǎng)站有機地串聯(lián)起來磺送，讓搜索引擎明白每個網(wǎng)頁的重要性和關(guān)鍵詞灿意，實施的參考是第一點的關(guān)鍵詞布置缤剧。友情鏈接戰(zhàn)役也是這個時候展開荒辕。
5抵窒、與搜索引擎對話
在搜索引擎看SEO的效果李皇，通過site:你的域名疙赠，知道站點的收錄和更新情況朦拖。更好地實現(xiàn)與搜索引擎對話璧帝，建議采用Google網(wǎng)站管理員工具。
6页徐、網(wǎng)站流量分析
網(wǎng)站流量分析從SEO結(jié)果上指導(dǎo)下一步的SEO策略，同時對網(wǎng)站的用戶體驗優(yōu)化也有指導(dǎo)意義恤左。流量分析工具建議采用Google流量分析飞袋。

二）搜索引擎的組成:
1巧鸭、抓取網(wǎng)頁系統(tǒng)：
--探測系統(tǒng)：蜘蛛麻捻。
蜘蛛在互聯(lián)網(wǎng)上爬行時探測到網(wǎng)站的URL纲仍。
--下載系統(tǒng)
把URL所指向的頁面利用下載系統(tǒng)下載到搜索引擎的服務(wù)器上呀袱，然后將頁面交給數(shù)據(jù)分析系統(tǒng)。
2郑叠、數(shù)據(jù)分析系統(tǒng)
--數(shù)據(jù)分析系統(tǒng)：當(dāng)數(shù)據(jù)分析系統(tǒng)從抓取網(wǎng)頁系統(tǒng)那獲取到被下載的頁面夜赵，首先進行數(shù)據(jù)分析去除不相關(guān)的文字或網(wǎng)站重復(fù)內(nèi)容。
--數(shù)據(jù)處理系統(tǒng)：
進行頁面文字處理锻拘，然后對處理后的頁面內(nèi)容進行判斷油吭，是否達到收錄標(biāo)準(zhǔn)。達到交給存儲系統(tǒng)署拟，沒有達到刪除婉宰。
3、存儲數(shù)據(jù)系統(tǒng)
將收錄的頁面進行保存心包，然后定時檢查存儲的頁面是否有更新。
4娃殖、緩存系統(tǒng)
存儲搜索引擎認為高價值的內(nèi)容卧晓。當(dāng)用戶搜索某個關(guān)鍵詞時經(jīng)秤羯裕看到收錄量有幾千萬，但搜索引擎顯示的只有1000條封寞，這也就是說只有1000條被放在了緩存系統(tǒng)上，用戶可以最快速地查找到他們想要的內(nèi)容。
5、展示系統(tǒng)
用戶搜索返回到顯示器上的信息竟趾。

三）搜索引擎收錄原理（簡單過程）：
1、找到網(wǎng)站的URL并下載頁面。
2贾费、判斷頁面質(zhì)量是否達到收錄標(biāo)準(zhǔn)导犹，是則收錄頁面波丰，否則刪除爽蝴。
3先馆、判斷收錄頁面是否更新梅惯，更新頁面快照她君。

四）搜索引擎收錄頁面的詳細過程（網(wǎng)絡(luò)爬蟲的基本工作流程）

①蜘蛛在整個互聯(lián)網(wǎng)上爬行遇到一個URL。
②提取URL，根據(jù)網(wǎng)站權(quán)重和相關(guān)性插入到URL隊列中肝箱。
③對URL解析DNS退客。
④如果無法解析DNS，則把URL加入到URL隊列中。解釋成功則進入下一步凉当。
⑤分析URL內(nèi)容挟伙。
蜘蛛先去尋找你網(wǎng)站的robots文件瓜贾，根據(jù)你網(wǎng)站的robots規(guī)則判斷是否抓取你這個頁面龟劲。
若robots文件不存在蚕愤，則會返回一個404錯誤裕坊。搜索引擎會繼續(xù)抓取你的網(wǎng)站內(nèi)容饵蒂。
⑥判斷網(wǎng)頁是否達到收錄標(biāo)準(zhǔn)得问，如果不符合則把URL加入到URL隊列中膏萧。如果符合收錄標(biāo)準(zhǔn)就下載網(wǎng)頁內(nèi)容孤个。
⑦當(dāng)搜索引擎拿到下載網(wǎng)頁內(nèi)容后给郊，會提取頁面上的URL,繼續(xù)把URL加入到URL隊列中炭庙。然后把頁面數(shù)據(jù)擦盾，進一步分析腐碱。
⑧判斷網(wǎng)頁內(nèi)容是否達到收錄標(biāo)準(zhǔn)谋作，如果達到收錄標(biāo)準(zhǔn)睡汹，則把頁面提交到數(shù)據(jù)庫文兢，存儲到云數(shù)據(jù)存儲硬盤中。如果不符合標(biāo)準(zhǔn)，則刪除。
⑨當(dāng)用戶搜索某個關(guān)鍵詞時循衰，搜索引擎為了減少查詢時間先鱼，將一部分相關(guān)性比較高的內(nèi)容放到臨時緩存區(qū)。
⑩瀏覽器只將緩存中的一部分顯示給用戶。
?存儲在硬盤中的頁面，搜索引擎會根據(jù)網(wǎng)站權(quán)重定時判斷頁面是否更新，是否達到了放入緩存區(qū)的標(biāo)準(zhǔn)哺窄，如果搜索引擎在判斷是否有更新的同時發(fā)現(xiàn)網(wǎng)站頁面被刪除婴程，或網(wǎng)頁達不到被收錄的標(biāo)準(zhǔn)也會被刪除。

參考文獻：
搜索引擎優(yōu)化的原理是什么
 SEO從業(yè)者必須了解的搜索引擎工作原理

二窍育、網(wǎng)絡(luò)爬蟲瞬逊。

一）從爬蟲角度對互聯(lián)網(wǎng)進行劃分
可以將互聯(lián)網(wǎng)的所有網(wǎng)頁分為五個部分：
1旨巷、已下載未過期網(wǎng)頁
2拴清、已下載已過期網(wǎng)頁
抓取到的網(wǎng)頁實際上是互聯(lián)網(wǎng)內(nèi)容的一個鏡像和備份，互聯(lián)網(wǎng)是動態(tài)變化的端三，一部分互聯(lián)網(wǎng)上的內(nèi)容已經(jīng)發(fā)生了變化育拨，這時候抓取到的網(wǎng)頁就已經(jīng)過期了害捕。
3倘待、待下載網(wǎng)頁
待抓取URL隊列中的那些頁面
4、可知頁面
還沒有抓取下來庄新，也沒有在待抓取的URL隊列中，但是可以通過對已抓取頁面或者待抓取URL對應(yīng)頁面進行分析獲取到URL纱注，認為是可知網(wǎng)頁勉盅。
5簿透、不可知網(wǎng)頁
爬蟲無法直接抓取下載的。
二）爬蟲的抓取策略
1廷粒、深度優(yōu)先策略
深度優(yōu)先遍歷策略是指網(wǎng)絡(luò)爬蟲會從起始頁開始斤吐，一個鏈接一個鏈接跟蹤下去诬留，處理完這條線路之后再轉(zhuǎn)入下一個起始頁籍铁，繼續(xù)跟蹤鏈接隔嫡。我們以下面的圖為例，遍歷的路徑：A-F-G E-H-I B C D全释。

2、廣度優(yōu)先遍歷策略
廣度優(yōu)先遍歷策略的基本思路是辩撑，將新下載網(wǎng)頁中發(fā)現(xiàn)的鏈接直接插入待抓取URL隊列的末尾项贺。也就是指網(wǎng)絡(luò)爬蟲會先抓取起始網(wǎng)頁中鏈接的所有網(wǎng)頁，然后再選擇其中的一個鏈接網(wǎng)頁，繼續(xù)抓取在此網(wǎng)頁中鏈接的所有網(wǎng)頁。還是以上面的圖為例谨设，遍歷路徑：A-B-C-D-E-F G H I
3二蓝、反向鏈接數(shù)策略
反向鏈接數(shù)是指一個網(wǎng)頁被其他網(wǎng)頁鏈接指向的數(shù)量衙传。反向鏈接數(shù)表示的是一個網(wǎng)頁的內(nèi)容受到其他人的推薦的程度谷羞。因此，很多時候搜索引擎的抓取系統(tǒng)會使用這個指標(biāo)來評價網(wǎng)頁的重要程度溜徙，從而決定不同網(wǎng)頁的抓取先后順序湃缎。

在真實的網(wǎng)絡(luò)環(huán)境中，由于廣告鏈接蠢壹、作弊鏈接的存在嗓违，反向鏈接數(shù)不能完全等于重要程度。因此图贸，搜索引擎往往考慮一些可靠的反向鏈接數(shù)蹂季。

4、Partial PageRank策略
Partial PageRank算法借鑒了PageRank算法的思想：對于已經(jīng)下載的網(wǎng)頁疏日，連同待抓取URL隊列中的URL偿洁，形成網(wǎng)頁集合，計算每個頁面的PageRank值制恍，計算完之后父能，將待抓取URL隊列中的URL按照PageRank值的大小排列神凑，并按照該順序抓取頁面净神。

如果每次抓取一個頁面，就重新計算PageRank值溉委，一種折中方案是：每抓取K個頁面后鹃唯，重新計算一次PageRank值。但是這種情況還會有一個問題：對于已經(jīng)下載下來的頁面中分析出的鏈接瓣喊，也就是我們之前提到的未知網(wǎng)頁那一部分坡慌，暫時是沒有PageRank值的。為了解決這個問題藻三，會給這些頁面一個臨時的PageRank值：將這個網(wǎng)頁所有入鏈傳遞進來的PageRank值進行匯總洪橘，這樣就形成了該未知頁面的PageRank值，從而參與排序棵帽。

5熄求、OPIC策略
該算法實際上也是對頁面進行一個重要性打分。在算法開始前逗概，給所有頁面一個相同的初始現(xiàn)金（cash）弟晚。當(dāng)下載了某個頁面P之后，將P的現(xiàn)金分攤給所有從P中分析出的鏈接，并且將P的現(xiàn)金清空卿城。對于待抓取URL隊列中的所有頁面按照現(xiàn)金數(shù)進行排序枚钓。
6、大站優(yōu)先策略
對于待抓取URL隊列中的所有網(wǎng)頁瑟押，根據(jù)所屬的網(wǎng)站進行分類搀捷。對于待下載頁面數(shù)多的網(wǎng)站，優(yōu)先下載多望。這個策略也因此叫做大站優(yōu)先策略指煎。
參考文獻：
網(wǎng)絡(luò)爬蟲基本原理(一)

最后編輯于：2017.12.11 05:12:15

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市便斥，隨后出現(xiàn)的幾起案子至壤，更是在濱河造成了極大的恐慌，老刑警劉巖枢纠，帶你破解...
沈念sama閱讀 218,204評論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件像街，死亡現(xiàn)場離奇詭異，居然都是意外死亡晋渺，警方通過查閱死者的電腦和手機镰绎，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,091評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來木西，“玉大人畴栖，你說我怎么就攤上這事“饲В” “怎么了吗讶？”我有些...
開封第一講書人閱讀 164,548評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長恋捆。經(jīng)常有香客問我照皆，道長，這世上最難降的妖魔是什么沸停？我笑而不...
開封第一講書人閱讀 58,657評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任膜毁，我火速辦了婚禮，結(jié)果婚禮上愤钾，老公的妹妹穿的比我還像新娘瘟滨。我一直安慰自己，他們只是感情好能颁，可當(dāng)我...
茶點故事閱讀 67,689評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布杂瘸。她就那樣靜靜地躺著，像睡著了一般劲装。火紅的嫁衣襯著肌膚如雪胧沫。梳的紋絲不亂的頭發(fā)上昌简，一...
開封第一講書人閱讀 51,554評論 1贊 305
城市分裂傳說
那天，我揣著相機與錄音绒怨，去河邊找鬼纯赎。笑死，一個胖子當(dāng)著我的面吹牛南蹂，可吹牛的內(nèi)容都是我干的犬金。我是一名探鬼主播，決...
沈念sama閱讀 40,302評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼六剥，長吁一口氣：“原來是場噩夢啊……” “哼晚顷！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起疗疟，我...
開封第一講書人閱讀 39,216評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤该默，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后策彤，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體栓袖，經(jīng)...
沈念sama閱讀 45,661評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,851評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年店诗，在試婚紗的時候發(fā)現(xiàn)自己被綠了裹刮。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 39,977評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡庞瘸，死狀恐怖捧弃，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情擦囊，我是刑警寧澤违霞，帶...
沈念sama閱讀 35,697評論 5贊 347
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站霜第，受9級特大地震影響葛家，放射性物質(zhì)發(fā)生泄漏户辞。R本人自食惡果不足惜泌类，卻給世界環(huán)境...
茶點故事閱讀 41,306評論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望底燎。院中可真熱鬧刃榨，春花似錦、人聲如沸双仍。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,898評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽朱沃。三九已至苞轿，卻和暖如春茅诱，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背搬卒。一陣腳步聲響...
開封第一講書人閱讀 33,019評論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工瑟俭，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人契邀。一個月前我還...
沈念sama閱讀 48,138評論 3贊 370
代替公主和親
正文我出身青樓摆寄，卻偏偏與公主長得像，于是被迫代替她去往敵國和親坯门。傳聞我的和親對象是個殘疾皇子微饥，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,927評論 2贊 355

搜索引擎面試題（一）

一膘魄、seo搜索引擎優(yōu)化。

二窍育、網(wǎng)絡(luò)爬蟲瞬逊。

推薦閱讀更多精彩內(nèi)容