本章主要介紹SEO優(yōu)化工作中二打,在網(wǎng)絡(luò)爬蟲方面需要了解的工作。
本文版權(quán)由“ 北朔潛龍 ”所有掂榔,僅供學(xué)習(xí)使用继效,請勿轉(zhuǎn)載或用于商業(yè)用途症杏。
六、爬蟲
? 1莲趣、爬蟲定義
? ? ? ? 網(wǎng)絡(luò)爬蟲(也叫網(wǎng)絡(luò)蜘蛛)是一種自動(dòng)獲取內(nèi)頁內(nèi)容的程序鸳慈,爬蟲抓取的頁面將會被搜索引擎系統(tǒng)儲存,進(jìn)行一定的分析喧伞、過濾走芋、并建立索引,以便之后的用戶能夠查詢到這個(gè)頁面潘鲫,這個(gè)獲取就是爬蟲翁逞。
? 2、爬蟲與搜索引擎的關(guān)系
? ? ? ? 爬蟲為搜索收集內(nèi)容溉仑,搜索引擎展示的內(nèi)容大部分是爬蟲收集的挖函。
? 3、工作流程
? ? ? ? 爬蟲通過漫游的形式進(jìn)行抓取浊竟,爬蟲爬到一個(gè)頁面后怨喘,看到一個(gè)鏈接,然后順著那個(gè)鏈接又爬到另一個(gè)頁面振定,爬蟲是不停的從一個(gè)頁面跳到另一個(gè)頁面必怜,它一邊下載這個(gè)網(wǎng)頁,一邊提取這個(gè)網(wǎng)頁中的鏈接后频,那個(gè)頁面上所有的鏈接都放在一個(gè)待抓取表里梳庆,而且爬蟲有個(gè)特點(diǎn),就是他在訪問你網(wǎng)站之前卑惜,不去判斷你這個(gè)網(wǎng)頁怎么樣膏执,不對網(wǎng)頁內(nèi)容判斷就抓取,但是會有優(yōu)先級的劃分露久,盡可能不抓取反復(fù)內(nèi)容更米,盡量抓取網(wǎng)站的重要內(nèi)容(比如網(wǎng)站的公共部分)搜索引擎同時(shí)會分裂出多個(gè)爬蟲進(jìn)行多線程的抓取,所有被爬蟲抓取的網(wǎng)頁將會被系統(tǒng)儲存毫痕,進(jìn)行一定的分析壳快,過濾(去重)并建立索引,以便之后的查詢和檢索镇草。
? ? ? ? 分類:
? ? ? ? ? ? ? ? ? ?百度蜘蛛 ? ? ? ? ?baiduspider
? ? ? ? ? ? ? ? ? ?谷歌爬蟲 ? ? ? ? ?godglebot
? ? ? ? ? ? ? ? ? ?SOSO爬蟲 ? ? ? sosopider
? 4、搜索引擎入口:
? ? ? ? A)做搜索引擎優(yōu)化的第一步就是讓搜索引擎先知道你網(wǎng)站的存在
? ? ? ? B)為了達(dá)到目的瘤旨,向搜索引擎提交您網(wǎng)站被認(rèn)為是網(wǎng)站上線后要做的第一件事
? ? ? ? C)提交的地址就做搜索引擎提交入口
? 5梯啤、Robots
? ? ? ? A)概念
? ? ? ? ? ? ? 搜索引擎使用爬蟲程序自動(dòng)訪問互聯(lián)網(wǎng)上的網(wǎng)頁并獲取網(wǎng)頁信息;爬蟲在訪問一個(gè)網(wǎng)站時(shí)存哲,首先會檢查該網(wǎng)站的根目錄下是否有一個(gè)叫做robots.txt的純文本文件因宇,這個(gè)文件是用于指定爬蟲在網(wǎng)站上的抓取范圍七婴。
? ? ? ? B)robots就是一個(gè)協(xié)議
? ? ? ? ? ? ?您可以在您網(wǎng)站中創(chuàng)建一個(gè)robots.txt,在文件中聲明該網(wǎng)站不想被搜索引擎收錄的部分或者制定搜索引擎只收錄指定的部分察滑,網(wǎng)站通過robots協(xié)議告訴搜索引擎哪些頁面可以抓取打厘,哪些頁面不能抓取。
? ? ? ?C)用法舉例
? ? ? ? ? ? ? ? ?1.禁止所有搜索引擎訪問網(wǎng)站的任何部分
? ? ? ? ? ? ? ? ? ? ?User-agent:*
? ? ? ? ? ? ? ? ? ? ?Disallow://
? ? ? ? ? ? ? ? ? 2.允許所有robot訪問
? ? ? ? ? ? ? ? ? ? ?User-agent:*
? ? ? ? ? ? ? ? ? ? ?Allow://
? ? ? ? ? ? ? ? ? 3.僅禁止gaiduspired訪問您的網(wǎng)站
? ? ? ? ? ? ? ? ? ? ? User-agent:gaiduspider
? ? ? ? ? ? ? ? ? ? ? Disallow://
? ? ? ? ? ? ? ? ?4.工具(百度站長平臺)
? ? ? ? ? ? ? ? ? ? 百度站長平臺—網(wǎng)站分析—robots—生成robots.txt