html語(yǔ)義化取劫,SEO的原理匆笤,什么是爬蟲、怎么去寫一個(gè)爬蟲

1?? html語(yǔ)義化:

根據(jù)內(nèi)容的結(jié)構(gòu)化(內(nèi)容語(yǔ)義化)谱邪,選擇合適的標(biāo)簽(代碼語(yǔ)義化)便于開發(fā)者閱讀和寫出更優(yōu)雅的代碼的同時(shí)讓瀏覽器的爬蟲和機(jī)器很好地解析炮捧。

<1>為什么要語(yǔ)義化?

為了在沒(méi)有CSS的情況下惦银,頁(yè)面也能呈現(xiàn)出很好地內(nèi)容結(jié)構(gòu)咆课、代碼結(jié)構(gòu):為了裸奔時(shí)好看;

用戶體驗(yàn):例如title扯俱、alt用于解釋名詞或解釋圖片信息书蚪、label標(biāo)簽的活用;

有利于SEO:和搜索引擎建立良好溝通蘸吓,有助于爬蟲抓取更多的有效信息:爬蟲依賴于標(biāo)簽來(lái)確定上下文和各個(gè)關(guān)鍵字的權(quán)重善炫;

方便其他設(shè)備解析(如屏幕閱讀器、盲人閱讀器库继、移動(dòng)設(shè)備)以意義的方式來(lái)渲染網(wǎng)頁(yè)箩艺;

便于團(tuán)隊(duì)開發(fā)和維護(hù)窜醉,語(yǔ)義化更具可讀性,遵循W3C標(biāo)準(zhǔn)的團(tuán)隊(duì)都遵循這個(gè)標(biāo)準(zhǔn)艺谆,可以減少差異化榨惰。

<2>寫HTML代碼時(shí)應(yīng)注意什么?

盡可能少的使用無(wú)語(yǔ)義的標(biāo)簽div和span静汤;

在語(yǔ)義不明顯時(shí)琅催,既可以使用div或者p時(shí),盡量用p, 因?yàn)閜在默認(rèn)情況下有上下間距虫给,對(duì)兼容特殊終端有利藤抡;

不要使用純樣式標(biāo)簽,如:b抹估、font缠黍、u等,改用css設(shè)置药蜻。

需要強(qiáng)調(diào)的文本瓷式,可以包含在strong或者em標(biāo)簽中(瀏覽器預(yù)設(shè)樣式,能用CSS指定就不用他們)语泽,strong默認(rèn)樣式是加粗(不要用b)贸典,em是斜體(不用i);

使用表格時(shí)踱卵,標(biāo)題要用caption廊驼,表頭用thead,主體部分用tbody包圍惋砂,尾部用tfoot包圍蔬充。表頭和一般單元格要區(qū)分開,表頭用th班利,單元格用td饥漫;

表單域要用fieldset標(biāo)簽包起來(lái),并用legend標(biāo)簽說(shuō)明表單的用途罗标;

每個(gè)input標(biāo)簽對(duì)應(yīng)的說(shuō)明文本都需要使用label標(biāo)簽庸队,并且通過(guò)為input設(shè)置id屬性,在lable標(biāo)簽中設(shè)置for=someld來(lái)讓說(shuō)明文本和相對(duì)應(yīng)的input關(guān)聯(lián)起來(lái)闯割。

<3>HTML5新增了哪些語(yǔ)義標(biāo)簽

在HTML 5出來(lái)之前彻消,我們用div來(lái)表示頁(yè)面章節(jié),但是這些div都沒(méi)有實(shí)際意義宙拉。(即使我們用css樣式的id和class形容這塊內(nèi)容的意義)宾尚。這些標(biāo)簽只是我們提供給瀏覽器的指令,只是定義一個(gè)網(wǎng)頁(yè)的某些部分。但現(xiàn)在煌贴,那些之前沒(méi)“意義”的標(biāo)簽因?yàn)橐驗(yàn)閔tml5的出現(xiàn)消失了御板,這就是我們平時(shí)說(shuō)的“語(yǔ)義”。

1,header 元素代表“網(wǎng)頁(yè)”或“section”的頁(yè)眉牛郑。通常包含h1-h6元素或hgroup怠肋,作為整個(gè)頁(yè)面或者一個(gè)內(nèi)容塊的標(biāo)題。也可以包裹一節(jié)的目錄部分淹朋,一個(gè)搜索框笙各,一個(gè)nav,或者任何相關(guān)logo。

2,footer元素代表“網(wǎng)頁(yè)”或“section”的頁(yè)腳,通常含有該節(jié)的一些基本信息曹仗,譬如:作者,相關(guān)文檔鏈接春感,版權(quán)資料。如果footer元素包含了整個(gè)節(jié)虏缸,那么它們就代表附錄,索引嫩实,提拔刽辙,許可協(xié)議,標(biāo)簽甲献,類別等一些其他類似信息宰缤。

3,hgroup元素代表“網(wǎng)頁(yè)”或“section”的標(biāo)題,當(dāng)元素有多個(gè)層級(jí)時(shí)晃洒,該元素可以將h1到h6元素放在其內(nèi)慨灭,譬如文章的主標(biāo)題和副標(biāo)題的組合。

4,nav元素代表頁(yè)面的導(dǎo)航鏈接區(qū)域球及。用于定義頁(yè)面的主要導(dǎo)航部分氧骤。

5,aside元素被包含在article元素中作為主要內(nèi)容的附屬信息部分,其中的內(nèi)容可以是與當(dāng)前文章有關(guān)的相關(guān)資料吃引、標(biāo)簽筹陵、名次解釋等。(特殊的section)镊尺。在article元素之外使用作為頁(yè)面或站點(diǎn)全局的附屬信息部分朦佩。最典型的是側(cè)邊欄,其中的內(nèi)容可以是日志串連庐氮,其他組的導(dǎo)航语稠,甚至廣告,這些內(nèi)容相關(guān)的頁(yè)面弄砍。

6,section元素代表文檔中的“節(jié)”或“段”仙畦,“段”可以是指一篇文章里按照主題的分段输涕;“節(jié)”可以是指一個(gè)頁(yè)面里的分組。section通常還帶標(biāo)題议泵,雖然html5中section會(huì)自動(dòng)給標(biāo)題h1-h6降級(jí)占贫,但是最好手動(dòng)給他們降級(jí)。

7,article元素最容易跟section和div容易混淆先口,其實(shí)article代表一個(gè)在文檔型奥,頁(yè)面或者網(wǎng)站中自成一體的內(nèi)容,其目的是為了讓開發(fā)者獨(dú)立開發(fā)或重用碉京。譬如論壇的帖子厢汹,博客上的文章,一篇用戶的評(píng)論谐宙,一個(gè)互動(dòng)的widget小工具烫葬。(特殊的section)。除了它的內(nèi)容凡蜻,article會(huì)有一個(gè)標(biāo)題(通常會(huì)在header里)搭综,會(huì)有一個(gè)footer頁(yè)腳。

—如果在article內(nèi)部再嵌套article划栓,那就代表內(nèi)嵌的article是與它外部的內(nèi)容有關(guān)聯(lián)的兑巾,如博客文章下面的評(píng)論。

—文章里的章節(jié)忠荞,一個(gè)article里的section實(shí)例蒋歌。因?yàn)槲恼聝?nèi)section部分雖然也是獨(dú)立的部分,但是它門只能算是組成整體的一部分委煤,從屬關(guān)系堂油,article是大主體,section是構(gòu)成這個(gè)大主體的一部分碧绞。本網(wǎng)站的全部文章都是article嵌套一個(gè)個(gè)section章節(jié)府框,這樣能讓瀏覽器更容易區(qū)分各個(gè)章節(jié)所包括的內(nèi)容。

—一個(gè)section里的article實(shí)例讥邻。設(shè)計(jì)師寓免、程序員、前端工程師都是一個(gè)獨(dú)立的整體计维,他們組成了網(wǎng)站制作基本配備袜香,當(dāng)然還有其他成員~~。設(shè)計(jì)師鲫惶、程序員蜈首、前端工程師就像article,是一個(gè)個(gè)獨(dú)立的整體,而section將這些自成一體的article包裹欢策,就組成了一個(gè)團(tuán)體吆寨。

article使用注意:自身獨(dú)立的情況下:用article;是相關(guān)內(nèi)容:用section踩寇;沒(méi)有語(yǔ)義的:用div啄清。

—address代表區(qū)塊容器,必須是作為聯(lián)系信息出現(xiàn)俺孙,郵編地址辣卒、郵件地址等等,一般出現(xiàn)在footer。

—h1-h6因?yàn)閔group睛榄,section和article的出現(xiàn)荣茫,h1-h6定義也發(fā)生了變化,允許一張頁(yè)面出現(xiàn)多個(gè)h1场靴。

2 SEO的原理

SEO概論:SEO是Search Engine Optimization的簡(jiǎn)稱,SEO中文意思是搜索引擎優(yōu)化啡莉。

搜索引擎優(yōu)化SEO是建立在用戶搜索體驗(yàn)為中心的基礎(chǔ)上,通過(guò)提高網(wǎng)頁(yè)級(jí)別、建立合理的網(wǎng)站鏈接結(jié)構(gòu)/目錄結(jié)構(gòu)旨剥、豐富網(wǎng)站內(nèi)容及表達(dá)形式,使網(wǎng)站自身設(shè)計(jì)符合搜索引擎規(guī)則咧欣、對(duì)搜索引擎友好,進(jìn)而在搜索引擎上獲得較高的排序權(quán)重。

它是通過(guò)研究搜索引擎對(duì)網(wǎng)頁(yè)的抓取規(guī)則轨帜,以及搜索結(jié)果排序算法魄咕,來(lái)對(duì)網(wǎng)頁(yè)進(jìn)行相關(guān)的優(yōu)化,使其更多的內(nèi)容被搜索引擎收錄阵谚,同時(shí)針對(duì)關(guān)鍵詞獲得搜索結(jié)果中更高的排名,從而提高網(wǎng)站訪問(wèn)量的一種策略烟具。

搜索引擎工作主要分為:

1.頁(yè)面抓取

2.頁(yè)面分析

3.建立索引

4.頁(yè)面排序

1梢什,搜索引擎-抓取頁(yè)面

這個(gè)工作主要由叫做“機(jī)器人(robot)”、“爬蟲(crawler)”或者“蜘蛛(spider)”的程序朝聋,根據(jù)一定規(guī)則掃描存在于互聯(lián)網(wǎng)上的網(wǎng)站嗡午,并沿著網(wǎng)頁(yè)上的鏈接從一個(gè)網(wǎng)頁(yè)到另一個(gè)網(wǎng)頁(yè),從一個(gè)網(wǎng)站到另一個(gè)網(wǎng)站冀痕。

為保證采集的資料最新荔睹,它還會(huì)回訪已抓取過(guò)的網(wǎng)頁(yè)。

這個(gè)工作是搜索引擎所有工作的基礎(chǔ)言蛇。

結(jié)論:想要獲得更多的網(wǎng)站排名僻他,網(wǎng)站必須要有更多腊尚,更新的信息被搜索引擎抓取吨拗,這個(gè)也就是網(wǎng)站需要每天堅(jiān)持更新的原因。

2,搜索引擎-頁(yè)面分析

對(duì)頁(yè)面內(nèi)容進(jìn)行分析劝篷,提取相關(guān)網(wǎng)頁(yè)信息(包括網(wǎng)頁(yè)所在URL哨鸭、編碼類型、頁(yè)面內(nèi)容包含的所有關(guān)鍵詞娇妓、關(guān)鍵詞位置像鸡、生成時(shí)間、大小哈恰、與其它網(wǎng)頁(yè)的鏈接關(guān)系等)只估。

搜索引擎所分析的內(nèi)容,也就是我們SEO所要做得工作內(nèi)容蕊蝗。

3仅乓,搜索引擎-建立索引

建立索引:就是搜索引擎通過(guò)對(duì)網(wǎng)站的內(nèi)容進(jìn)行抓取,分析后 對(duì)每個(gè)抓取的頁(yè)面進(jìn)行一個(gè)資源入庫(kù)蓬戚。在用戶搜索的時(shí)候再進(jìn)行調(diào)取夸楣,展現(xiàn)到用戶眼前。

所以我們有更多的頁(yè)面被搜索引擎搜索收錄,才能有更多的機(jī)會(huì)展示在用眼前子漩。

4豫喧,搜索引擎-頁(yè)面排序

用戶在搜索引擎中輸入查詢條件后,搜索引擎就在數(shù)據(jù)庫(kù)中檢索相關(guān)的信息幢泼,并將檢索結(jié)果返回給用戶紧显,搜索引擎在往用戶端返回?cái)?shù)據(jù)的時(shí)候,并不是隨機(jī)的缕棵,而是按照一定的計(jì)算方法進(jìn)行排序的孵班。

涉及到排序的因素主要有:鏈接權(quán)重,用戶行為招驴。

結(jié)合頁(yè)面的內(nèi)外因素篙程,計(jì)算出頁(yè)面與某個(gè)關(guān)鍵字的相關(guān)程度,從而得到與該關(guān)鍵字相關(guān)的頁(yè)面索引列表别厘。

總結(jié):想做好SEO虱饿,最重要是要成為搜索引擎的知己,做搜索引擎之所想触趴。得搜索引擎之所得氮发,互惠共贏才是長(zhǎng)久之計(jì)。

3 什么是爬蟲

網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁(yè)蜘蛛冗懦,網(wǎng)絡(luò)機(jī)器人爽冕,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁(yè)追逐者)披蕉,是一種按照一定的規(guī)則扇售,自動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或者腳本前塔。另外一些不常使用的名字還有螞蟻、自動(dòng)索引承冰、模擬程序或者蠕蟲华弓。

4 怎么去寫一個(gè)爬蟲

—定義已訪問(wèn)隊(duì)列,待訪問(wèn)隊(duì)列和爬取得URL的哈希表困乒,包括出隊(duì)列寂屏,入隊(duì)列,判斷隊(duì)列是否空等操作

—定義DownLoadFile類娜搂,根據(jù)得到的url迁霎,爬取網(wǎng)頁(yè)內(nèi)容,下載到本地保存百宇。此處需要引用commons-httpclient.jar考廉,commons-codec.jar,commons-logging.jar携御。

—定義HtmlParserTool類昌粤,用來(lái)獲得網(wǎng)頁(yè)中的超鏈接(包括a標(biāo)簽,frame中的src等等)啄刹,即為了得到子節(jié)點(diǎn)的URL涮坐。需要引入htmlparser.jar

—編寫測(cè)試類MyCrawler,用來(lái)測(cè)試爬取效果

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末誓军,一起剝皮案震驚了整個(gè)濱河市袱讹,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌昵时,老刑警劉巖捷雕,帶你破解...
    沈念sama閱讀 211,561評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異壹甥,居然都是意外死亡救巷,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,218評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門盹廷,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)征绸,“玉大人久橙,你說(shuō)我怎么就攤上這事俄占。” “怎么了淆衷?”我有些...
    開封第一講書人閱讀 157,162評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵缸榄,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我祝拯,道長(zhǎng)甚带,這世上最難降的妖魔是什么她肯? 我笑而不...
    開封第一講書人閱讀 56,470評(píng)論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮鹰贵,結(jié)果婚禮上晴氨,老公的妹妹穿的比我還像新娘。我一直安慰自己碉输,他們只是感情好籽前,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,550評(píng)論 6 385
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著敷钾,像睡著了一般枝哄。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上阻荒,一...
    開封第一講書人閱讀 49,806評(píng)論 1 290
  • 那天挠锥,我揣著相機(jī)與錄音,去河邊找鬼侨赡。 笑死蓖租,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的辆毡。 我是一名探鬼主播菜秦,決...
    沈念sama閱讀 38,951評(píng)論 3 407
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼舶掖!你這毒婦竟也來(lái)了球昨?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,712評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤眨攘,失蹤者是張志新(化名)和其女友劉穎主慰,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體鲫售,經(jīng)...
    沈念sama閱讀 44,166評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡共螺,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,510評(píng)論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了情竹。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片藐不。...
    茶點(diǎn)故事閱讀 38,643評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖秦效,靈堂內(nèi)的尸體忽然破棺而出雏蛮,到底是詐尸還是另有隱情,我是刑警寧澤阱州,帶...
    沈念sama閱讀 34,306評(píng)論 4 330
  • 正文 年R本政府宣布挑秉,位于F島的核電站,受9級(jí)特大地震影響苔货,放射性物質(zhì)發(fā)生泄漏犀概。R本人自食惡果不足惜立哑,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,930評(píng)論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望姻灶。 院中可真熱鬧铛绰,春花似錦、人聲如沸产喉。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,745評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)镊叁。三九已至尘颓,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間晦譬,已是汗流浹背疤苹。 一陣腳步聲響...
    開封第一講書人閱讀 31,983評(píng)論 1 266
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留敛腌,地道東北人卧土。 一個(gè)月前我還...
    沈念sama閱讀 46,351評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像像樊,于是被迫代替她去往敵國(guó)和親尤莺。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,509評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容

  • 今天星期六生棍,外面大雨滂沱颤霎,不宜外出,適合在窗前聽雨讀書涂滴。我在女兒買的新書里找了一本余華的《活著》友酱,...
    厚厚的日記閱讀 568評(píng)論 0 3
  • 熊志軍~【日精進(jìn)打卡第469天】 8月25號(hào)卡 付達(dá)新商貿(mào)~眾德營(yíng)銷 沈陽(yáng)盛和塾道盛組/稻芽七組 【知~學(xué)習(xí)】 早...
    熊志軍閱讀 160評(píng)論 0 0
  • 梁寧在得到專欄中的產(chǎn)品30講,讓我很震撼柔纵,也很受益缔杉,尤其是點(diǎn).線.面.體的理論模型讓我很受益。其實(shí)我們?cè)谶@個(gè)互聯(lián)網(wǎng)...
    文初有曰閱讀 437評(píng)論 0 2