簡(jiǎn)書里基本我所有的文章都是給自己看的,所以文章會(huì)有側(cè)重地寫肯定不全漓拾,不是寫給大家看的。
沒有看搜索引擎的自然語言處理戒祠,pagerank算法骇两,相關(guān)度算法,相似度辨別算法姜盈,等有時(shí)間好好看吧低千。
僅從測(cè)試角度體驗(yàn)了下,分析可能有問題馏颂。結(jié)果如下:
百度:
總體上:利用自然語言處理的分詞+定義相關(guān)關(guān)鍵詞字典+詞頻統(tǒng)計(jì)+添加bad case
百度是從首頁抓起示血,權(quán)重從首頁到內(nèi)頁依次降低。
單個(gè)網(wǎng)頁救拉,搜索先從標(biāo)題開始遍歷难审,再從內(nèi)容分析。所以mata,h1,h2要維護(hù)好
排名算法:測(cè)試發(fā)現(xiàn)百度根據(jù)的網(wǎng)站內(nèi)容更新頻率亿絮,其他因素還沒有發(fā)現(xiàn)告喊。然后再結(jié)合標(biāo)題和內(nèi)容出現(xiàn)的相關(guān)關(guān)鍵詞越多麸拄,且該網(wǎng)頁點(diǎn)擊率越高,則排名越高黔姜。
比如我的這篇原創(chuàng)《從社交動(dòng)機(jī)拢切,行為方式,關(guān)系鏈看社交產(chǎn)品》秆吵,發(fā)現(xiàn)排名最前面的不是我在簡(jiǎn)書上發(fā)的淮椰,而是一個(gè)營(yíng)銷網(wǎng)站“鳥哥筆記”。纳寂。主穗。。烈疚。
因?yàn)橹袊?guó)大部分草根網(wǎng)民都是用的百度黔牵,知識(shí)深度不夠聪轿,所以百度的辦法是搜索時(shí)不需要考慮相關(guān)關(guān)鍵詞爷肝,百度已經(jīng)替你考慮好,搜索結(jié)果包含相關(guān)關(guān)鍵詞的數(shù)據(jù)陆错。但是這樣的解決方案灯抛,會(huì)導(dǎo)致重復(fù)內(nèi)容很多,搜索效率很低音瓷。這個(gè)百度應(yīng)該著重考慮的对嚼。
谷歌:
利用與英文單次類似的詞組分析法+pagerank+內(nèi)容相關(guān)性+網(wǎng)站的PR值+外鏈
不是從標(biāo)題開始遍歷的,而是從內(nèi)容分析相關(guān)性绳慎,具體相關(guān)性算法不清楚纵竖,可以肯定的是也會(huì)利用詞頻+上下文。
排名算法:網(wǎng)站外鏈+網(wǎng)站地圖等
因?yàn)橛霉雀璧挠脩艋径际切枰瓑φ矣⑽臄?shù)據(jù)杏愤,而這些用戶基本知識(shí)深度相對(duì)高靡砌,所以搜索時(shí)最好用專業(yè)術(shù)語,學(xué)術(shù)術(shù)語等珊楼。
搜索時(shí)需要人為添加相關(guān)關(guān)鍵詞通殃,而且關(guān)鍵詞之間相關(guān)性要強(qiáng),如果自己添加的關(guān)鍵詞比較偏厕宗,搜索結(jié)果質(zhì)量就會(huì)很差画舌,但是好處是內(nèi)容重復(fù)性低。
分析最到位的是以下兩篇:
一已慢、《谷歌背后的數(shù)字》?
二曲聂、論壇的文章?:Google 做分詞的話就是把問題看成一個(gè)概率問題:如果中文網(wǎng)頁中哪些字經(jīng)常一起出現(xiàn),那麼它們很有可能就是一個(gè)詞佑惠【淇看哪些詞后面會(huì)跟的地得厕鹃,的地得后面有常跟哪些詞,語法結(jié)構(gòu)也就出來了乍丈。(具體的模型參見吳軍《數(shù)學(xué)之美》)剂碴。解題思路就是把所有抓到的中文網(wǎng)頁往 MapReduce 裡一丟,參數(shù)算出來就好了轻专。評(píng)估分詞質(zhì)量的方法也很簡(jiǎn)單忆矛,就拿新模型放到網(wǎng)頁檢索的模型裡,做個(gè)實(shí)驗(yàn)看質(zhì)量有沒提升就行请垛。這套方法結(jié)果之好催训,基本把中文分詞做成了一個(gè)沒有多少懸念的簡(jiǎn)單問題,而且基本不需要中文語言專家的參與(自然也沒有誰更懂中文的問題)宗收。同時(shí)這也就是 Google 做 Translate 的思路漫拭。這裡面基本方法其實(shí)非常簡(jiǎn)單,沒什麼祕(mì)密可言混稽,但是你得先有這麼多的網(wǎng)頁數(shù)據(jù)采驻,還得有大機(jī)群,有分佈計(jì)算框架匈勋,還有可復(fù)用的模型……
等搜索原理看的差不多了礼旅,再更新把~~