百度和谷歌的搜索和排序算法分析

簡(jiǎn)書里基本我所有的文章都是給自己看的,所以文章會(huì)有側(cè)重地寫肯定不全漓拾,不是寫給大家看的。



沒有看搜索引擎的自然語言處理戒祠,pagerank算法骇两,相關(guān)度算法,相似度辨別算法姜盈,等有時(shí)間好好看吧低千。

僅從測(cè)試角度體驗(yàn)了下,分析可能有問題馏颂。結(jié)果如下:

百度:

總體上:利用自然語言處理的分詞+定義相關(guān)關(guān)鍵詞字典+詞頻統(tǒng)計(jì)+添加bad case

百度是從首頁抓起示血,權(quán)重從首頁到內(nèi)頁依次降低。

單個(gè)網(wǎng)頁救拉,搜索先從標(biāo)題開始遍歷难审,再從內(nèi)容分析。所以mata,h1,h2要維護(hù)好

排名算法:測(cè)試發(fā)現(xiàn)百度根據(jù)的網(wǎng)站內(nèi)容更新頻率亿絮,其他因素還沒有發(fā)現(xiàn)告喊。然后再結(jié)合標(biāo)題和內(nèi)容出現(xiàn)的相關(guān)關(guān)鍵詞越多麸拄,且該網(wǎng)頁點(diǎn)擊率越高,則排名越高黔姜。

比如我的這篇原創(chuàng)《從社交動(dòng)機(jī)拢切,行為方式,關(guān)系鏈看社交產(chǎn)品》秆吵,發(fā)現(xiàn)排名最前面的不是我在簡(jiǎn)書上發(fā)的淮椰,而是一個(gè)營(yíng)銷網(wǎng)站“鳥哥筆記”。纳寂。主穗。。烈疚。

因?yàn)橹袊?guó)大部分草根網(wǎng)民都是用的百度黔牵,知識(shí)深度不夠聪轿,所以百度的辦法是搜索時(shí)不需要考慮相關(guān)關(guān)鍵詞爷肝,百度已經(jīng)替你考慮好,搜索結(jié)果包含相關(guān)關(guān)鍵詞的數(shù)據(jù)陆错。但是這樣的解決方案灯抛,會(huì)導(dǎo)致重復(fù)內(nèi)容很多,搜索效率很低音瓷。這個(gè)百度應(yīng)該著重考慮的对嚼。


谷歌:

利用與英文單次類似的詞組分析法+pagerank+內(nèi)容相關(guān)性+網(wǎng)站的PR值+外鏈

不是從標(biāo)題開始遍歷的,而是從內(nèi)容分析相關(guān)性绳慎,具體相關(guān)性算法不清楚纵竖,可以肯定的是也會(huì)利用詞頻+上下文。

排名算法:網(wǎng)站外鏈+網(wǎng)站地圖等

因?yàn)橛霉雀璧挠脩艋径际切枰瓑φ矣⑽臄?shù)據(jù)杏愤,而這些用戶基本知識(shí)深度相對(duì)高靡砌,所以搜索時(shí)最好用專業(yè)術(shù)語,學(xué)術(shù)術(shù)語等珊楼。

搜索時(shí)需要人為添加相關(guān)關(guān)鍵詞通殃,而且關(guān)鍵詞之間相關(guān)性要強(qiáng),如果自己添加的關(guān)鍵詞比較偏厕宗,搜索結(jié)果質(zhì)量就會(huì)很差画舌,但是好處是內(nèi)容重復(fù)性低。


分析最到位的是以下兩篇:

一已慢、《谷歌背后的數(shù)字》?

二曲聂、論壇的文章?:Google 做分詞的話就是把問題看成一個(gè)概率問題:如果中文網(wǎng)頁中哪些字經(jīng)常一起出現(xiàn),那麼它們很有可能就是一個(gè)詞佑惠【淇看哪些詞后面會(huì)跟的地得厕鹃,的地得后面有常跟哪些詞,語法結(jié)構(gòu)也就出來了乍丈。(具體的模型參見吳軍《數(shù)學(xué)之美》)剂碴。解題思路就是把所有抓到的中文網(wǎng)頁往 MapReduce 裡一丟,參數(shù)算出來就好了轻专。評(píng)估分詞質(zhì)量的方法也很簡(jiǎn)單忆矛,就拿新模型放到網(wǎng)頁檢索的模型裡,做個(gè)實(shí)驗(yàn)看質(zhì)量有沒提升就行请垛。這套方法結(jié)果之好催训,基本把中文分詞做成了一個(gè)沒有多少懸念的簡(jiǎn)單問題,而且基本不需要中文語言專家的參與(自然也沒有誰更懂中文的問題)宗收。同時(shí)這也就是 Google 做 Translate 的思路漫拭。這裡面基本方法其實(shí)非常簡(jiǎn)單,沒什麼祕(mì)密可言混稽,但是你得先有這麼多的網(wǎng)頁數(shù)據(jù)采驻,還得有大機(jī)群,有分佈計(jì)算框架匈勋,還有可復(fù)用的模型……



等搜索原理看的差不多了礼旅,再更新把~~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市洽洁,隨后出現(xiàn)的幾起案子痘系,更是在濱河造成了極大的恐慌,老刑警劉巖饿自,帶你破解...
    沈念sama閱讀 218,941評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件汰翠,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡昭雌,警方通過查閱死者的電腦和手機(jī)复唤,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來城豁,“玉大人苟穆,你說我怎么就攤上這事〕牵” “怎么了雳旅?”我有些...
    開封第一講書人閱讀 165,345評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)间聊。 經(jīng)常有香客問我攒盈,道長(zhǎng),這世上最難降的妖魔是什么哎榴? 我笑而不...
    開封第一講書人閱讀 58,851評(píng)論 1 295
  • 正文 為了忘掉前任型豁,我火速辦了婚禮僵蛛,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘迎变。我一直安慰自己充尉,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,868評(píng)論 6 392
  • 文/花漫 我一把揭開白布衣形。 她就那樣靜靜地躺著驼侠,像睡著了一般。 火紅的嫁衣襯著肌膚如雪谆吴。 梳的紋絲不亂的頭發(fā)上倒源,一...
    開封第一講書人閱讀 51,688評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音句狼,去河邊找鬼笋熬。 笑死,一個(gè)胖子當(dāng)著我的面吹牛腻菇,可吹牛的內(nèi)容都是我干的胳螟。 我是一名探鬼主播,決...
    沈念sama閱讀 40,414評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼芜繁,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼旺隙!你這毒婦竟也來了绒极?” 一聲冷哼從身側(cè)響起骏令,我...
    開封第一講書人閱讀 39,319評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎垄提,沒想到半個(gè)月后榔袋,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,775評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡铡俐,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評(píng)論 3 336
  • 正文 我和宋清朗相戀三年凰兑,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片审丘。...
    茶點(diǎn)故事閱讀 40,096評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡吏够,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出滩报,到底是詐尸還是另有隱情锅知,我是刑警寧澤,帶...
    沈念sama閱讀 35,789評(píng)論 5 346
  • 正文 年R本政府宣布脓钾,位于F島的核電站售睹,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏可训。R本人自食惡果不足惜昌妹,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,437評(píng)論 3 331
  • 文/蒙蒙 一捶枢、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧飞崖,春花似錦烂叔、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至昼牛,卻和暖如春术瓮,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背贰健。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評(píng)論 1 271
  • 我被黑心中介騙來泰國(guó)打工胞四, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人伶椿。 一個(gè)月前我還...
    沈念sama閱讀 48,308評(píng)論 3 372
  • 正文 我出身青樓辜伟,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親脊另。 傳聞我的和親對(duì)象是個(gè)殘疾皇子导狡,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,037評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • 轉(zhuǎn)載請(qǐng)注明:終小南 ? 中文分詞算法總結(jié) 什么是中文分詞眾所周知,英文是以 詞為單位的偎痛,詞和詞之間是靠空格隔開旱捧,而...
    kirai閱讀 9,831評(píng)論 3 24
  • 常用概念: 自然語言處理(NLP) 數(shù)據(jù)挖掘 推薦算法 用戶畫像 知識(shí)圖譜 信息檢索 文本分類 常用技術(shù): 詞級(jí)別...
    御風(fēng)之星閱讀 9,183評(píng)論 1 25
  • Android 自定義View的各種姿勢(shì)1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 172,167評(píng)論 25 707
  • 辛勤勞動(dòng)才是最有意義的事情 毫無疑問,全身沾滿汗水和泥土踩麦、堅(jiān)持勞作的“田間精進(jìn)”已經(jīng)潛移默化枚赡,扎根于內(nèi)心,陶冶了人...
    陽光營(yíng)造閱讀 481評(píng)論 0 0
  • ———給自己的總結(jié) 又是一個(gè)月谓谦,時(shí)間的確是不會(huì)停下來等你的贫橙,感覺如水般滑過我的手指,輕柔又毫不猶豫的從我的指縫中流...
    一路向南007閱讀 267評(píng)論 2 0