搜索引擎

image.png

360 搜索的百億級網(wǎng)頁搜索引擎架構(gòu)實現(xiàn)
這個文章講的挺細致了蜻韭。

不過還是有幾個可以思考的細節(jié)。

  1. 需要一個global的id 生成器柿扣,給每個url文檔生成一個doc id肖方,放進倒排里。
  2. 索引庫在分片的時候不完全按照hash值未状,而是有部分重要索引(高質(zhì)量網(wǎng)站)放在重要分片里俯画,其他的放在普通分片里。
  3. 倒排索引里面如果按照文章說doc id排序司草,那page rank是不是就不能保證順序活翩。那如果一個word對應(yīng)了1千萬個doc,不可能都取出來然后和其他的做交翻伺。理論上應(yīng)該是取出來前1000個材泄?所以page rank高的要盡量用小的doc id? 所以在給url生成id的時候就把rank高的生成小的doc id吨岭?不過這就有額外的要求拉宗。
  4. 分發(fā)到每個分片的搜索先做本地的交計,做相關(guān)性計算辣辫,然后再返回到一個節(jié)點做并計算旦事,排序。我覺得這樣才比較合理急灭。這每個節(jié)點都要做若干并發(fā)查詢姐浮,并發(fā)計算,對多線程要求應(yīng)該是很高的葬馋。加入對每個word取出10w個doc卖鲤,也可以拆成100個線程去分段算吧肾扰。這樣計算資源索然大了,但是還相應(yīng)速度會很快蛋逾。
  5. 當(dāng)然這里的廣播集晚,一個query會hit到所有的分片。這個讀代價還是挺大的区匣。 對于重要索引庫可以多等些時間偷拔,對于普通索引庫,超過一定時間就應(yīng)該不等待返回了亏钩。

全文搜索引擎 ElasticSearch 還是 Solr
這個比較了下目前兩個流行的搜索引擎莲绰。

全文搜索引擎Elasticsearch,這篇文章給講透了姑丑!
這塊講的比較全钉蒲,但是對于segment的那一塊不詳細。
https://blog.csdn.net/smithallenyu/article/details/52789872
這個把概念用英文說了下彻坛,更準(zhǔn)確也就能幫助理解shard和segment的表達了。
segment實際上是個單獨的倒排縮影踏枣,不變的昌屉。而且會不斷的合并。
從原理到應(yīng)用茵瀑,Elasticsearch詳解
這個講的更詳細點间驮,包括了正排和倒排文件的格式和布局(后面的一些東西沒有特別細看)。

和360的架構(gòu)比較起來马昨,感覺360是不去update已經(jīng)存在的倒排竞帽?一周一個庫或者一月一個庫?然后其他的更新都在實時庫里鸿捧。
ES的沒有那種操作屹篓,所以就需要實時的更新,更新很多個segment就會導(dǎo)致索引速度低一些吧匙奴,畢竟每個segment都要查一遍堆巧。再做合并。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末泼菌,一起剝皮案震驚了整個濱河市谍肤,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌哗伯,老刑警劉巖荒揣,帶你破解...
    沈念sama閱讀 218,941評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異焊刹,居然都是意外死亡系任,警方通過查閱死者的電腦和手機恳蹲,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來赋除,“玉大人阱缓,你說我怎么就攤上這事【倥” “怎么了荆针?”我有些...
    開封第一講書人閱讀 165,345評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長颁糟。 經(jīng)常有香客問我航背,道長,這世上最難降的妖魔是什么棱貌? 我笑而不...
    開封第一講書人閱讀 58,851評論 1 295
  • 正文 為了忘掉前任玖媚,我火速辦了婚禮,結(jié)果婚禮上婚脱,老公的妹妹穿的比我還像新娘今魔。我一直安慰自己,他們只是感情好障贸,可當(dāng)我...
    茶點故事閱讀 67,868評論 6 392
  • 文/花漫 我一把揭開白布错森。 她就那樣靜靜地躺著,像睡著了一般篮洁。 火紅的嫁衣襯著肌膚如雪涩维。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,688評論 1 305
  • 那天袁波,我揣著相機與錄音瓦阐,去河邊找鬼。 笑死篷牌,一個胖子當(dāng)著我的面吹牛睡蟋,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播枷颊,決...
    沈念sama閱讀 40,414評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼薄湿,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了偷卧?” 一聲冷哼從身側(cè)響起豺瘤,我...
    開封第一講書人閱讀 39,319評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎听诸,沒想到半個月后坐求,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,775評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡晌梨,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年桥嗤,在試婚紗的時候發(fā)現(xiàn)自己被綠了须妻。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,096評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡泛领,死狀恐怖荒吏,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情渊鞋,我是刑警寧澤绰更,帶...
    沈念sama閱讀 35,789評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站锡宋,受9級特大地震影響儡湾,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜执俩,卻給世界環(huán)境...
    茶點故事閱讀 41,437評論 3 331
  • 文/蒙蒙 一徐钠、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧役首,春花似錦尝丐、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至杰赛,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間矮台,已是汗流浹背乏屯。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評論 1 271
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留瘦赫,地道東北人辰晕。 一個月前我還...
    沈念sama閱讀 48,308評論 3 372
  • 正文 我出身青樓,卻偏偏與公主長得像确虱,于是被迫代替她去往敵國和親含友。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,037評論 2 355