solr按自定義評分排序

寫在前面

第一次在簡書寫博客竭沫,一方面是想記錄下自己技術(shù)學(xué)習(xí)之路播聪,另一方面將自己的認知提出來與大家溝通交流癣猾。

背景介紹

廢話不多說慕蔚,下面分享下在線搜索使用solr的一些調(diào)研經(jīng)驗和遇到的坑。

首先說明下巍佑,之所以用solr做在線搜索是因為項目組之前有過使用經(jīng)驗茴迁,主要是用于日志檢索,用的比較簡單萤衰。但從調(diào)研業(yè)界的做法來看堕义,Elasticsearch更適合做在線實時搜索,實時搜索的效率是solr的幾十倍脆栋,到solr也有自己的優(yōu)勢這里不多說倦卖,后面補充。

做的產(chǎn)品是新聞客戶端椿争。搜索的需求一開始是標題匹配優(yōu)先怕膛,其次文章內(nèi)容匹配,結(jié)果分別按時間倒排秦踪。要求模糊匹配褐捻,準確度80%(這個匹配度是從產(chǎn)品層面定義,可簡單理解為:搜索詞是10個字椅邓,匹配上8個字才認為匹配上)柠逞。

索引

首先做檢索肯定需要對需要匹配的字段做索引。在配置文件中設(shè)置title和content屬性indexed=true景馁,索引的意義不用多說板壮,相當(dāng)于空間換搜索時間的概念。

分詞器

這里介紹下分詞器合住。搜索引擎不可能拿用戶輸入的詞直接去做匹配绰精,所以就需要做分詞,目前solr支持的最好的開源分詞器是IKAnalyzer(中文分詞器)聊疲。比如“王寶強和馬蓉離婚事件”茬底,理想的分詞結(jié)果應(yīng)該是“王寶強”、“和”获洲、“馬蓉”、“離婚”殿如、“事件”贡珊。如果你認為“和”這個詞是無意義影響匹配效果最爬,可在stopword.doc中配置這個詞,那么搜索時就會被過濾门岔。(其實IK做不到這樣的分詞效果爱致,目前應(yīng)該是哈工大的分詞器效果比較理想能做到這樣的效果,可用c語言封裝so庫提供java調(diào)用)寒随。

自定義評分

要實現(xiàn)上面的需求最大的難度是需要自定義打分規(guī)則糠悯,而不是根據(jù)匹配度。solr提供了一些函數(shù)來改變打分妻往。首先要設(shè)置defType為edismax互艾,edismax是boost函數(shù)與原score相乘作為打分結(jié)果,dismax是相加讯泣,一般自定義打分都設(shè)置為edismax纫普,因為score是其中一個維度(匹配度)。打分函數(shù)是設(shè)置bf字段好渠,函數(shù)就是 query product exists等solr函數(shù)根據(jù)自定義規(guī)則計算一個打分結(jié)果的函數(shù)昨稼。將計算結(jié)果*score,搜索結(jié)果按這個最終打分來排拳锚。另外還有個參數(shù)mm假栓,來控制匹配度,如80%霍掺,表示必須分詞結(jié)果的所有詞去匹配匾荆,需要80%的詞匹配上。

效果分析

按以上策略滿足了產(chǎn)品需求抗楔,但實際效果比較差棋凳,因為自定義評分函數(shù)結(jié)果對score影響較大,搜索結(jié)果前面幾條可能匹配度不是最高的连躏,但也滿足了80%剩岳,有匹配度更高的沒有出現(xiàn)在前面。這里就需要對自定義評分函數(shù)的參數(shù)不斷調(diào)優(yōu)入热,達到一個合理的值拍棕。事實上最終我們放棄了這個自定義評分的方案,產(chǎn)品最終一方面是希望按匹配度來排序勺良,另一方面要求匹配的精確度高绰播。最后我們將mm值設(shè)為了100%。

結(jié)語

在不是必要的前提下尚困,盡量不要使用自定義評分函數(shù)蠢箩,因為會影響打分結(jié)果。如果一定要使用,那么需要優(yōu)化好自定義評分的函數(shù)谬泌,達到你預(yù)期的搜索效果滔韵。

這里僅僅是用一個使用實例來拋出了使用solr的話題,一些細節(jié)問題待后續(xù)持續(xù)討論掌实。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末陪蜻,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子贱鼻,更是在濱河造成了極大的恐慌宴卖,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,509評論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件邻悬,死亡現(xiàn)場離奇詭異症昏,居然都是意外死亡,警方通過查閱死者的電腦和手機拘悦,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,806評論 3 394
  • 文/潘曉璐 我一進店門齿兔,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人础米,你說我怎么就攤上這事分苇。” “怎么了屁桑?”我有些...
    開封第一講書人閱讀 163,875評論 0 354
  • 文/不壞的土叔 我叫張陵医寿,是天一觀的道長。 經(jīng)常有香客問我蘑斧,道長靖秩,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,441評論 1 293
  • 正文 為了忘掉前任竖瘾,我火速辦了婚禮沟突,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘捕传。我一直安慰自己惠拭,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,488評論 6 392
  • 文/花漫 我一把揭開白布庸论。 她就那樣靜靜地躺著职辅,像睡著了一般。 火紅的嫁衣襯著肌膚如雪聂示。 梳的紋絲不亂的頭發(fā)上域携,一...
    開封第一講書人閱讀 51,365評論 1 302
  • 那天,我揣著相機與錄音鱼喉,去河邊找鬼秀鞭。 笑死趋观,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的气筋。 我是一名探鬼主播拆内,決...
    沈念sama閱讀 40,190評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼旋圆,長吁一口氣:“原來是場噩夢啊……” “哼宠默!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起灵巧,我...
    開封第一講書人閱讀 39,062評論 0 276
  • 序言:老撾萬榮一對情侶失蹤搀矫,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后刻肄,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體瓤球,經(jīng)...
    沈念sama閱讀 45,500評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,706評論 3 335
  • 正文 我和宋清朗相戀三年敏弃,在試婚紗的時候發(fā)現(xiàn)自己被綠了卦羡。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,834評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡麦到,死狀恐怖绿饵,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情瓶颠,我是刑警寧澤拟赊,帶...
    沈念sama閱讀 35,559評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站粹淋,受9級特大地震影響吸祟,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜桃移,卻給世界環(huán)境...
    茶點故事閱讀 41,167評論 3 328
  • 文/蒙蒙 一屋匕、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧借杰,春花似錦过吻、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,779評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至粘都,卻和暖如春廓推,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背翩隧。 一陣腳步聲響...
    開封第一講書人閱讀 32,912評論 1 269
  • 我被黑心中介騙來泰國打工樊展, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 47,958評論 2 370
  • 正文 我出身青樓专缠,卻偏偏與公主長得像雷酪,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子涝婉,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,779評論 2 354

推薦閱讀更多精彩內(nèi)容