Ik分詞器
有的時(shí)候,用戶搜索的關(guān)鍵字能庆,可能是一句話施禾,不是很規(guī)范脚线。所以在 Solr 中查詢出的時(shí)候搁胆,就需要將用戶輸入的關(guān)鍵字進(jìn)行分詞。?
目前有很多優(yōu)秀的中文分詞組件邮绿。本篇只以 ?IKAnalyzer 分詞為例渠旁,講解如何在 solr ?中及集成中文分詞,使用 IKAnalyzer的原因 IK 比其他中文分詞維護(hù)的勤快船逮,和 Solr 集成也相對(duì)容易顾腊。具體就不多介紹,這里直接solr 集成 IK 的方法.
分詞的測(cè)試使用curl或者postman都可以挖胃,我個(gè)人傾向于postman,主要是能保存杂靶,要方便一些
ik分詞器:
分詞技術(shù)是搜索技術(shù)里面的一塊基石。很多人用過(guò)酱鸭,如果你只是為了簡(jiǎn)單快速地搭一個(gè)搜索引擎吗垮,你確實(shí)不用了解太深。但一旦涉及效果問(wèn)題凹髓,分詞器上就可以做很多文章烁登。例如, 在實(shí)我們際用作電商領(lǐng)域的搜索的工作中蔚舀,類目預(yù)判的實(shí)現(xiàn)就極須依賴分詞饵沧,至少需要做到可以對(duì)分詞器動(dòng)態(tài)加規(guī)則锨络。再一個(gè)簡(jiǎn)單的例子,如果你的優(yōu)化方法就是對(duì)不同的詞分權(quán)重狼牺,提高一些重點(diǎn)詞的權(quán)重的話羡儿,你就需要依賴并理解分詞器。本文將根據(jù)ik分配器的原碼對(duì)其實(shí)現(xiàn)做一定分析是钥。其中的重點(diǎn)失受,
主要3點(diǎn):1、詞典樹(shù)的構(gòu)建咏瑟,即將現(xiàn)在的詞典加載到一個(gè)內(nèi)存結(jié)構(gòu)中去拂到,
2、詞的匹配查找码泞,也就相當(dāng)生成對(duì)一個(gè)句話中詞的切分方式兄旬,
3、歧義判斷余寥,即對(duì)不同切分方式的判定领铐,哪種應(yīng)是更合理的
今天主要學(xué)的就是和elasticsearch相關(guān)的知識(shí),學(xué)習(xí)啦如何連接elasticsearch的網(wǎng)頁(yè)elasticsearch-head-master宋舷,這樣可以讓我們可以更加方便的操作elasticsearch和更加直觀的看到操作elasticsearch的變化绪撵,還有就是學(xué)習(xí)啦如何使用java對(duì)elasticsearch進(jìn)行操作,然后就是吧elasticsearch和我們自己用的數(shù)據(jù)庫(kù)連接啦祝蝠,這樣可以方便我們查看數(shù)據(jù)和調(diào)用數(shù)據(jù)音诈。
作者:少年_2ddb
鏈接:http://www.reibang.com/p/e910d9df8dcb
來(lái)源:簡(jiǎn)書(shū)
簡(jiǎn)書(shū)著作權(quán)歸作者所有,任何形式的轉(zhuǎn)載都請(qǐng)聯(lián)系作者獲得授權(quán)并注明出處绎狭。