Lucene總結(jié)系列(二)--商品檢索系統(tǒng)的文字檢索業(yè)務(wù)(lucene項(xiàng)目使用)

繼續(xù)這個(gè)Lucene總結(jié)系列吧犬绒。今天要講的是一個(gè)Lucene的業(yè)務(wù)全程操作,然后這系列的以后都是以Lucene優(yōu)化以及原理為主了挂签。OK疤祭,開始!6拧勺馆!

本系列:

(1)SSM框架構(gòu)建積分系統(tǒng)和基本商品檢索系統(tǒng)(Spring+SpringMVC+MyBatis+Lucene+Redis+MAVEN)(1)框架整合構(gòu)建

(2)SSM框架構(gòu)建積分系統(tǒng)和基本商品檢索系統(tǒng)(Spring+SpringMVC+MyBatis+Lucene+Redis+MAVEN)(2)建立商品數(shù)據(jù)庫和Lucene的搭建

(3)Redis系列(一)--安裝、helloworld以及讀懂配置文件

(4) Redis系列(二)--緩存設(shè)計(jì)(整表緩存以及排行榜緩存方案實(shí)現(xiàn))

(5) Lucene總結(jié)系列(一)--認(rèn)識侨核、helloworld以及基本的api操作草穆。


文章結(jié)構(gòu):(1)業(yè)務(wù)說明以及技術(shù)說明;(2)業(yè)務(wù)實(shí)現(xiàn)(配合SynonymFilterFactory實(shí)現(xiàn)高精度地切割檢索)搓译;


一悲柱、業(yè)務(wù)說明以及技術(shù)說明:

以下是我們要實(shí)現(xiàn)的效果喔!
這里寫圖片描述

這里寫圖片描述

(1)業(yè)務(wù)說明:文字檢索商品

流程:

1. 我們預(yù)先建立商品的索引庫在服務(wù)器。(根據(jù)商品的類別以及商品表的id和名字建立索引)

2. 文字檢索商品些己,先往索引庫去查詢索引信息豌鸡。比如:商品id、名字段标、價(jià)格.....

3. 查詢出一個(gè)list裝載著商品索引信息后就根據(jù)索引到的id往數(shù)據(jù)庫查詢商品詳細(xì)信息涯冠。

(2)技術(shù)說明:文字檢索商品

1.Lucene索引建立

2.根據(jù)建立好的lucene索引去查詢

3.得到的索引信息后,再根據(jù)索引中的商品id去查詢數(shù)據(jù)庫逼庞,得到商品的詳細(xì)信息蛇更。


二、業(yè)務(wù)實(shí)現(xiàn)

(1)索引建立:

@RunWith(SpringJUnit4ClassRunner.class) // 使用Springtest測試框架
@ContextConfiguration("/spring/spring-*.xml") // 加載配置
public class GoodIndexAdd {
    private LuceneDao luceneDao = new LuceneDao();
    @Autowired
    private GoodClassifyDao goodClassifyDao;
    @Test
    public void addIndexForAll() throws IOException {
        /**
         * 8-62:商品種類ID的起始Commodity_classification
         * 根據(jù)商品種類ID查詢所屬類別的商品信息赛糟,建立你的商品種類和商品索引派任,原因我只偽造了兩個(gè)商品種類假數(shù)據(jù),就是id=15和16的商品虑灰,所以我們只建立對他的索引咯
         * */
        for(int i = 15; i <= 16; i++){
            System.out.println("goodClassifyDao     "+goodClassifyDao);
            List<GoodDetails> list = goodClassifyDao.findGoodDetailsByClassifyID(i);
            System.out.println("junitTest:list.size()="+list.size());
            for (int index = 0; index < list.size(); index++) {
                luceneDao.addIndex(list.get(index));
                System.out.println(list.get(index).toString());
            }
        }
    }
}

聯(lián)查一個(gè)

<!-- 根據(jù)商品種類ID查詢所屬類別的商品信息 ,目前用于建立索引-->
    <select id="findGoodDetailsByClassifyID"
            parameterType="integer" resultType="com.fuzhu.entity.GoodDetails">
        select
        d.Good_ID ,
        d.Classify_ID,
        d.Good_Name
        from
        Commodity_classification c,
        Commodity_list d
        where
        c.Classify_ID=#{value} and d.Classify_ID=c.Classify_ID
    </select>

(2)Controller層:

// 文字檢索
    @RequestMapping(value = "/findGoodByName",produces="text/html;charset=UTF-8", method = {RequestMethod.GET,RequestMethod.GET})
    public Object findGoodByName(String goodName, HttpServletResponse response)
            throws Exception {
        response.setHeader("Access-Control-Allow-Origin", "*");//解決跨域問題

        System.out.println("查找商品名參數(shù):" + goodName);
        System.out.println("-------------------------------");

        List<GoodDetails> goodDetailsList = goodService.findIndex(goodName, 0,
                2);// 100
        System.out.println("goodDetailsList=" + goodDetailsList.size());

        String realGoodid = null;
        GoodDetails goodAllDetails = new GoodDetails();
        goodList = new ArrayList<GoodDetails>();

        if (goodDetailsList != null && goodDetailsList.size() > 0) {
            long start = System.nanoTime();
            for (int index = 0; index < goodDetailsList.size(); index++) {
                realGoodid = goodDetailsList.get(index).getGoodId();
                goodAllDetails = goodService.findGoodAllDetailsById(realGoodid);
                if (goodAllDetails == null) {
                    System.out.println("realGoodid=" + realGoodid);
                }
                if (goodAllDetails != null) {
                    goodAllDetails.setGoodName(goodDetailsList.get(index)
                            .getGoodName() + realGoodid);
                    goodList.add(goodAllDetails);
                }
            }
            long time = System.nanoTime() - start;
            System.out.println("測試耗時(shí)6窒埂!D赂馈!"+time);
        }
        System.out.println("現(xiàn)在北京時(shí)間是:" + new Date());
        if (goodList != null) {
            System.out.println("根據(jù)商品名找到的商品數(shù)目" + goodList.size());
        }
        return JSON.toJSONString(goodList);

    }

(3)Service層調(diào)用檢索索引:

  @Autowired
    private LuceneDao luceneDao;//交給spring管理這個(gè)
    @Override
    public List<GoodDetails> findIndex(String keyword, int start, int row) {
//        LuceneDao luceneDao = new LuceneDao();//交給spring管理這個(gè)
        System.out.print("luceneDao       "+luceneDao);
        List<GoodDetails> goodDetailsList;
        try {
            goodDetailsList = luceneDao.findIndex(keyword, start, row);
            return goodDetailsList;
        } catch (Exception e) {
            e.printStackTrace();
        }
        return null;
    }

(4)Service層調(diào)用根據(jù)索引id檢索商品細(xì)節(jié):

 @Override
    public GoodDetails findGoodAllDetailsById(String goodId) {
        GoodDetails goodDetails = goodDetailsDao.findGoodDetailsById(goodId);
        return goodDetails;
    }

(5)LuceneDao檢索索引庫細(xì)節(jié):

/*
     * 分頁:每頁10條
     * */
    public List<GoodDetails> findIndex(String keywords, int start, int rows) throws Exception {

        Directory directory = FSDirectory.open(new File(Constant.INDEXURL_ALL));//索引創(chuàng)建在硬盤上字旭。
        IndexSearcher indexSearcher =  LuceneUtils.getIndexSearcherOfSP();

        /**同義詞處理*/
//        String result = SynonymAnalyzerUtil.displayTokens(SynonymAnalyzerUtil.convertSynonym(SynonymAnalyzerUtil.analyzeChinese(keywords, true)));
//        Analyzer analyzer4 = new IKAnalyzer(false);// 普通簡陋語意分詞處理
//        TokenStream tokenstream = analyzer4.tokenStream("goodname", new StringReader(keyword));
        String result = keywords;//不作分詞處理直接檢索
        //需要根據(jù)哪幾個(gè)字段進(jìn)行檢索...
        String fields[] = {"goodName"};

        //查詢分析程序(查詢解析)
        QueryParser queryParser = new MultiFieldQueryParser(LuceneUtils.getMatchVersion(), fields, LuceneUtils.getAnalyzer());

        //不同的規(guī)則構(gòu)造不同的子類...
        //title:keywords content:keywords
        Query query = queryParser.parse(result);

        //這里檢索的是索引目錄,會(huì)把整個(gè)索引目錄都讀取一遍
        //根據(jù)query查詢对湃,返回前N條
        TopDocs topDocs = indexSearcher.search(query, start+rows);

        System.out.println("總記錄數(shù)="+topDocs.totalHits);

        ScoreDoc scoreDoc[] = topDocs.scoreDocs;

        /**添加設(shè)置文字高亮begin*/
        //htmly頁面高亮顯示的格式化,默認(rèn)是<b></b>即加粗
        Formatter formatter = new SimpleHTMLFormatter("<font color='red'>", "</font>");
        Scorer scorer = new QueryScorer(query);
        Highlighter highlighter = new Highlighter(formatter, scorer);

        //設(shè)置文字摘要(高亮的部分)遗淳,此時(shí)摘要大小為10
        //int fragmentSize = 10;
        Fragmenter fragmenter = new SimpleFragmenter();
        highlighter.setTextFragmenter(fragmenter);

        /**添加設(shè)置文字高亮end*/
        List<GoodDetails> goodDetailslist = new ArrayList<GoodDetails>();
        //防止數(shù)組溢出
        int endResult = Math.min(scoreDoc.length, start+rows);
        GoodDetails goodDetails = null;

        for(int i = start;i < endResult ;i++ ){
            goodDetails = new GoodDetails();
            //docID lucene的索引庫里面有很多的document拍柒,lucene為每個(gè)document定義了一個(gè)編號,唯一標(biāo)識屈暗,自增長
            int docID = scoreDoc[i].doc;
            System.out.println("標(biāo)識docID="+docID);
            Document document = indexSearcher.doc(docID);
            /**獲取文字高亮的信息begin*/
            System.out.println("==========================");
            TokenStream tokenStream = LuceneUtils.getAnalyzer().tokenStream("goodName", new StringReader(document.get("goodName")));
            String goodName = highlighter.getBestFragment(tokenStream, document.get("goodName"));
            System.out.println("goodName="+goodName);
            System.out.println("==========================");
            /**獲取文字高亮的信息end*/

            //備注:document.get("id")的返回值是String
            goodDetails.setGoodId((document.get("id")));
            goodDetails.setGoodName(goodName);
            goodDetailslist.add(goodDetails);
        }
        return goodDetailslist;
    }

(6)檢索精確優(yōu)化拆讯,實(shí)現(xiàn)中文拆分:

public class SynonymAnalyzerUtil {

    /**
     *
     * 此方法描述的是:進(jìn)行中文拆分
     */
    public static String analyzeChinese(String input, boolean userSmart) throws IOException {
        StringBuffer sb = new StringBuffer();
        StringReader reader = new StringReader(input.trim());
        // true 用智能分詞 脂男,false細(xì)粒度
        IKSegmenter ikSeg = new IKSegmenter(reader, userSmart);
        for (Lexeme lexeme = ikSeg.next(); lexeme != null; lexeme = ikSeg.next()) {
            sb.append(lexeme.getLexemeText()).append(" ");
        }
        return sb.toString();
    }
    /**
     *
     * 此方法描述的是:針對上面方法拆分后的詞組進(jìn)行同義詞匹配,返回TokenStream
     * synonyms.txt:同義詞表种呐,在resources目錄下
     */
    public static TokenStream convertSynonym(String input) throws IOException{
        Version ver = Version.LUCENE_44;
        Map<String, String> filterArgs = new HashMap<String, String>();

        filterArgs.put("luceneMatchVersion", ver.toString());
        filterArgs.put("synonyms", "synonyms.txt");
        filterArgs.put("expand", "true");
        SynonymFilterFactory factory = new SynonymFilterFactory(filterArgs);
        factory.inform(new FilesystemResourceLoader());
        Analyzer IKAnalyzer = new IKAnalyzer();
        TokenStream ts = factory.create(IKAnalyzer.tokenStream("someField", input));
        return ts;
    }

    /**
     *
     * 此方法描述的是:將tokenstream拼成一個(gè)特地格式的字符串宰翅,交給IndexSearcher來處理,再進(jìn)行精確度高的檢索
     */
    public static String displayTokens(TokenStream ts) throws IOException
    {
        StringBuffer sb = new StringBuffer();
        CharTermAttribute termAttr = ts.addAttribute(CharTermAttribute.class);
        ts.reset();
        while (ts.incrementToken())
        {
            String token = termAttr.toString();
            sb.append(token).append(" ");
            System.out.print(token+"|");
        }
        System.out.println();
        ts.end();
        ts.close();
        return sb.toString();
    }
}

源碼下載:Lucene之商品檢索系統(tǒng)Demo

好了爽室,Lucene總結(jié)系列(二)--商品檢索系統(tǒng)的文字檢索業(yè)務(wù)(lucene項(xiàng)目使用)講完了汁讼。本博客系列是項(xiàng)目lucene業(yè)務(wù)的大致實(shí)現(xiàn),當(dāng)然一些算法的不能亂給阔墩,不過以后有自己的思路出來嘿架,寫給大家,分享經(jīng)驗(yàn)給大家啸箫。歡迎在下面指出錯(cuò)誤耸彪,共同學(xué)習(xí)!忘苛!你的點(diǎn)贊是對我最好的支持2跄取!

更多內(nèi)容柑土,可以訪問JackFrost的博客

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末蜀肘,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子稽屏,更是在濱河造成了極大的恐慌扮宠,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,482評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件狐榔,死亡現(xiàn)場離奇詭異坛增,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)薄腻,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,377評論 2 382
  • 文/潘曉璐 我一進(jìn)店門收捣,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人庵楷,你說我怎么就攤上這事罢艾。” “怎么了尽纽?”我有些...
    開封第一講書人閱讀 152,762評論 0 342
  • 文/不壞的土叔 我叫張陵咐蚯,是天一觀的道長。 經(jīng)常有香客問我弄贿,道長春锋,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,273評論 1 279
  • 正文 為了忘掉前任差凹,我火速辦了婚禮期奔,結(jié)果婚禮上侧馅,老公的妹妹穿的比我還像新娘。我一直安慰自己呐萌,他們只是感情好馁痴,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,289評論 5 373
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著搁胆,像睡著了一般弥搞。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上渠旁,一...
    開封第一講書人閱讀 49,046評論 1 285
  • 那天攀例,我揣著相機(jī)與錄音,去河邊找鬼顾腊。 笑死粤铭,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的杂靶。 我是一名探鬼主播梆惯,決...
    沈念sama閱讀 38,351評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼吗垮!你這毒婦竟也來了垛吗?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,988評論 0 259
  • 序言:老撾萬榮一對情侶失蹤烁登,失蹤者是張志新(化名)和其女友劉穎怯屉,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體饵沧,經(jīng)...
    沈念sama閱讀 43,476評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡锨络,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,948評論 2 324
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了狼牺。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片羡儿。...
    茶點(diǎn)故事閱讀 38,064評論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖是钥,靈堂內(nèi)的尸體忽然破棺而出掠归,到底是詐尸還是另有隱情,我是刑警寧澤悄泥,帶...
    沈念sama閱讀 33,712評論 4 323
  • 正文 年R本政府宣布拂到,位于F島的核電站,受9級特大地震影響码泞,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜狼犯,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,261評論 3 307
  • 文/蒙蒙 一余寥、第九天 我趴在偏房一處隱蔽的房頂上張望领铐。 院中可真熱鬧踊淳,春花似錦局服、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,264評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽音诈。三九已至,卻和暖如春绎狭,著一層夾襖步出監(jiān)牢的瞬間细溅,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,486評論 1 262
  • 我被黑心中介騙來泰國打工儡嘶, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留喇聊,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,511評論 2 354
  • 正文 我出身青樓蹦狂,卻偏偏與公主長得像誓篱,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子凯楔,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,802評論 2 345

推薦閱讀更多精彩內(nèi)容