三叉Trie樹實(shí)現(xiàn)正向最大長(zhǎng)度匹配分詞

在一個(gè)三叉搜索樹(Ternary Search Trie)中,每一個(gè)節(jié)點(diǎn)包括一個(gè)字符,但和數(shù)字搜索樹不同冠场,三叉搜索樹只有三個(gè)指針:一個(gè)指向左邊的樹秆剪,一個(gè)指向右邊的樹赊淑,還有一個(gè)向下爵政,指向單詞的下一個(gè)數(shù)據(jù)單元。三叉搜索樹是二叉搜索樹和數(shù)字搜索樹的混合體陶缺。它有和數(shù)字搜索樹差不多的速度钾挟,但是和二叉搜索樹一樣只需要相對(duì)較少的內(nèi)存空間。
  樹的平衡取決于單詞的讀入順序饱岸。如果按排序后的順序插入掺出,則生成方式最不平衡。通過(guò)選擇一個(gè)排序后數(shù)據(jù)單元集合的中間值苫费,并把它作為開始節(jié)點(diǎn)汤锨,就可以創(chuàng)建一個(gè)平衡的三叉樹。
  下面用三叉搜索樹來(lái)構(gòu)建字典樹以及進(jìn)行最大正向長(zhǎng)度匹配分詞:

  • TSTNode.java
public final class TSTNode {
    /**節(jié)點(diǎn)的值data可以存儲(chǔ)詞原文和詞性百框、詞頻等相關(guān)的信息*/
    public String data=null;
    //左中右節(jié)點(diǎn)
    protected TSTNode lNode;
    protected TSTNode mNode;
    protected TSTNode rNode;
    
    protected char splitchar;//本節(jié)點(diǎn)表示的字符
    
    protected TSTNode(char splitchar){
        this.splitchar=splitchar;
    }
    public String toString(){
        return "splitchar:"+splitchar;
    }
    /**
     * 查找的過(guò)程是:輸入一個(gè)詞闲礼,返回這個(gè)詞對(duì)應(yīng)的TSTNode對(duì)象,如果該詞不在詞典中铐维,則返回空柬泽。
     * 查找詞典的過(guò)程中,從樹的根節(jié)點(diǎn)匹配Key嫁蛇,從前往后匹配Key*/
    protected TSTNode getNode(String key,TSTNode startNode){
        if(null==key){
            return null;
        }
        int len=key.length();
        if(len==0)
            return null;
        TSTNode currentNode=startNode;//匹配過(guò)程中當(dāng)前節(jié)點(diǎn)的位置
        int charIndex=0;
        char cmpChar=key.charAt(charIndex);
        int charComp;
        while(true){
            if(null==currentNode){
                return null;
            }
            charComp=cmpChar-currentNode.splitchar;
            if(charComp==0){//equal
                charIndex++;
                if(charIndex==len){//找到                 
                    return currentNode;
                }
                else
                    cmpChar=key.charAt(charIndex);

                currentNode=currentNode.mNode;
            }else if(charComp<0){//小于
                currentNode=currentNode.lNode;
            }else {
                currentNode=currentNode.rNode;
            }
        }
    }
    
    /**三叉樹的創(chuàng)建過(guò)程锨并,就是在Trie樹上創(chuàng)建和單詞對(duì)應(yīng)的節(jié)點(diǎn)
     * 下面方法實(shí)現(xiàn)的是向詞典樹中加入一個(gè)單詞的過(guò)程*/
     TSTNode addWord(String key,TSTNode root){
        TSTNode currentNode=root;//從樹的根節(jié)點(diǎn)開始查找
        int charIndex=0;//從詞的開頭匹配
        while(true){
            //比較詞的當(dāng)前字符與節(jié)點(diǎn)的當(dāng)前字符
            int charComp=key.charAt(charIndex)-currentNode.splitchar;
            if(charComp==0){
                charIndex++;
                if(charIndex==key.length()){
                  currentNode.data=key;//將當(dāng)前的詞存到最后一個(gè)節(jié)點(diǎn)的data中
                    return currentNode;
                }
                //如果不存在直接后繼節(jié)點(diǎn)
                if(currentNode.mNode==null){
                    currentNode.mNode=new TSTNode(key.charAt(charIndex));
                }
                currentNode=currentNode.mNode;
            }else if (charComp<0) {
                if(currentNode.lNode==null){
                    currentNode.lNode=new TSTNode(key.charAt(charIndex));
                }
                currentNode=currentNode.lNode;
            }else {
                if(currentNode.rNode==null){
                    currentNode.rNode=new TSTNode(key.charAt(charIndex));
                }
                currentNode=currentNode.rNode;
            }
        }
    }
    
     /**Trie樹搜索最長(zhǎng)匹配單詞的方法
      * @param key 待匹配字符串
      * @param offset 匹配開始位置*/
     public String matchLong(String key,int offset,TSTNode root){
         String ret=null;
         if(key==null||root==null||"".equals(key)){
             return ret;
         }
         TSTNode currentNode=root;
         int charIndex=offset;
         while(true){
             if(currentNode==null){
                 return ret;
             }
             int charComp=key.charAt(charIndex)-currentNode.splitchar;
             if(charComp==0){
                 charIndex++;
                 if(currentNode.data!=null){
                     ret=currentNode.data;//候選最長(zhǎng)匹配詞
                 }
                 if(charIndex==key.length()){
                     return ret;
                 }
                 currentNode=currentNode.mNode;
             }else if (charComp<0) {
                currentNode=currentNode.lNode;
            }else {
                currentNode=currentNode.rNode;
            }
         }
     }
     /**正向最大長(zhǎng)度分詞*/
     public void wordSegment(String sentence,TSTNode root){
         int senLen=sentence.length();
         int i=0;
         while(i<senLen){
             String word=root.matchLong(sentence, i, root);
             if(word!=null){
                 //下次匹配點(diǎn)在這個(gè)詞之后
                 i+=word.length();
                 //如果詞在詞典中,則就直接打印出來(lái)
                 System.out.print(word+" ");
             }
             else{
                 //如果在詞典中沒(méi)找到棠众,則按單字切分
                 word=sentence.substring(i, i+1);
                 //打印一個(gè)字
                 System.out.print(word);
                 i++;//下次匹配點(diǎn)在這個(gè)字符之后
             }
         }
     }
     
}
  • TSNTreeTest.java
    例如琳疏,Trie樹的字典中包含如下詞語(yǔ):

大 大學(xué) 大學(xué)生 活動(dòng) 生活 中 中心 心

(下面直接按照上面字典的順序添加,所以得到的可能不是平衡Trie樹)

public class TSNTreeTest {

    public static void main(String[] args) {
        TSTNode root=new TSTNode(' ');
        root.addWord("大", root);
        root.addWord("大學(xué)", root);
        root.addWord("大學(xué)生", root);
        root.addWord("活動(dòng)", root);
        root.addWord("生活", root);
        root.addWord("中", root);
        root.addWord("中心", root);
        root.addWord("心", root);
        
        String sentence="大學(xué)生活動(dòng)中心";
        String ret=root.matchLong(sentence, 0, root);
        System.out.println(sentence+" match:"+ret);
        root.wordSegment(sentence, root);
    }
}

得到的結(jié)果是:

第一行是輸入“大學(xué)生活動(dòng)中心”時(shí)闸拿,返回的最長(zhǎng)匹配詞
第二行是根據(jù)正向最長(zhǎng)匹配分詞的結(jié)果

參考資料:
[1] Trie樹和Ternary Search樹的學(xué)習(xí)總結(jié):
  http://www.cnblogs.com/rush/archive/2012/12/30/2839996.html

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末空盼,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子新荤,更是在濱河造成了極大的恐慌揽趾,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,865評(píng)論 6 518
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件苛骨,死亡現(xiàn)場(chǎng)離奇詭異篱瞎,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)痒芝,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,296評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門俐筋,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人严衬,你說(shuō)我怎么就攤上這事澄者。” “怎么了?”我有些...
    開封第一講書人閱讀 169,631評(píng)論 0 364
  • 文/不壞的土叔 我叫張陵粱挡,是天一觀的道長(zhǎng)赠幕。 經(jīng)常有香客問(wèn)我,道長(zhǎng)询筏,這世上最難降的妖魔是什么榕堰? 我笑而不...
    開封第一講書人閱讀 60,199評(píng)論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮嫌套,結(jié)果婚禮上逆屡,老公的妹妹穿的比我還像新娘。我一直安慰自己灌危,他們只是感情好康二,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,196評(píng)論 6 398
  • 文/花漫 我一把揭開白布碳胳。 她就那樣靜靜地躺著勇蝙,像睡著了一般。 火紅的嫁衣襯著肌膚如雪挨约。 梳的紋絲不亂的頭發(fā)上味混,一...
    開封第一講書人閱讀 52,793評(píng)論 1 314
  • 那天,我揣著相機(jī)與錄音诫惭,去河邊找鬼翁锡。 笑死,一個(gè)胖子當(dāng)著我的面吹牛夕土,可吹牛的內(nèi)容都是我干的馆衔。 我是一名探鬼主播,決...
    沈念sama閱讀 41,221評(píng)論 3 423
  • 文/蒼蘭香墨 我猛地睜開眼怨绣,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼角溃!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起篮撑,我...
    開封第一講書人閱讀 40,174評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤减细,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后赢笨,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體未蝌,經(jīng)...
    沈念sama閱讀 46,699評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,770評(píng)論 3 343
  • 正文 我和宋清朗相戀三年茧妒,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了萧吠。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,918評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡桐筏,死狀恐怖纸型,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤绊袋,帶...
    沈念sama閱讀 36,573評(píng)論 5 351
  • 正文 年R本政府宣布毕匀,位于F島的核電站,受9級(jí)特大地震影響癌别,放射性物質(zhì)發(fā)生泄漏皂岔。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,255評(píng)論 3 336
  • 文/蒙蒙 一展姐、第九天 我趴在偏房一處隱蔽的房頂上張望躁垛。 院中可真熱鬧,春花似錦圾笨、人聲如沸教馆。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,749評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)土铺。三九已至,卻和暖如春板鬓,著一層夾襖步出監(jiān)牢的瞬間坡疼,已是汗流浹背咨油。 一陣腳步聲響...
    開封第一講書人閱讀 33,862評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工傀缩, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留硝全,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 49,364評(píng)論 3 379
  • 正文 我出身青樓抄腔,卻偏偏與公主長(zhǎng)得像瓢湃,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子赫蛇,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,926評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容

  • 轉(zhuǎn)載請(qǐng)注明:終小南 ? 中文分詞算法總結(jié) 什么是中文分詞眾所周知绵患,英文是以 詞為單位的,詞和詞之間是靠空格隔開棍掐,而...
    kirai閱讀 9,846評(píng)論 3 24
  • 常用概念: 自然語(yǔ)言處理(NLP) 數(shù)據(jù)挖掘 推薦算法 用戶畫像 知識(shí)圖譜 信息檢索 文本分類 常用技術(shù): 詞級(jí)別...
    御風(fēng)之星閱讀 9,207評(píng)論 1 25
  • (本文轉(zhuǎn)自百度搜索第一個(gè)CSDN博客) 一藏雏、知識(shí)簡(jiǎn)介 Trie 的強(qiáng)大之處就在于它的時(shí)間復(fù)雜度。它的插入和查詢時(shí)間...
    Alan66閱讀 832評(píng)論 0 0
  • 花葉生生兩不見(jiàn) 相念相惜永相失 三生石畔的回眸 才注定了帶傷的輪回
    唯意soleone閱讀 99評(píng)論 0 0
  • 參與伙伴: U的工具箱 聆聽(tīng)評(píng)估工具日志練習(xí) 15:00 開始 根據(jù)參加的同伴討論作煌,我們計(jì)劃先做同理心漫步掘殴,然后是...
    wxLite閱讀 986評(píng)論 0 49