HashMap實現(xiàn)中文分詞器

今天下午部門內(nèi)部技術(shù)分享是分詞器算法。這次的主講是大名鼎鼎的Ansj分詞器的作者-孫健捂襟。

作者簡介:

  1. Ansj分詞器作者
  2. elasticsearch-sql(elasticsearch的sql插件)作者,支持sql查詢
  3. nlp-lang自然語言工具包發(fā)起人
  4. NLPCN(自然語言處理組織)發(fā)起人
    等等...
    網(wǎng)站:http://www.nlpcn.org/
    GIT地址:https://github.com/NLPchina

具體作者詳情請百度践付、Google

大神首先對中文分詞的概念進行詳細的解釋全封,并對比了傳統(tǒng)分詞和自然語言分詞的區(qū)別和優(yōu)略勢。然后又講到目前中文分詞在應(yīng)用過程中遇到的一些困難榄檬,其中就包括中文歧義的識別(包含交叉歧義卜范、組合歧義、真歧義)丙号、人名識別先朦、地名識別和機構(gòu)名識別缰冤。在這幾種難題中,又以機構(gòu)名識別最為困難(機構(gòu)名稱各種簡稱如:北京大學(xué)(北大)喳魏、騰訊(鵝場)等)棉浸。召回率和準確率的關(guān)系,正向匹配刺彩、逆向匹配等等迷郑。生動的講解了分詞的原理和難度所在。

但是講到怎么實現(xiàn)的時候创倔,大家都是一臉懵逼的嗡害,各種算法(Trie Tree、雙數(shù)組trie樹畦攘、CRF模型等)霸妹。聽完就什么都不記得了,呵呵知押。

不過講到最后的時候給我們分享了下HashMap的一種簡單實現(xiàn)分詞器的思路叹螟,意外的收獲。下面通過代碼說明(五分鐘搞定_)台盯。

HashMap簡單實現(xiàn)的分詞器

public class TokenizerDemo {

    private static Map<String, String> map = new HashMap<String, String>();

    //詞典中最長詞的長度罢绽,map中的key的最長長度
    private static final int maxSize = 3;
    static{
        //可以從數(shù)據(jù)庫中加載或詞表中加載
        map.put("中國", "");
        map.put("北京", "");
        map.put("中關(guān)村", "");
        map.put("海淀", "");
    }

    public static void main(String[] args) {
        String text = "中國人民共和國首都是北京,中關(guān)村在海淀區(qū)静盅。";
        int length = text.length();
        for(int i=0; i<length; i++){
            int endIdx = i+maxSize;
            if(endIdx>length){
                endIdx = length;
            }
            //最大逆序匹配
            for(int j=0; j<maxSize; j++){
                String s = text.substring(i, endIdx);
                if(map.get(s)!=null){
                    //跳過匹配過的詞(后面會說明跳過匹配詞的原因)
                    i=endIdx-1;
                    System.out.println(s);
                    break;
                }else{
                    endIdx-=1;
                    if(endIdx==i){
                        break;
                    }
                }
            }
            
        }
    }
}

輸出結(jié)果:
中國
北京
中關(guān)村
海淀

?

注意:
如果不跳過已經(jīng)匹配的詞會出現(xiàn)"北京劇院" 拆分成 [北京]良价、[京劇]、[劇院] 三個詞蒿叠,
如果跳過匹配過的詞就會拆分成 [北京]明垢、[劇院]。

分詞原理:

從詞典中找出最長詞的長度栈虚,這里為maxSize=3袖外,按照maxSize的長度從文本的第一位(i=0)截取要抽取的文本【中國人】,然后去Map中查找是否有對應(yīng)的值魂务,如果沒有減去一個長度截嚷椤(maxSize-1)【中國】,去Map中查找粘姜,找到則停止當前查找鬓照,接著從匹配當前詞后面的字(i=2)【人民共】開始繼續(xù)上述的步驟開始查找。

代碼執(zhí)行的流程如下:

 第一次循環(huán)(i=0):
      中國人  -> 無命中(map中沒找到)  (j=0)
      中國    -> map命中               (j=1)  【注釋:命中后i+2(當前詞)的長度孤紧。所以i=2】
 第二次循環(huán)(i=2):
      人民共  -> 無命中                (j=0)
      人民    -> 無命中                (j=1)
      人      -> 無命中                (j=2)
 第三次循環(huán)(i=3):
      民共和  -> 無命中                (j=0)
      民共    -> 無命中                (j=1)
      民      -> 無命中                (j=2)
 ...依次類推豺裆,找出文本中所有匹配詞典中的詞

很簡單的代碼就說明了分詞器的原理(只是最簡單、能命中詞而以)。

應(yīng)用場景

敏感詞臭猜、文字過濾是一個網(wǎng)站必不可少的功能躺酒,可以使用這么簡單的幾行代碼實現(xiàn)網(wǎng)站的敏感詞過濾功能,自己這么簡單幾行代碼就能實現(xiàn)是不是很棒蔑歌。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末羹应,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子次屠,更是在濱河造成了極大的恐慌园匹,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,858評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件劫灶,死亡現(xiàn)場離奇詭異裸违,居然都是意外死亡,警方通過查閱死者的電腦和手機本昏,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,372評論 3 395
  • 文/潘曉璐 我一進店門供汛,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人凛俱,你說我怎么就攤上這事紊馏×霞ⅲ” “怎么了蒲犬?”我有些...
    開封第一講書人閱讀 165,282評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長岸啡。 經(jīng)常有香客問我原叮,道長,這世上最難降的妖魔是什么巡蘸? 我笑而不...
    開封第一講書人閱讀 58,842評論 1 295
  • 正文 為了忘掉前任奋隶,我火速辦了婚禮,結(jié)果婚禮上悦荒,老公的妹妹穿的比我還像新娘唯欣。我一直安慰自己,他們只是感情好搬味,可當我...
    茶點故事閱讀 67,857評論 6 392
  • 文/花漫 我一把揭開白布境氢。 她就那樣靜靜地躺著,像睡著了一般碰纬。 火紅的嫁衣襯著肌膚如雪萍聊。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,679評論 1 305
  • 那天悦析,我揣著相機與錄音寿桨,去河邊找鬼。 笑死强戴,一個胖子當著我的面吹牛亭螟,可吹牛的內(nèi)容都是我干的挡鞍。 我是一名探鬼主播,決...
    沈念sama閱讀 40,406評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼预烙,長吁一口氣:“原來是場噩夢啊……” “哼匕累!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起默伍,我...
    開封第一講書人閱讀 39,311評論 0 276
  • 序言:老撾萬榮一對情侶失蹤欢嘿,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后也糊,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體炼蹦,經(jīng)...
    沈念sama閱讀 45,767評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年狸剃,在試婚紗的時候發(fā)現(xiàn)自己被綠了掐隐。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,090評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡钞馁,死狀恐怖虑省,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情僧凰,我是刑警寧澤探颈,帶...
    沈念sama閱讀 35,785評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站训措,受9級特大地震影響伪节,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜绩鸣,卻給世界環(huán)境...
    茶點故事閱讀 41,420評論 3 331
  • 文/蒙蒙 一怀大、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧呀闻,春花似錦化借、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,988評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至局服,卻和暖如春钓瞭,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背淫奔。 一陣腳步聲響...
    開封第一講書人閱讀 33,101評論 1 271
  • 我被黑心中介騙來泰國打工山涡, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 48,298評論 3 372
  • 正文 我出身青樓鸭丛,卻偏偏與公主長得像竞穷,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子鳞溉,可洞房花燭夜當晚...
    茶點故事閱讀 45,033評論 2 355

推薦閱讀更多精彩內(nèi)容