原文發(fā)表在個人博客Technology-從零開始做一款拼音輸入法陕截,轉(zhuǎn)載請注明出處驳棱。
本文講解了如何在一周時間內(nèi)批什,從零開始农曲,一步步做一個拼音輸入法。
思路是這樣的驻债,首先乳规,需要一個詞庫,這個詞庫包含單字的和詞組的合呐,其次暮的,需要進行一場串字母的切割算法(bdu切分為b、du)淌实,最后需要一個檢索和排序算法冻辩,來應(yīng)對類似首字母檢索(sz對應(yīng)深圳)和部分字母檢索(shenz對應(yīng)深圳)等各種情況。下面介紹我是怎么從零開始做一款拼音輸入法的拆祈。
詞庫
單字
單字的詞庫恨闪,由于有漢字詞典,所以比較簡單放坏,這里用的是網(wǎng)上一個開源的詞庫文件:
數(shù)目為3萬多咙咽,但是里面包含了許多基本不會用到的偏僻字:
具體的排除偏僻字的方法后面會介紹。
詞組
詞組的詞庫淤年,由于做輸入法的出發(fā)點钧敞,是為了搜索地圖里面的POI點服務(wù)的,所以優(yōu)先考慮地理詞麸粮,一開始想到的是用搜狗細胞詞庫上面的所有城市的精選地理信息:
解析方法參考:Java-解析搜狗輸入法分類詞庫scel文件
但是這樣的方式溉苛,后來在使用中,發(fā)現(xiàn)其雖然包含了非常多的地理信息弄诲,但是對于輸入法來說炊昆,并不好用,原因在于,用戶其實是更習(xí)慣于用常用字來檢索的凤巨,例如:用戶輸入“baidu”视乐,是想要打出“百度”這樣的常用字,而不是像“柏渡”這樣類似的地理詞敢茁。
基于此佑淀,后面的詞組詞庫是用的搜狗以前版本的核心詞庫,解析方法參考:
Java-解析搜狗輸入法核心詞庫sgim_core.bin文件彰檬。
有點麻煩的是伸刃,搜狗的詞庫只有漢字,并沒有對應(yīng)的拼音逢倍,所以這里用pinyin4j來做轉(zhuǎn)換捧颅,轉(zhuǎn)換方法參考:Java-漢字轉(zhuǎn)拼音。
數(shù)目為42萬多较雕,但是里面同樣也包含了很多的偏僻詞組碉哑,排除方法后面會介紹。
排序
由于是輸入法亮蒋,排序規(guī)則顯然是越常用的排越前面扣典,但是由于用到的詞庫并沒有詞頻,所以必須想辦法通過機器去自動生成詞頻慎玖,以便進行常用性排序贮尖。
對于這一點,在經(jīng)過思考以后趁怔,決定采用百度搜索引擎來進行數(shù)據(jù)搜集湿硝。在百度搜索引擎搜索每個詞組時,可以看到有多少個相關(guān)的結(jié)果润努,我們有理由相信关斜,越多的相關(guān)結(jié)果,意味著被檢索的次數(shù)也多任连,也就越常用蚤吹。
下面是對于"kebi"對應(yīng)的“科比”和“可鄙”在百度搜索引擎的結(jié)果數(shù)對比:
可以看到,"科比"的搜索相關(guān)結(jié)果更多随抠,顯然也更常用裁着。
基于這一策略,通過對詞庫中的單字和詞組進行百度指數(shù)(結(jié)果數(shù)/萬)的爬蟲搜集拱她,這里涉及到跟百度反爬蟲部門的斗智斗勇二驰,包括不定時切IP等,不過最終還是成功把45萬詞條的數(shù)據(jù)爬取下來了秉沼,部分結(jié)果如下:
完成以后桶雀,根據(jù)百度指數(shù)矿酵,設(shè)置一個閾值(這里是100),小于100的就判斷為生僻字和詞組矗积,將其從詞庫中刪除全肮,最終只保留了33萬條詞條。
場景
地理詞
由于我們的輸入法的使用場景主要在于地圖的搜索POI點棘捣,所以辜腺,我們?nèi)绻芘袛嘁粋€詞組是否是地理詞,將其排在更前面乍恐,則體驗上會更好评疗。基于我們在排序中的思路茵烈,考慮從百度檢索結(jié)果中看能不能進一步挖掘價值百匆。
下面是搜索兩個地理詞,“深圳”和"南山"在百度搜索引擎的結(jié)果:
可以看出呜投,地理詞在檢索結(jié)果中加匈,很可能會出現(xiàn)“地圖”和“旅游攻略”字眼,我們可以以此為依據(jù)宙彪,來判斷一個詞為地理詞矩动。依舊通過爬蟲有巧,新一輪的斗智斗勇后释漆,成功地識別出來了地理詞。
下面是識別出來的首字母為”ns“的地理詞列表:
從結(jié)果來看篮迎,顯然這策略也并不是完美的男图,會出現(xiàn)一些詞的誤判,例如“那啥”甜橱,但是從最終效果來看逊笆,還是非常好的。
選擇詞
對于用戶已經(jīng)選擇過的詞岂傲,我們應(yīng)該在用戶再次輸入的時候出現(xiàn)在最前面难裆。因此,我們在詞庫中加入一個“click”字段镊掖,用于記錄該詞的被選擇次數(shù)乃戈,次數(shù)越多的,更高優(yōu)先級展示給用戶亩进。
切割
通過上述步驟解決了症虑,詞庫的建立,詞組的常用性排序归薛,地理詞的識別以及記錄用戶選擇次數(shù)后谍憔,我們就搭建起了一個完整可用的詞庫匪蝙。
在此基礎(chǔ)上,我們需要在用戶輸入一串字母的時候习贫,對其進行切割逛球,例如,baidu切割成bai和du苫昌,szhen切割成s和zhen需忿。對于這一點,這里用到的是一個基于拼音語法規(guī)則的正則表達式:
[^aoeiuv]?h?[iuv]?(ai|ei|ao|ou|er|ang?|eng?|ong|a|o|e|i|u|ng|n)?
這個正則表達式可以正確地分割出長串的字母為單個的拼音蜡歹,例如分割:
tebieshuai
te bie shuai
但是屋厘,在測試中,發(fā)現(xiàn)其分割有缺陷月而,例如汗洒,對于分割"hn",直接分割成了“hn”父款,而正確的分割是"h n"溢谤,所以,針對這種情況憨攒,做了容錯處理世杀,后面會介紹。
檢索
切割完成后肝集,我們需要將其從詞庫中檢索出來對應(yīng)的詞語瞻坝。
以“szhen”舉例,切割完成后杏瞻,是"s"和“zhen”所刀,首先,我們可以確認其首字母為"sz"捞挥,其次浮创,我們可以確定,全拼音的匹配正則表達式為:
s%zhen%
其中砌函,“%”表示零個或多個字母斩披。
利用Sqlite的LIKE來進行全拼音正則匹配,并對地理詞和用戶選擇詞進行優(yōu)先排序讹俊,最后根據(jù)百度指數(shù)進行排序垦沉,查詢語句為:
select distinct relate from relate where firstLetters ='sz' and pinyin like 's%zhen%' order by click desc, isAddress desc, count desc, length(pinyin) limit 100;
這里,由于交互上的需求劣像,用戶選擇過的詞排在最前面乡话,后面固定出現(xiàn)三個地理詞,再后面的詞耳奕,根據(jù)百度指數(shù)進行排序绑青。對于上文提到的“hn”分割錯誤導(dǎo)致的異常诬像,這里需要將其當(dāng)成是純首字母檢索處理。
效果
為了查看最終的交互效果闸婴,我們隨機取幾個字符串坏挠,來看看匹配結(jié)果與搜狗輸入法進行對比:
可以看到,在常用詞上邪乍,兩者出現(xiàn)的詞基本重合降狠,而本文的輸入法,在地理詞上庇楞,體驗要更好榜配。
最后放上加上界面開發(fā)的成果圖: