如何在一周內(nèi)做一款拼音輸入法

原文發(fā)表在個人博客Technology-從零開始做一款拼音輸入法陕截,轉(zhuǎn)載請注明出處驳棱。

本文講解了如何在一周時間內(nèi)批什,從零開始农曲,一步步做一個拼音輸入法。

思路是這樣的驻债,首先乳规,需要一個詞庫,這個詞庫包含單字的和詞組的合呐,其次暮的,需要進行一場串字母的切割算法(bdu切分為b、du)淌实,最后需要一個檢索和排序算法冻辩,來應(yīng)對類似首字母檢索(sz對應(yīng)深圳)和部分字母檢索(shenz對應(yīng)深圳)等各種情況。下面介紹我是怎么從零開始做一款拼音輸入法的拆祈。

詞庫

單字

單字的詞庫恨闪,由于有漢字詞典,所以比較簡單放坏,這里用的是網(wǎng)上一個開源的詞庫文件:

數(shù)目為3萬多咙咽,但是里面包含了許多基本不會用到的偏僻字:

具體的排除偏僻字的方法后面會介紹。

詞組

詞組的詞庫淤年,由于做輸入法的出發(fā)點钧敞,是為了搜索地圖里面的POI點服務(wù)的,所以優(yōu)先考慮地理詞麸粮,一開始想到的是用搜狗細胞詞庫上面的所有城市的精選地理信息:

解析方法參考:Java-解析搜狗輸入法分類詞庫scel文件

但是這樣的方式溉苛,后來在使用中,發(fā)現(xiàn)其雖然包含了非常多的地理信息弄诲,但是對于輸入法來說炊昆,并不好用,原因在于,用戶其實是更習(xí)慣于用常用字來檢索的凤巨,例如:用戶輸入“baidu”视乐,是想要打出“百度”這樣的常用字,而不是像“柏渡”這樣類似的地理詞敢茁。

基于此佑淀,后面的詞組詞庫是用的搜狗以前版本的核心詞庫,解析方法參考:
Java-解析搜狗輸入法核心詞庫sgim_core.bin文件彰檬。

有點麻煩的是伸刃,搜狗的詞庫只有漢字,并沒有對應(yīng)的拼音逢倍,所以這里用pinyin4j來做轉(zhuǎn)換捧颅,轉(zhuǎn)換方法參考:Java-漢字轉(zhuǎn)拼音

數(shù)目為42萬多较雕,但是里面同樣也包含了很多的偏僻詞組碉哑,排除方法后面會介紹。

排序

由于是輸入法亮蒋,排序規(guī)則顯然是越常用的排越前面扣典,但是由于用到的詞庫并沒有詞頻,所以必須想辦法通過機器去自動生成詞頻慎玖,以便進行常用性排序贮尖。

對于這一點,在經(jīng)過思考以后趁怔,決定采用百度搜索引擎來進行數(shù)據(jù)搜集湿硝。在百度搜索引擎搜索每個詞組時,可以看到有多少個相關(guān)的結(jié)果润努,我們有理由相信关斜,越多的相關(guān)結(jié)果,意味著被檢索的次數(shù)也多任连,也就越常用蚤吹。

下面是對于"kebi"對應(yīng)的“科比”和“可鄙”在百度搜索引擎的結(jié)果數(shù)對比:

可以看到,"科比"的搜索相關(guān)結(jié)果更多随抠,顯然也更常用裁着。

基于這一策略,通過對詞庫中的單字和詞組進行百度指數(shù)(結(jié)果數(shù)/萬)的爬蟲搜集拱她,這里涉及到跟百度反爬蟲部門的斗智斗勇二驰,包括不定時切IP等,不過最終還是成功把45萬詞條的數(shù)據(jù)爬取下來了秉沼,部分結(jié)果如下:

完成以后桶雀,根據(jù)百度指數(shù)矿酵,設(shè)置一個閾值(這里是100),小于100的就判斷為生僻字和詞組矗积,將其從詞庫中刪除全肮,最終只保留了33萬條詞條。

場景

地理詞

由于我們的輸入法的使用場景主要在于地圖的搜索POI點棘捣,所以辜腺,我們?nèi)绻芘袛嘁粋€詞組是否是地理詞,將其排在更前面乍恐,則體驗上會更好评疗。基于我們在排序中的思路茵烈,考慮從百度檢索結(jié)果中看能不能進一步挖掘價值百匆。

下面是搜索兩個地理詞,“深圳”和"南山"在百度搜索引擎的結(jié)果:

可以看出呜投,地理詞在檢索結(jié)果中加匈,很可能會出現(xiàn)“地圖”和“旅游攻略”字眼,我們可以以此為依據(jù)宙彪,來判斷一個詞為地理詞矩动。依舊通過爬蟲有巧,新一輪的斗智斗勇后释漆,成功地識別出來了地理詞。

下面是識別出來的首字母為”ns“的地理詞列表:

從結(jié)果來看篮迎,顯然這策略也并不是完美的男图,會出現(xiàn)一些詞的誤判,例如“那啥”甜橱,但是從最終效果來看逊笆,還是非常好的。

選擇詞

對于用戶已經(jīng)選擇過的詞岂傲,我們應(yīng)該在用戶再次輸入的時候出現(xiàn)在最前面难裆。因此,我們在詞庫中加入一個“click”字段镊掖,用于記錄該詞的被選擇次數(shù)乃戈,次數(shù)越多的,更高優(yōu)先級展示給用戶亩进。

切割

通過上述步驟解決了症虑,詞庫的建立,詞組的常用性排序归薛,地理詞的識別以及記錄用戶選擇次數(shù)后谍憔,我們就搭建起了一個完整可用的詞庫匪蝙。

在此基礎(chǔ)上,我們需要在用戶輸入一串字母的時候习贫,對其進行切割逛球,例如,baidu切割成bai和du苫昌,szhen切割成s和zhen需忿。對于這一點,這里用到的是一個基于拼音語法規(guī)則的正則表達式:

[^aoeiuv]?h?[iuv]?(ai|ei|ao|ou|er|ang?|eng?|ong|a|o|e|i|u|ng|n)?

這個正則表達式可以正確地分割出長串的字母為單個的拼音蜡歹,例如分割:

tebieshuai
te bie shuai

但是屋厘,在測試中,發(fā)現(xiàn)其分割有缺陷月而,例如汗洒,對于分割"hn",直接分割成了“hn”父款,而正確的分割是"h n"溢谤,所以,針對這種情況憨攒,做了容錯處理世杀,后面會介紹。

檢索

切割完成后肝集,我們需要將其從詞庫中檢索出來對應(yīng)的詞語瞻坝。

以“szhen”舉例,切割完成后杏瞻,是"s"和“zhen”所刀,首先,我們可以確認其首字母為"sz"捞挥,其次浮创,我們可以確定,全拼音的匹配正則表達式為:

s%zhen%

其中砌函,“%”表示零個或多個字母斩披。

利用Sqlite的LIKE來進行全拼音正則匹配,并對地理詞和用戶選擇詞進行優(yōu)先排序讹俊,最后根據(jù)百度指數(shù)進行排序垦沉,查詢語句為:

select distinct relate from relate where firstLetters ='sz' and pinyin like 's%zhen%' order by click desc, isAddress desc, count desc, length(pinyin) limit 100;

這里,由于交互上的需求劣像,用戶選擇過的詞排在最前面乡话,后面固定出現(xiàn)三個地理詞,再后面的詞耳奕,根據(jù)百度指數(shù)進行排序绑青。對于上文提到的“hn”分割錯誤導(dǎo)致的異常诬像,這里需要將其當(dāng)成是純首字母檢索處理。

效果

為了查看最終的交互效果闸婴,我們隨機取幾個字符串坏挠,來看看匹配結(jié)果與搜狗輸入法進行對比:

可以看到,在常用詞上邪乍,兩者出現(xiàn)的詞基本重合降狠,而本文的輸入法,在地理詞上庇楞,體驗要更好榜配。

最后放上加上界面開發(fā)的成果圖:

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市吕晌,隨后出現(xiàn)的幾起案子蛋褥,更是在濱河造成了極大的恐慌,老刑警劉巖睛驳,帶你破解...
    沈念sama閱讀 206,723評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件烙心,死亡現(xiàn)場離奇詭異,居然都是意外死亡乏沸,警方通過查閱死者的電腦和手機淫茵,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來蹬跃,“玉大人匙瘪,你說我怎么就攤上這事【孀” “怎么了辆苔?”我有些...
    開封第一講書人閱讀 152,998評論 0 344
  • 文/不壞的土叔 我叫張陵算灸,是天一觀的道長扼劈。 經(jīng)常有香客問我,道長菲驴,這世上最難降的妖魔是什么荐吵? 我笑而不...
    開封第一講書人閱讀 55,323評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮赊瞬,結(jié)果婚禮上先煎,老公的妹妹穿的比我還像新娘。我一直安慰自己巧涧,他們只是感情好薯蝎,可當(dāng)我...
    茶點故事閱讀 64,355評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著谤绳,像睡著了一般占锯。 火紅的嫁衣襯著肌膚如雪袒哥。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,079評論 1 285
  • 那天消略,我揣著相機與錄音堡称,去河邊找鬼。 笑死艺演,一個胖子當(dāng)著我的面吹牛却紧,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播胎撤,決...
    沈念sama閱讀 38,389評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼晓殊,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了伤提?” 一聲冷哼從身側(cè)響起挺物,我...
    開封第一講書人閱讀 37,019評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎飘弧,沒想到半個月后识藤,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,519評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡次伶,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,971評論 2 325
  • 正文 我和宋清朗相戀三年痴昧,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片冠王。...
    茶點故事閱讀 38,100評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡赶撰,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出柱彻,到底是詐尸還是另有隱情豪娜,我是刑警寧澤,帶...
    沈念sama閱讀 33,738評論 4 324
  • 正文 年R本政府宣布哟楷,位于F島的核電站瘤载,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏卖擅。R本人自食惡果不足惜鸣奔,卻給世界環(huán)境...
    茶點故事閱讀 39,293評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望惩阶。 院中可真熱鬧挎狸,春花似錦、人聲如沸断楷。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,289評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽冬筒。三九已至恐锣,卻和暖如春紊遵,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背侥蒙。 一陣腳步聲響...
    開封第一講書人閱讀 31,517評論 1 262
  • 我被黑心中介騙來泰國打工暗膜, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人鞭衩。 一個月前我還...
    沈念sama閱讀 45,547評論 2 354
  • 正文 我出身青樓学搜,卻偏偏與公主長得像,于是被迫代替她去往敵國和親论衍。 傳聞我的和親對象是個殘疾皇子瑞佩,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,834評論 2 345

推薦閱讀更多精彩內(nèi)容