3.4 第三代漢字編碼輸入法
到了九十年代末侵俗,隨著微微機價格的進一步降低阱佛、存儲處理能力的進一步增強、Windows 圖形操作系統(tǒng)的流行和國際互聯(lián)網(wǎng)的興起纬朝,用戶界面變得非常友好渐苏,微機才大面積地進入中國的普通百姓家庭掀潮,進入了中小學(xué)教育中,真正實現(xiàn)了微機在中國的大普及琼富。
微機的大普及使得打字成為每個接受過基本教育的人的基本技能仪吧,就像會寫漢字一樣;需要別人打字就像需要別人代筆一樣鞠眉,實際上是文盲的標志邑商。這樣就造就了一個龐大的一般計算機用戶群體他們都是非職業(yè)的打字員摄咆。這就意味著,打字員作為一個職業(yè)正在快速消失人断。一般用戶在打字時的操作方式是 “想打”吭从,和職業(yè)打字員的 “盲打” 方式完全不同《衤酰“盲打” 要求操作者盡量少看屏幕涩金,輸入法提供的反饋信息只有在操作不能 “盲打” 時才偶爾派上用場;而 “想打” 時操作者始終是看著屏幕的暇仲,輸入法所提供反饋的方式和反饋信息量的大小都會對操作者的輸入活動產(chǎn)生巨大影響步做。Windows 圖形操作系統(tǒng)也為人機界面的豐富化提供了前提條件,可以滿足反饋信息多樣化的需求奈附。
現(xiàn)代微機強大的存儲處理能力為新型的存儲密集型和處理密集型輸入法的誕生提供了物質(zhì)基礎(chǔ)全度。輸入法程序不再局限于 DOS 時代 64KB 的駐留內(nèi)存中。千兆級的運算速度使得復(fù)雜的智能算法得以投入運行斥滤。硬盤容量不僅從兆級擴大到千兆級将鸵,訪問硬盤的速度也比 DOS 時代大大提高。將巨型的詞庫存儲在硬盤上并進行快速搜索已不成問題佑颇。
計算機教育日益廣泛地在中小學(xué)開展后顶掉,學(xué)生們從小就開始學(xué)習(xí)打字了。漢字編碼與語言文字教育的關(guān)系問題被尖銳地提了出來挑胸。起碼的要求是痒筒,漢字編碼不能與語言文字知識相沖突。理想的情況是茬贵,把漢字編碼輸入與語言文字知識的學(xué)習(xí)結(jié)合起來簿透,起到相互促進的作用。
在上述背景下解藻,第三代漢字編碼輸入法應(yīng)運而生老充,其指導(dǎo)思想是:規(guī)范、易學(xué)舆逃、易用并且盡量保持輸入速度蚂维。這一時期智能化拼音輸入法的研究高潮迭起 [32]-[51]戳粒,也出現(xiàn)了以筆畫或筆對為輸入單位的純形碼路狮,還出現(xiàn)了以聲母和筆畫(或筆對)為基礎(chǔ)的音形碼。
(1) 智能化拼音輸入法
智能化拼音輸入法按其實現(xiàn)原理可以分為四種:基于理解的蔚约、基于語用統(tǒng)計的奄妨、基于模板匹配的和基于上下文關(guān)聯(lián)的。
基于理解的智能輸入主要利用漢語語法知識來消化同音字詞苹祟,化解分詞歧義砸抛,是出現(xiàn)得最早的智能拼音輸入方式评雌。它通常表述為計算機能夠識別和處理的一系列固定搭配、公式和規(guī)則直焙,屬于人工智能中的自然語言理解領(lǐng)域景东。根據(jù)自動分詞得到同音字詞的候選集,查找知識庫獲得相關(guān)規(guī)則奔誓,再經(jīng)過規(guī)約推理斤吐,得出轉(zhuǎn)換結(jié)果。利用句內(nèi)編輯實時修改轉(zhuǎn)換錯誤厨喂,驅(qū)動系統(tǒng)知識不斷完善和充實和措。這類系統(tǒng)的優(yōu)點是:轉(zhuǎn)換的正確率比較穩(wěn)定,軟件的開銷視知識庫的規(guī)耐苫停可大可小派阱。缺點是:連續(xù)拼音整句輸入時,平均碼長較長斜纪,而采用簡拼時鍵選率很高贫母;偏重于整句處理,當出現(xiàn)轉(zhuǎn)換錯誤時傀广,需要使用者回頭去進行繁瑣的矯正颁独,干擾了正常的思維;建立知識庫時伪冰,漢語知識表達困難誓酒;自動分詞過程中切分歧義等影響了分詞精度。這類系統(tǒng)中最有影響的是北京大學(xué)朱守濤研制的智能 ABC贮聂,其它還有哈爾濱工業(yè)大學(xué)王曉龍等研制的 InSun 拼音語句輸入系統(tǒng)靠柑、張普負責(zé)的 “七五” 公關(guān)項目 PJS/TLS 漢字輸入系統(tǒng)、北京大學(xué)的北大 CW 系統(tǒng)吓懈、香港陳經(jīng)綸的經(jīng)綸系統(tǒng)歼冰、加拿大陳岱的天馬系統(tǒng)和廣州林才松的漢語無編碼輸入系統(tǒng)。
基于語用統(tǒng)計的智能輸入主要利用語用統(tǒng)計的數(shù)據(jù)來消化同音字詞和化解分詞歧義耻警,屬于運籌學(xué)領(lǐng)域隔嫡。使用概率統(tǒng)計運籌決策的方案很多「蚀可以通過統(tǒng)計字字相關(guān)的同現(xiàn)概率矩陣來完成漢語語用統(tǒng)計庫結(jié)構(gòu)腮恩,這個矩陣的大小是固定不變的,只與字符集的大小有關(guān)温兼。也可以采用基于理解和基于語用統(tǒng)計相結(jié)合的設(shè)計秸滴。該設(shè)計根據(jù)分詞后的輸入語句查找知識庫,用句法募判、詞法荡含、語義和自定義的規(guī)則作為制約對文章進行解析推理咒唆,當存在同音詞時,采用最優(yōu)評價法來確定最佳選擇作為轉(zhuǎn)換結(jié)果释液。同音詞的評價值全释,需要考慮詞性、同現(xiàn)概率误债、近期使用狀況等因素恨溜。具有最優(yōu)評價值的選擇即為轉(zhuǎn)換結(jié)果。當具有最優(yōu)評價值的第一選擇并非目標選擇時找前,可選用次優(yōu)選擇或用手工方式進行修正糟袁,候補修正或人工修正均被記錄,作為下次轉(zhuǎn)換時修改計算評價值因素的依據(jù)躺盛,也就是自學(xué)習(xí)功能项戴。這類系統(tǒng)的優(yōu)點是:對于已經(jīng)進行過語用統(tǒng)計或者具有相同類型的領(lǐng)域,系統(tǒng)的轉(zhuǎn)換正確率比較高槽惫;對于每一個用戶而言周叮,在使用過程中,語用統(tǒng)計庫將會從最初的通用型逐漸改變?yōu)榉线@個用戶語用習(xí)慣的專用型界斜;軟件開銷不大仿耽。缺點是:作為一個整體的同現(xiàn)概率矩陣,不能做到模塊化各薇、積木化项贺;偏重于整句處理,當出現(xiàn)轉(zhuǎn)換錯誤時峭判,需要使用者回頭去糾正开缎,干擾了正常的思維;目前的自動分詞準確度只能達到 98%左右林螃,使鍵選率的降低受到限制奕删。這類系統(tǒng)中最有影響的是微軟公司的微軟拼音輸入法,其它還有蔡榕先生的最優(yōu)評價函數(shù)法拼音漢字轉(zhuǎn)換系統(tǒng)疗认、蔣子龍先生的 Autoway完残、清華大學(xué)人工只能實驗室夏瑩等的智能輸入軟件。
基于模板匹配的智能輸入將漢語語法知識寓于巨量的模板詞中横漏,進而利用這些模板詞來消化同音字谨设、詞,以及化解歧義分詞绊茧。系統(tǒng)通過模板詞搜索引擎來完成漢語語法體系的組織铝宵。由于需要搜索巨量的語料打掘,獲取巨量的模板詞华畏,才有可能大體上包容漢語語法知識鹏秋,例如,智能狂拼搜索了 100 億字語料亡笑,模板詞庫最大時需要約 540MB 存儲空間侣夷。根據(jù)分詞后的輸入語句查找模板詞庫和句法規(guī)則庫,然后進行匹配處理仑乌。如果匹配結(jié)果唯一百拓,則不必再用概率推理;若存在兩個以上的候選結(jié)果時晰甚,則根據(jù)句法規(guī)則或概率推斷進一步判定衙传,選出一個最有希望的可能結(jié)果作為輸出。這類系統(tǒng)的優(yōu)點是:對于已經(jīng)搜索過模板詞的或者具有相同類型的領(lǐng)域厕九,系統(tǒng)的轉(zhuǎn)換正確率比較高蓖捶;對于每一個用戶而言,在使用過程中扁远,模板詞庫將會從最初的通用型逐漸改變?yōu)榉线@個用戶語用習(xí)慣的專用型俊鱼。其缺點是:由于模板詞數(shù)量巨大,對電腦硬件有一定的要求畅买;注重連續(xù)和完整的音節(jié)輸入并闲,平均碼長較長,采用簡化拼音輸入時鍵選率較高谷羞;偏重于整句處理帝火,當出現(xiàn)匹配錯誤時,需要使用者回頭去糾正湃缎,干擾了正常的思維购公;目前的自動分詞準確度只能達到 98%,使鍵選率的降低受到限制雁歌。這類系統(tǒng)中最有影響的是中文之星數(shù)碼科技有限公司推出的智能狂拼宏浩,其它還有黑馬電子新技術(shù)公司推出的黑馬智能輸入軟件和大自然軟件開發(fā)有限責(zé)任公司推出的自然碼 2000(句輸入版)。
基于上下文關(guān)聯(lián)的智能輸入利用上下文關(guān)聯(lián)的語用環(huán)境來智能選擇重碼字靠瞎、詞比庄,屬于自動控制分支非線性控制范疇。它將自然語言看成是一個模糊的集合乏盐,將漢字輸入系統(tǒng)作為一個基于非線性控制范疇的模糊控制系統(tǒng)來對待佳窑。預(yù)學(xué)習(xí)工具或者轉(zhuǎn)換出現(xiàn)錯誤時的手工鍵選信號相當于一個傳感器。算法程序父能、漢語知識庫和動態(tài)語用統(tǒng)計庫作為非線性調(diào)節(jié)器神凑,使得系統(tǒng)的鍵選率和平均碼長逐漸趨于最優(yōu)。這類系統(tǒng)的優(yōu)點是:對于已經(jīng)預(yù)學(xué)習(xí)過或者具有相同類型的語料,鍵選率比較低溉委;對于每一個用戶而言鹃唯,在使用過程中,漢語知識庫將會從最初的通用型逐漸改變?yōu)榉线@個用戶語用習(xí)慣的專用型瓣喊;采用字段輸入坡慌,不使用語句級輸入,使語法規(guī)則簡約化藻三,易于知識表達洪橘,不但降低了鍵選率,還大大緩解了輸入過程中 “回頭看” 的問題棵帽;在拼音輸入時熄求,采用人工分詞,在形式上與英文接軌逗概,既可以避免 3%的歧義分詞錯誤抡四,大幅度降低鍵選率。其缺點是:字段輸入還未能完全根治輸入過程中 “回頭看” 的問題仗谆,當終選字詞有錯時指巡,仍然需要近距離的即時修改;對于 “上下文關(guān)聯(lián)” 機制中的 “下文關(guān)聯(lián)” 人機界面隶垮,用戶需要一個熟悉的過程藻雪。這類系統(tǒng)中比較典型的有青月亮科技開發(fā)有限公司推出的青月亮漢字通智能輸入軟件平臺 GM3.1、二筆軟件有限公司推出的二筆智能輸入軟件和字原科技有限公司推出的 101 智能輸入軟件 TZ8.2/9.1/2000狸吞。
智能 ABC 是目前 Windows 操作系統(tǒng)上使用得最為廣泛的準語句級拼音輸入法勉耀,因為它是以詞組和短語為單位而不是以全句為單位進行轉(zhuǎn)換的。它早在 DOS 時代就產(chǎn)生了蹋偏,當時使用得并不廣泛便斥。它之所以在 Windows 時代大肆流行,一方面是因為 Windows 預(yù)裝了它威始,另一方面是因為大多數(shù)新的計算機用戶都是學(xué)過漢語拼音的年輕人枢纠,他們不需要學(xué)習(xí)就可以使用智能 ABC。雖然輸入速度沒有五筆字型那樣快黎棠,但是也能基本上滿足他們的需要了晋渺,同時節(jié)約了長達數(shù)月的學(xué)習(xí)時間。
智能 ABC 支持全拼脓斩、簡拼木西、混拼、雙拼随静、筆形和音形多種輸入方式八千。全拼使用標準漢語拼音,但需用 v 表示韻母 ü。簡拼僅需輸入各字的聲母恋捆≌战裕混拼介于全拼和簡拼之,可以不同程度地省略拼音字母鸠信。筆形輸入方式將筆畫歸為橫、豎论寨、撇星立、點、折葬凳、彎绰垂、叉、方八類火焰,分別用 1劲装、2、3昌简、4占业、5、6纯赎、7、9 代表,按筆畫順序為漢字編碼凳谦。音形方式是在拼音(全拼驹尼、混拼、簡拼)后面加筆畫晚顷。智能 ABC 有標準和雙拼兩種狀態(tài)峰伙。在標準狀態(tài)下,可以不加切換地使用除雙拼以外的輸入方式该默,為用戶提供了極大的靈活性瞳氓。簡拼和混拼主要是為了減少擊鍵數(shù)。在雙拼狀態(tài)下栓袖,不能使用全拼顿膨、簡拼和混拼。使用雙拼是為了提高輸入速度叽赊。筆形方式用于用戶不認識的字的輸入恋沃。音形方式則是為了在輸入單字時減少重碼。
智能 ABC 最大的特色是能夠非常方便地自定義詞組和調(diào)整重碼字詞的順序必指。用戶只需按自己的想法進行輸入囊咏,輸入時可以不進行手工分詞,系統(tǒng)會從前到后逐個進行自動分詞。在沒有詞組時梅割,系統(tǒng)自動按單字顯示重碼字供用戶選擇霜第;一旦用戶選定并組成新詞后,系統(tǒng)就可以記住它户辞。在系統(tǒng)分詞不正確或系統(tǒng)提供的詞不是用戶需要的詞時泌类,用戶也可以加以修改,系統(tǒng)也能記住用戶所作的修改底燎。通過較長時間的使用后刃榨,如果用戶沒有發(fā)生變化,系統(tǒng)逐步適應(yīng)該用戶的使用習(xí)慣双仍,使用戶的輸入過程變得自如起來枢希。
智能 ABC 也有很多值得改進的地方。首先朱沃,在輸入時可以隨意使用全拼苞轿、簡拼、混拼逗物,輸入者可以在任何時候進行音字轉(zhuǎn)換搬卒,過多的方式讓用戶不知哪種是最好的◆嶙浚看似非常靈活秀睛,但卻實際上是把優(yōu)化輸入的任務(wù)交給了用戶。但大多數(shù)用戶不是這方面的專家莲祸,不可能很好的完成這項任務(wù)蹂安,從而導(dǎo)致用戶走很多彎路或形成不好的、低效的輸入習(xí)慣锐帜。其次田盈,音字轉(zhuǎn)換的準確率不高,句內(nèi)修改很頻繁缴阎,導(dǎo)致輸入速度不理想允瞧,即使使用雙拼也沒有自然碼的效率高。
微軟拼音是真正意義上的語句級音字轉(zhuǎn)換智能輸入法蛮拔,是微軟自然語言處理技術(shù)多年科研成果的結(jié)晶述暂。借助于微軟操作系統(tǒng)的優(yōu)勢,加上微軟拼音本身的較優(yōu)異的性能建炫,它的用戶群體正在逐步擴大畦韭,出現(xiàn)了取代智能 ABC 地位的趨勢。
微軟拼音采用拼音作為漢字的錄入方式肛跌,用戶不需要經(jīng)過專門的學(xué)習(xí)和培訓(xùn)艺配,就可以方便使用并熟練掌握這種漢字輸入技術(shù)察郁。微軟拼音采用基于語句的整句轉(zhuǎn)換方式,用戶連續(xù)輸入整句話的拼音转唉,不必人工分詞皮钠、挑選候選詞語,這樣既保證了用戶的思維流暢赠法,又大大提高了輸入的效率麦轰。
微軟拼音還為用戶提供了許多特性,比如自學(xué)習(xí)和自造詞功能砖织。經(jīng)過一段時間與用戶交流款侵,微軟拼音能夠?qū)W會用戶的專業(yè)術(shù)語和用詞習(xí)慣,從而提高轉(zhuǎn)換準確率镶苞,使用戶用得更加得心應(yīng)手喳坠。為了適應(yīng)方言地區(qū)用戶的需要鞠评,它還提供了模糊音設(shè)置茂蚓。另外,微軟拼音還支持繁體字的輸入剃幌。
微軟拼音提供的人機界面非常具有特色聋涨。組字窗口可以嵌入正在輸入的文本的插入光標處,減少用戶在輸入時視線的移動頻率负乡,使得輸入法的易用性得到了很大提高牍白。逐鍵變換提示并提示轉(zhuǎn)換結(jié)果,使得用戶不必自己做合適進行轉(zhuǎn)換的決策抖棘。用戶可以輸入的輸入碼長度沒有限制茂腥,當超過系統(tǒng)的長度上限或遇到句號時系統(tǒng)會自動進行轉(zhuǎn)換,以便用戶能繼續(xù)不間斷地輸入切省。由于考慮的上下文較廣最岗,微軟拼音能夠達到很高的轉(zhuǎn)換準確率。微軟拼音在默認情況下拒絕用戶輸入簡拼和混拼朝捆,引導(dǎo)用戶養(yǎng)成良好的輸入習(xí)慣般渡。
微軟拼音也存在一些問題。首先芙盘,在編碼輸入出錯或轉(zhuǎn)換不正確時進行句內(nèi)編輯的操作很繁瑣和低效驯用。其次,逐鍵變換時往往會把已經(jīng)轉(zhuǎn)換正確的內(nèi)容又修改錯了儒老,用戶不得不隨時監(jiān)視輸入內(nèi)容的正確性蝴乔,當已轉(zhuǎn)換的內(nèi)容較多是非常勞心的。另外驮樊,微軟拼音沒有提供方法加速單字的錄入淘这,也沒提供方法來輸入不認識的字剥扣,是不完備的輸入法。
(2) 基于筆畫(或筆對)和 / 或聲母的輸入法
所有智能化的拼音輸入法都存在兩個共同的問題铝穷。一個問題是钠怯,音字轉(zhuǎn)換正確率不可能達到 100%,且因輸入文本不同而有很大差異曙聂,另外輸入的句子越長擊鍵出錯的概率越大晦炊,因此繁瑣的句內(nèi)修改編輯不可避免,導(dǎo)致易用性和輸入速度下降宁脊。還有一個問題是断国,對于普通話或拼音不好的人學(xué)習(xí)難度很大。
所有基于部件的輸入法榆苞,如五筆字型稳衬、表形碼等,雖然速度都比較快坐漏,但是都存在記憶量大薄疚、編碼規(guī)則復(fù)雜、規(guī)范性差等比較嚴重的問題赊琳。
基于筆畫(或筆對)和 / 或聲母的輸入法正是為了克服以上兩類輸入法的缺點并且盡量保持它們的優(yōu)點而提出來的街夭。采用筆畫、聲母這兩個最簡單的漢字特征信息來進行編碼躏筏,可以極大地提高輸入法的易學(xué)性 [17]板丽。但是,漢字的筆畫一般歸為五種趁尼。筆畫種類太少埃碱,勢必增加編碼的長度,從而影響輸入速度酥泞。于是砚殿,如何縮短碼長、提高錄入效率成了這類輸入法成功與否的關(guān)鍵問題婶博。
福建雙筆碼軟件開發(fā)有限公司研制的雙筆碼是一種基于筆畫的純形碼瓮具。為了克服筆畫種類過少的問題,雙筆碼引入了一種新的筆畫類型 “叉”凡人,從而將筆畫種類擴大六種名党,取碼時按順序每取兩筆構(gòu)成一個筆對,共可形成 36 種不同的筆對挠轴,并在鍵盤上有序的將鍵位分為八個區(qū)传睹,然后在相應(yīng)的鍵位區(qū)內(nèi)選擇鍵位輸入。另外岸晦,雙筆碼還規(guī)定病字旁欧啤、“口”睛藻、提手旁和 “日” 應(yīng)作為一個整體取碼。病字旁和提手旁均用其頭兩筆代表邢隧,“口” 用豎代表店印,“日” 用橫代表。
根據(jù)漢字不同構(gòu)造的組合形狀倒慧,雙筆碼把漢字劃為三類基本字型即左右型按摘、上下型和綜合型。不論哪種類型的漢字纫谅,均按四碼進行編碼炫贤。
左右有明顯的空間分割,左右有邊旁且左邊先起筆的字付秕,確定為左右型兰珍。在輸入時,左右型字的左邊最多用兩個筆畫询吴,右邊不限掠河,即左邊筆畫僅為一筆,則按漢字先左后右的書寫順序汰寓,左邊筆畫與右邊筆畫一起口柳,按順序每兩個筆畫合為一對苹粟,在相應(yīng)的鍵位區(qū)內(nèi)選取有滑。
對上部和下部明顯分開,且有一方是基本漢字構(gòu)成或上部是部首字頭的確定為上下型嵌削。還規(guī)定如最下部是某一漢字構(gòu)成毛好,則以上的都歸為上部。在輸入時苛秕,按漢字書寫從上到下的順序肌访,每兩個筆畫合為一對,在相應(yīng)的鍵位區(qū)內(nèi)選取艇劫。但是對上部筆畫多于四筆的吼驶,有如下規(guī)定:上部筆畫多于四筆,則僅用前四筆的筆畫店煞,然后與下部筆畫一起蟹演,按順序每兩筆合為一對,在相應(yīng)的鍵位區(qū)內(nèi)選取顷蟀。
所有的獨體字酒请,和所有不能分為上下,左右型的漢字都是綜合型的鸣个。輸入時羞反,按漢字書寫順序布朦,每兩個筆畫合為一對,在相應(yīng)的鍵位區(qū)內(nèi)選取昼窗。注意是趴,辶字底的字都規(guī)定為綜合型的。
在漢字中近半數(shù)字為奇數(shù)筆畫澄惊,雙筆碼為此設(shè)立了單筆畫區(qū)右遭,該區(qū)與橫區(qū)和豎區(qū)有重疊。對于奇數(shù)筆畫的字有可能輸入的末筆為單筆畫缤削,這時只要在單筆區(qū)輸入單筆畫就可以了窘哈。在漢字中還有許多字的筆畫較少,這類字有可能僅一鍵或兩鍵就把筆畫輸入完了亭敢,這時還可能需要繼續(xù)進行輸入滚婉。繼續(xù)輸入時可以使用漢語拼音,也可以重復(fù)使用基本筆畫帅刀,但不能使用叉筆和特殊記憶部件進行重復(fù)让腹。
雙筆碼詞組的輸入方法為:二字詞輸入每個字的頭兩碼;三字詞輸入前兩個字的頭一碼和末字打頭兩碼扣溺,四字及四字以上詞輸入一骇窍、二、三锥余、末字的頭一碼腹纳。
雙筆碼的優(yōu)點是:與傳統(tǒng)的部件類輸入法相比,記憶量減少了許多驱犹;采用筆對和 36 鍵編碼后平均碼長也相當短嘲恍;如果不按筆對而按單筆畫輸入,就可以非常容易地向數(shù)字鍵盤移植雙筆碼雄驹。但是雙筆碼的缺點也非常明顯:作為基于筆畫的輸入法佃牛,它的取碼和編碼規(guī)則十分復(fù)雜,另外也不少医舆,學(xué)習(xí)難度仍然很大俘侠;采用了上排數(shù)字鍵進行編碼,擊打不方便蔬将,且與常用數(shù)字的輸入相沖突爷速,影響了實際輸入速度。
陳勁松先生發(fā)明的二筆輸入法是目前使用得比較廣泛的輸入法之一娃胆,已有多家公司和個人推出了該輸入法軟件遍希。它是一種基于聲母和筆畫的輸入法,也可以單純基于筆畫進行輸入里烦。
二筆輸入法用 30 個字符給漢字編碼凿蒜,即 26 個英文字母和 4 個非字母符號 “,./;”禁谦,分別代表 23 個漢語拼音首字母、5 種單筆畫废封、25 種雙筆畫和 10 個設(shè)定部首州泊,共 63 個編碼要素。26 個英文字母中除了 I漂洋、U遥皂、V 三個,其余的 23 個都可以成為漢語拼音的首字母刽漂。5 種單筆畫為橫(一)演训、豎(丨)、撇(丿)贝咙、點(丶)样悟、折(┐)五種基本筆畫。25 種雙筆畫是橫庭猩、豎窟她、撇、點蔼水、折五種單筆畫兩兩組合而成的 25 種筆對震糖。10 個偏旁部首是為了提高輸入速度、減少重碼而設(shè)置的使用頻率最高的偏旁部首趴腋,包括 “钅吊说、木、氵于样、土疏叨、艸潘靖、日(曰)穿剖、月、人(亻)卦溢、口糊余、扌”。 打字時遇設(shè)定部首不能拆分单寂,直接按其代碼鍵贬芥。
二筆輸入法 30 個編碼在通用鍵盤上分布于六個區(qū):五個雙筆畫區(qū)和一個單筆畫區(qū)。區(qū)內(nèi)再根據(jù)雙筆畫的第二筆或根據(jù)單筆畫宣决,按橫蘸劈、豎、撇尊沸、點威沫、折的順序定位贤惯。但 10 個設(shè)定偏旁部首的鍵位需要記憶。
二筆輸入法將漢字按字形結(jié)構(gòu)分為獨體字和合體字棒掠。輸入漢字時孵构,第一碼取漢字拼音首字母,從第二碼起取筆畫烟很,最多取四碼颈墅,不足四碼應(yīng)全取,不能取雙筆畫時就取單筆畫雾袱。獨體字不必拆分恤筛;第一碼取拼音首字母,第二碼起按筆順取筆畫的代碼芹橡,最多取四碼叹俏。合體字應(yīng)拆分成兩半,按漢字筆順規(guī)則僻族,先寫的部分定為前半粘驰,后寫部分為后半;第一碼取取拼音首字母述么,第二碼取前半的第一蝌数、二筆,第三碼取后半的第一度秘、二筆顶伞,第四碼取后半的第三、四筆剑梳。
二筆輸入法詞組的編碼規(guī)則為:二字詞取每個字的前二碼唆貌,三字詞取第一字的前二碼和最后兩個字的第一碼,四字及四字以上詞取前三字和最后一字的第一碼垢乙。
使用二筆輸入法時锨咙,遇到會寫不會讀的字可以用 “;+ 字的全形” 來輸入。遇到會讀不會寫的字可以用 “;+ 全拼碼” 來輸入追逮。
二筆輸入法的優(yōu)點是:編碼規(guī)則比雙筆碼更加簡單酪刀,使用的編碼字符也僅有 30 個;通過使用聲母和筆畫兩種漢字特征信息編碼钮孵,區(qū)分同碼字詞的能力得到了增強骂倘,取得了較高的輸入效率;對于不認識的字還可以按全形方式輸入巴席;如果不按筆對而按單筆畫輸入历涝,也可以非常容易地向數(shù)字鍵盤移植。但是二筆輸入法也還存在問題:由于使用了筆對、設(shè)定部首并需區(qū)分獨體字和合體字進行不同的編碼荧库,因而學(xué)習(xí)難度和使用難度仍然較大诱担。
3.5 數(shù)字鍵盤編碼輸入法
迄今為止,全國手機擁有量已超過 3 億电爹。估計有 15 億人用手機短信息通信蔫仙。手機短信息的產(chǎn)值將超過 50 億人民幣。手機擁有量超過 PC 機用戶丐箩,手機數(shù)字鍵輸入漢字的人群遠遠超過通用大鍵盤輸入漢字的人群摇邦。
目前,美國特捷公司的 T9 拼音和 T9 筆畫輸入法屎勘、加拿大字源公司的字能筆畫輸入法和 Motorola 公司的 iTap 輸入法壟斷了中國大陸和港臺的手機輸入法市場施籍。僅中國大陸每年手機的產(chǎn)量,含 GSM概漱、CDMA丑慎、小靈通,據(jù)不完全統(tǒng)計約在 1 億部以上瓤摧。如果每臺輸入法的 LICENSE 費用按 2 元計算竿裂,加上價格不菲的使用許可費用,也就是說照弥,手機廠商每年需向手機輸入法廠商支付上數(shù)億元的費用腻异。這就給國產(chǎn)手機輸入法占領(lǐng)市場提供了一種必要性和緊迫性。
同時这揣,國外的手機數(shù)字鍵盤輸入法也很不盡人意悔常。以筆畫輸入為例,iTap 用 9 個筆畫给赞,字能用 8 個筆畫机打,T9 用 5 個筆畫。相同的一個筆畫不同的手機可以放在不同的位置上片迅,輸入速度也不理想残邀。
為了打破外國手機輸入法壟斷中國手機市場和手機輸入法不規(guī)范的尷尬局面。由中國中文信息學(xué)會障涯、中國新聞技術(shù)工作者聯(lián)合會罐旗、中國計算機學(xué)會中文信息技術(shù)專委會主辦,由黃金碼出版社 (香港) 有限公司唯蝶、北京漢王科技公司協(xié)辦,中國中文信息學(xué)會漢字編碼專委會遗嗽、中國廣播網(wǎng)等單位承辦粘我,于 2004 年 11 月 21 日,在人民大會堂舉行了為期三天的中國首屆手機中文輸入大賽暨漢字數(shù)字碼輸入技術(shù)應(yīng)用高峰論壇。在 32 支參賽隊伍中征字,有 23 支參加模擬手機漢字數(shù)字碼輸入比賽都弹,9 支參加手機中文輸入比賽。
在手機中文輸入比賽中匙姜,香港黃金碼出版社(香港)有限公司代表隊以黃金碼輸入平臺手機碼輸入法和黃金碼輸入獲得冠亞軍畅厢,北京必勝電腦有限公司代表隊以筆順碼輸入法獲得第三名;計算機模擬手機漢字數(shù)字碼輸入比賽則由浙江象山縣科協(xié)羅康寧代表隊的 “大眾數(shù)字碼輸入法” 奪魁氮昧,來自南京的 “縱橫數(shù)字數(shù)碼雙拼輸入法” 獲得亞軍框杜,必勝電腦公司的 “筆順碼輸入法” 再次獲得第三名;經(jīng)過專家評委的嚴格評估袖肥,漢字數(shù)字碼輸入方案質(zhì)量定性評估和輸入速度綜合優(yōu)秀名次獎中咪辱,大眾數(shù)字碼輸入法再次奪冠,來自廣東國筆科技公司的 “國筆數(shù)碼智能文字輸入系統(tǒng)” 和來自廣州至微數(shù)碼科技公司的 “兩筆數(shù)碼漢字輸入法” 分獲第二名和第三名椎组。
除了已參賽的數(shù)字編碼方案外油狂,比較引人注意的還有王永民先生的五筆數(shù)碼 [52]、鄭巖松先生的左右數(shù)碼 [53] 等寸癌。以下僅對當前使用得最為廣泛的 T9 拼音专筷、T9 筆畫和首屆手機中文輸入大賽中獲得冠軍的黃金碼、大眾數(shù)字碼進行介紹蒸苇。
T9 拼音和 T9 筆畫合稱為 T9 智能中文輸入法仁堪,字庫容量九千多個,是由成立于 1995 年的美國特捷通訊 (Tegic Communications) 軟件公司研制的填渠。該公司總部設(shè)在美國西雅圖弦聂,1999 年 12 月被美國在線 (AOL) 收購后成為其全資子公司,專門致力于開發(fā)用于小型電子設(shè)備的產(chǎn)品和技術(shù)氛什。T9 輸入法就是它的核心產(chǎn)品莺葫,該輸入法解決了小型掌上設(shè)備的包括中文在內(nèi)的文字輸入問題,已經(jīng)成為全球手機文字輸入的標準之一枪眉。
T9 拼音本質(zhì)上采用的是一種全拼單字加聯(lián)想的早期通用鍵盤輸入技術(shù)捺檬。其最重要的創(chuàng)新是可以根據(jù)手機鍵盤上按鍵的組合情況判斷是否能組合成合法的普通話音節(jié),從而避免了傳統(tǒng)上通過多次按鍵來輸入一個拼音字母的弊端贸铜。但是堡纬,當按鍵組合適合多個合法的普通話音節(jié),而且默認選擇的普通話音節(jié)又不是用戶所需要的時蒿秦,用戶還是得進行手動選擇烤镐。另外,全拼的拼式過長棍鳖、需要按 1 鍵進入選擇狀態(tài)和聯(lián)想造成的過度人機交互都使得 T9 拼音的輸入效率很低炮叶,而且全拼對普通話不好的人難度很大碗旅。
T9 筆畫采用目前多數(shù)輸入法對筆畫的歸類方法將漢字筆畫歸為橫、豎镜悉、撇祟辟、點、折五類侣肄,分別用 1旧困、2、3稼锅、4吼具、5 表示。錄漢字時缰贝,按筆順進行輸入馍悟,逐鍵提示,每屏數(shù)個剩晴,高頻優(yōu)先锣咒,最長可輸入 12 劃,并支持聯(lián)想赞弥。由于分別使用五個鍵表示五種筆畫毅整,因此不需要像 T9 拼音一樣對組合情況進行智能判斷,內(nèi)部處理邏輯很簡單绽左。然而悼嫉,因為 T9 筆畫充分利用了豐富的筆畫信息和不等長碼的短碼位,并可以直接鍵選重碼字拼窥,所以它的實際輸入效率比 T9 拼音還高戏蔑,只可惜很多用戶還不知道這一點。使用筆畫輸入存在的問題是鲁纠,有個別的字的筆順不易掌握总棵。好在國家已有成熟的筆順標準可以作為輸入這類字時的依據(jù)。
大眾數(shù)字碼用 10 個數(shù)字對字詞進行編碼改含。除了用 1情龄、2、3捍壤、4骤视、5 分別表示橫、豎鹃觉、撇专酗、點、折五種筆畫外帜慢,還用 6笼裳、7唯卖、8粱玲、9躬柬、0 分別表示交、插抽减、八允青、小、口五類部件 [54]卵沉。單字按筆順取第一颠锉、二、三史汗、四琼掠、末五個代碼、不足時按實際碼長停撞。對于可按左右瓷蛙、上下或內(nèi)外分成首部和尾部二部分的漢字,取碼規(guī)則還可以變更為 “首 2 尾 3” 或 “首 2 尾 2”戈毒。詞組的碼長均為 6 位艰猬。這樣,單字和詞組可以各字擁有獨立的編碼空間埋市。單字輸入時需要用非數(shù)字鍵作為結(jié)束鍵冠桃,詞組輸入時不需要專門的結(jié)束鍵。大眾數(shù)字碼使用了相當多的筆畫組合作為部件道宅,但由于歸類清晰食听,記憶起來比很多同類的輸入法要容易些,加上精心的編碼規(guī)則降低了重碼率污茵,使得它在比賽中脫穎而出樱报。不過,應(yīng)當看到它使用的部件相當多省咨,編碼規(guī)則也并不簡單肃弟,學(xué)習(xí)難度還是相當大的。同時零蓉,除了漢字特征信息的選取和字詞編碼規(guī)則外笤受,它在其它方面還沒有什么引人注目的獨特之處。
黃金碼用 9 個數(shù)字對字詞進行編碼敌蜂。除了用 1箩兽、2、3章喉、4汗贫、5 分別表示橫身坐、豎、撇落包、點部蛇、折五種筆畫外,還用 6咐蝇、7涯鲁、8、9 分別表示 “口”有序、“十”抹腿、“八”、“亠” 四類部件旭寿。編碼時分字首和字尾警绩,也區(qū)分獨體字與合體字的不同。在提示行不為空時盅称,0肩祥、* 和 #用做選擇鍵。黃金碼最大的特色是微渠,在輸入時若用于編碼的數(shù)字與已輸入的編碼一起不能構(gòu)成另外的字詞編碼時搭幻,該數(shù)字鍵就可以用于選擇同碼字詞,這樣就大大地增加的輸入法的鍵選能力逞盆,縮短的動態(tài)平均碼長檀蹋;結(jié)合高頻先見的不等長碼的使用,在輸入時基本上不用翻頁云芦,進一步提高了輸入效率俯逾。不過,字首與字尾的區(qū)分沒有標準可循舅逸,常常因人而異桌肴;動態(tài)地使用剩余編碼鍵選擇重碼字詞也造成選擇鍵位置變化太大,加重了人機交互的負擔琉历。