通過前面介紹的通信系統(tǒng)模型來分析漢字編碼輸入系統(tǒng)杀捻,將漢字編碼輸入系統(tǒng)的特殊性整合到通信系統(tǒng)模型中致讥,從而建立起一種基于信息論的漢字編碼輸入系統(tǒng)模型(參見圖3.2)器赞,以便指導我們的漢字編碼輸入實踐,設計和開發(fā)出更好的漢字編碼輸入法请契。
在圖3.2中夏醉,M代表消息畔柔,C代表編碼,S’代表編碼的內(nèi)碼腮考,M’代表消息的內(nèi)碼玄捕。與信息論中的通信系統(tǒng)模型相比枚粘,該圖中的模型僅僅是多了一個反向信道,而其它部分都是相同的捞蛋,相當于一個帶反饋的通信系統(tǒng)柬姚。雖然模型中各部分的具體含義與典型的通信系統(tǒng)中的相應部分大不相同,但是信息論中的普遍結(jié)論仍然是成立的搬设。
漢字編碼輸入系統(tǒng)的信源
在漢字編碼輸入系統(tǒng)這個特殊的通信系統(tǒng)中拿穴,充當信源的是輸入人員,而不是一般的電子設備球凰。輸入人員是一種離散信源呕诉,他產(chǎn)生的消息序列就是待輸入的文本吃度。消息可以是單個的字符,也可以是字符的序列伊者。消息中不僅包括漢字亦渗,還包括標點兑牡、符號均函、拼音等菱涤,不僅包括全角字符還可以包括半角字符粘秆。所有的這些符號一起構(gòu)成了源字母表。在中文信息處理領域殷勘,該字母表通常被稱為“信息交換用漢字編碼字符集”昔搂。在不同的國家和地區(qū)摘符,以及在不同的時期策吠,這個字符集的大小和包含的具體字符是不同的瘩绒。臺灣在字符集方面有自己獨立的BIG5工業(yè)標準。另外蟀给,日本、韓國也在使用漢字跋理,也有各自的標準薪介。在中國大陸汁政,字符集的主要發(fā)展歷程是由GB2312(6763個漢字)到GB13000(20902個漢字)再到GB18030(27533個漢字)
① 漢字編碼輸入系統(tǒng)信源的統(tǒng)計結(jié)構(gòu)
在討論語言文字信源的統(tǒng)計結(jié)構(gòu)時缀旁,一般都不考慮標點符號并巍。這里討論漢字信源的統(tǒng)計結(jié)構(gòu)也不考慮非漢字符號懊渡。源字母表中的字符可以是單字,也可以是詞誓禁。漢字信源可以用一個馬爾柯夫鏈(或稱離散馬爾柯夫過程)來描述摹恰。馬爾柯夫鏈的階可高可低怒见,階數(shù)越高對漢字信源的描述就越準確。在階數(shù)相同時闺阱,以詞為源字母表中的字符又比以單字為源字母表中的字符準確馏颂。但是难审,越準確的描述需要的運算量就越大告喊。
對于一般漢字輸入編碼來說黔姜,只有單字的零階熵和詞的零階熵實際意義最大秆吵。漢字的最大熵和極限熵也有很大的理論價值纳寂。另外兩個比較重要的派生指標是漢字信源的相對熵和冗余度毙芜。下面我們就這些內(nèi)容加以討論争拐。
對于單字的零階熵,由于出現(xiàn)概率越小的漢字對零階熵的影響越小绑雄,且漢字的概率分布極均勻绳慎,所以如果以漢字出現(xiàn)概率的高低收錄漢字的話杏愤,當字集的大小達到一定程度后慢洋,不論漢字數(shù)量如何增加黍图,漢字的零階熵都幾乎不再變化觉增。GB2312曲聂、GB13000朋腋、GB18030三者所收錄漢字的數(shù)量是遞增的赌厅,然而所增加的漢字都幾乎是低頻的漢字仲墨,因此GB2312中的漢字也就基本上決定了漢字的零階熵洽议,字符集的增大對其影響不大宗收。目前學者們對現(xiàn)代漢字零階熵計算的結(jié)果比較一致亚兄,大約為9.66比特。
對于單字的零階熵匈勋,由于出現(xiàn)概率越小的漢字對零階熵的影響越小膳叨,且漢字的概率分布極均勻,所以如果以漢字出現(xiàn)概率的高低收錄漢字的話菲嘴,當字集的大小達到一定程度后,不論漢字數(shù)量如何增加昭雌,漢字的零階熵都幾乎不再變化健田。GB2312烛卧、GB13000妓局、GB18030三者所收錄漢字的數(shù)量是遞增的总放,然而所增加的漢字都幾乎是低頻的漢字甥啄,因此GB2312中的漢字也就基本上決定了漢字的零階熵尚蝌,字符集的增大對其影響不大姿鸿。目前學者們對現(xiàn)代漢字零階熵計算的結(jié)果比較一致热某,大約為9.66比特。
對于詞的零階熵,情況和單字的零階熵類似凰兑,只是計算的規(guī)模要大得多锅知。目前昌妹,詞的零階熵結(jié)果大約是11.46比特/詞固歪。根據(jù)北京航空航天大學等單位承擔的“七五”國家重點科技攻關(guān)項目“現(xiàn)代漢語詞頻統(tǒng)計”所得的結(jié)果(參見表3.1)蒲讯,詞的平均長度為1.5字脊另。這樣踩麦,把詞的零階熵折合為漢字熵的結(jié)果為11.46/1.5=7.64贪婉。
② 輸入方式對漢字信源熵率的影響
在“看打”時幅垮,輸入者產(chǎn)生消息的速度肯定會受到其閱讀速度的制約呵萨。另外跑杭,因輸入者打字的熟練程度不同窄做,他還需要不同程度地查看屏幕上提示的反饋信息,這種來回視線轉(zhuǎn)移所造成的字詞定位困難會進一步限制他產(chǎn)生消息的速度乌叶。越依賴屏幕提示的輸入法對“看打”時產(chǎn)生消息的速度影響越大求橄。比如“全拼”就比“五筆字型”對屏幕提示的依賴性大得多,除非能記住重碼字詞的位置夹厌,否則“看打”時效率非常低下或南。
在“聽打”時,漢字信源熵率取決于口述者的說話速度和錄入者的聽話速度逝薪。如果前者超過后者感局,那么后者就成為速度瓶頸唧领。如果前者慢于后者鸽心,那么前者就成為速度瓶頸。一般來講温学,口授者是邊思維邊說話讽膏,因此口授者的說話速度又受其思維速度的限制垄潮。
在“想打”時,漢字信源熵率主要取決于錄入者的思維速度潦闲。
無論是“聽打”還是“想打”,錄入者一般都是注視著插入光標進行操作的芭逝,因此在插入光標處或在插入光標附近提供適當?shù)姆答佇畔⒖梢詭椭麥p少記憶量旬盯,并且不會對信源熵率產(chǎn)生太大的影響切厘。
③ 特定輸入者對漢字信源統(tǒng)計結(jié)構(gòu)的影響
上述漢字信源統(tǒng)計結(jié)構(gòu)的結(jié)果都是以漢字使用者全體所產(chǎn)生的漢字文本為基礎進行統(tǒng)計而得出來的某弦。但是拣度,不同的輸入者有不同的知識背景和字詞使用習慣。如果統(tǒng)計僅局限于某個輸入者所產(chǎn)生的漢字文本,則不同的輸入者將會成為具有不同統(tǒng)計結(jié)構(gòu)的信源。為了適應個性化輸入的需要裹赴,輸入法軟件應該能夠可針對不同用戶采用不同的優(yōu)化編碼。進一步射沟,還可以在用戶輸入不同領域的內(nèi)容時動態(tài)地提供不同的編碼,使輸入法更具利用特殊場景的能力验夯。