漢字編碼輸入系統(tǒng)模型（一）

通過前面介紹的通信系統(tǒng)模型來分析漢字編碼輸入系統(tǒng)杀捻，將漢字編碼輸入系統(tǒng)的特殊性整合到通信系統(tǒng)模型中致讥，從而建立起一種基于信息論的漢字編碼輸入系統(tǒng)模型（參見圖3.2）器赞，以便指導我們的漢字編碼輸入實踐，設計和開發(fā)出更好的漢字編碼輸入法请契。

在圖3.2中夏醉，M代表消息畔柔，C代表編碼，S’代表編碼的內(nèi)碼腮考，M’代表消息的內(nèi)碼玄捕。與信息論中的通信系統(tǒng)模型相比枚粘，該圖中的模型僅僅是多了一個反向信道，而其它部分都是相同的捞蛋，相當于一個帶反饋的通信系統(tǒng)柬姚。雖然模型中各部分的具體含義與典型的通信系統(tǒng)中的相應部分大不相同，但是信息論中的普遍結(jié)論仍然是成立的搬设。

漢字編碼輸入系統(tǒng)的信源

在漢字編碼輸入系統(tǒng)這個特殊的通信系統(tǒng)中拿穴，充當信源的是輸入人員，而不是一般的電子設備球凰。輸入人員是一種離散信源呕诉，他產(chǎn)生的消息序列就是待輸入的文本吃度。消息可以是單個的字符，也可以是字符的序列伊者。消息中不僅包括漢字亦渗，還包括標點兑牡、符號均函、拼音等菱涤，不僅包括全角字符還可以包括半角字符粘秆。所有的這些符號一起構(gòu)成了源字母表。在中文信息處理領域殷勘，該字母表通常被稱為“信息交換用漢字編碼字符集”昔搂。在不同的國家和地區(qū)摘符，以及在不同的時期策吠，這個字符集的大小和包含的具體字符是不同的瘩绒。臺灣在字符集方面有自己獨立的BIG5工業(yè)標準。另外蟀给，日本、韓國也在使用漢字跋理，也有各自的標準薪介。在中國大陸汁政，字符集的主要發(fā)展歷程是由GB2312（6763個漢字）到GB13000（20902個漢字）再到GB18030（27533個漢字）

① 漢字編碼輸入系統(tǒng)信源的統(tǒng)計結(jié)構(gòu)

在討論語言文字信源的統(tǒng)計結(jié)構(gòu)時缀旁，一般都不考慮標點符號并巍。這里討論漢字信源的統(tǒng)計結(jié)構(gòu)也不考慮非漢字符號懊渡。源字母表中的字符可以是單字，也可以是詞誓禁。漢字信源可以用一個馬爾柯夫鏈（或稱離散馬爾柯夫過程）來描述摹恰。馬爾柯夫鏈的階可高可低怒见，階數(shù)越高對漢字信源的描述就越準確。在階數(shù)相同時闺阱，以詞為源字母表中的字符又比以單字為源字母表中的字符準確馏颂。但是难审，越準確的描述需要的運算量就越大告喊。

對于一般漢字輸入編碼來說黔姜，只有單字的零階熵和詞的零階熵實際意義最大秆吵。漢字的最大熵和極限熵也有很大的理論價值纳寂。另外兩個比較重要的派生指標是漢字信源的相對熵和冗余度毙芜。下面我們就這些內(nèi)容加以討論争拐。

對于單字的零階熵，由于出現(xiàn)概率越小的漢字對零階熵的影響越小绑雄，且漢字的概率分布極均勻绳慎，所以如果以漢字出現(xiàn)概率的高低收錄漢字的話杏愤，當字集的大小達到一定程度后慢洋，不論漢字數(shù)量如何增加黍图，漢字的零階熵都幾乎不再變化觉增。GB2312曲聂、GB13000朋腋、GB18030三者所收錄漢字的數(shù)量是遞增的赌厅，然而所增加的漢字都幾乎是低頻的漢字仲墨，因此GB2312中的漢字也就基本上決定了漢字的零階熵洽议，字符集的增大對其影響不大宗收。目前學者們對現(xiàn)代漢字零階熵計算的結(jié)果比較一致亚兄，大約為9.66比特。

對于單字的零階熵匈勋，由于出現(xiàn)概率越小的漢字對零階熵的影響越小膳叨，且漢字的概率分布極均勻，所以如果以漢字出現(xiàn)概率的高低收錄漢字的話菲嘴，當字集的大小達到一定程度后，不論漢字數(shù)量如何增加昭雌，漢字的零階熵都幾乎不再變化健田。GB2312烛卧、GB13000妓局、GB18030三者所收錄漢字的數(shù)量是遞增的总放，然而所增加的漢字都幾乎是低頻的漢字甥啄，因此GB2312中的漢字也就基本上決定了漢字的零階熵尚蝌，字符集的增大對其影響不大姿鸿。目前學者們對現(xiàn)代漢字零階熵計算的結(jié)果比較一致热某，大約為9.66比特。

對于詞的零階熵，情況和單字的零階熵類似凰兑，只是計算的規(guī)模要大得多锅知。目前昌妹，詞的零階熵結(jié)果大約是11.46比特/詞固歪。根據(jù)北京航空航天大學等單位承擔的“七五”國家重點科技攻關(guān)項目“現(xiàn)代漢語詞頻統(tǒng)計”所得的結(jié)果（參見表3.1）蒲讯，詞的平均長度為1.5字脊另。這樣踩麦，把詞的零階熵折合為漢字熵的結(jié)果為11.46/1.5=7.64贪婉。

② 輸入方式對漢字信源熵率的影響

在“看打”時幅垮，輸入者產(chǎn)生消息的速度肯定會受到其閱讀速度的制約呵萨。另外跑杭，因輸入者打字的熟練程度不同窄做，他還需要不同程度地查看屏幕上提示的反饋信息，這種來回視線轉(zhuǎn)移所造成的字詞定位困難會進一步限制他產(chǎn)生消息的速度乌叶。越依賴屏幕提示的輸入法對“看打”時產(chǎn)生消息的速度影響越大求橄。比如“全拼”就比“五筆字型”對屏幕提示的依賴性大得多，除非能記住重碼字詞的位置夹厌，否則“看打”時效率非常低下或南。

在“聽打”時，漢字信源熵率取決于口述者的說話速度和錄入者的聽話速度逝薪。如果前者超過后者感局，那么后者就成為速度瓶頸唧领。如果前者慢于后者鸽心，那么前者就成為速度瓶頸。一般來講温学，口授者是邊思維邊說話讽膏，因此口授者的說話速度又受其思維速度的限制垄潮。

在“想打”時，漢字信源熵率主要取決于錄入者的思維速度潦闲。

無論是“聽打”還是“想打”，錄入者一般都是注視著插入光標進行操作的芭逝，因此在插入光標處或在插入光標附近提供適當?shù)姆答佇畔⒖梢詭椭麥p少記憶量旬盯，并且不會對信源熵率產(chǎn)生太大的影響切厘。

③ 特定輸入者對漢字信源統(tǒng)計結(jié)構(gòu)的影響

上述漢字信源統(tǒng)計結(jié)構(gòu)的結(jié)果都是以漢字使用者全體所產(chǎn)生的漢字文本為基礎進行統(tǒng)計而得出來的某弦。但是拣度，不同的輸入者有不同的知識背景和字詞使用習慣。如果統(tǒng)計僅局限于某個輸入者所產(chǎn)生的漢字文本，則不同的輸入者將會成為具有不同統(tǒng)計結(jié)構(gòu)的信源。為了適應個性化輸入的需要裹赴，輸入法軟件應該能夠可針對不同用戶采用不同的優(yōu)化編碼。進一步射沟，還可以在用戶輸入不同領域的內(nèi)容時動態(tài)地提供不同的編碼，使輸入法更具利用特殊場景的能力验夯。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末挥转，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子绑谣，更是在濱河造成了極大的恐慌，老刑警劉巖幌衣，帶你破解...
沈念sama閱讀 223,207評論 6贊 521
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件壤玫，死亡現(xiàn)場離奇詭異，居然都是意外死亡垦细，警方通過查閱死者的電腦和手機挡逼，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,455評論 3贊 400
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門家坎，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人虱疏，你說我怎么就攤上這事《苑啵” “怎么了装蓬？”我有些...
開封第一講書人閱讀 170,031評論 0贊 366
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長牍帚。經(jīng)常有香客問我，道長鄙币，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 60,334評論 1贊 300
?港島之戀（遺憾婚禮）
正文為了忘掉前任因惭，我火速辦了婚禮详幽，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘唇聘。我一直安慰自己，他們只是感情好迟郎，可當我...
茶點故事閱讀 69,322評論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布宪肖。她就那樣靜靜地躺著，像睡著了一般控乾。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上壤短，一...
開封第一講書人閱讀 52,895評論 1贊 314
城市分裂傳說
那天慨仿，我揣著相機與錄音，去河邊找鬼镰吆。笑死，一個胖子當著我的面吹牛摧找，可吹牛的內(nèi)容都是我干的牢硅。我是一名探鬼主播，決...
沈念sama閱讀 41,300評論 3贊 424
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼唤衫，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了休里？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 40,264評論 0贊 277
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤悴侵，失蹤者是張志新（化名）和其女友劉穎拭嫁，沒想到半個月后可免，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體做粤，經(jīng)...
沈念sama閱讀 46,784評論 1贊 321
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡怕品，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,870評論 3贊 343
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了闯估。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,989評論 1贊 354
活死人
序言：一個原本活蹦亂跳的男人離奇死亡涨薪，死狀恐怖炫乓，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情厢岂，我是刑警寧澤阳距，帶...
沈念sama閱讀 36,649評論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布筐摘，位于F島的核電站，受9級特大地震影響咖熟，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜馍管，卻給世界環(huán)境...
茶點故事閱讀 42,331評論 3贊 336
男人毒藥：我在死后第九天來索命
文/蒙蒙一确沸、第九天我趴在偏房一處隱蔽的房頂上張望捌锭。院中可真熱鬧，春花似錦拉盾、人聲如沸豁状。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,814評論 0贊 25
一樁弒父案泻红，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至驻粟，卻和暖如春凶异，著一層夾襖步出監(jiān)牢的瞬間蜀撑，已是汗流浹背剩彬。一陣腳步聲響...
開封第一講書人閱讀 33,940評論 1贊 275
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留沃饶，地道東北人轻黑。一個月前我還...
沈念sama閱讀 49,452評論 3贊 379
代替公主和親
正文我出身青樓，卻偏偏與公主長得像馆揉，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子升酣，可洞房花燭夜當晚...
茶點故事閱讀 45,995評論 2贊 361

漢字編碼輸入系統(tǒng)模型（一）

推薦閱讀更多精彩內(nèi)容