漢字編碼輸入系統(tǒng)模型(一)

通過前面介紹的通信系統(tǒng)模型來分析漢字編碼輸入系統(tǒng)杀捻,將漢字編碼輸入系統(tǒng)的特殊性整合到通信系統(tǒng)模型中致讥,從而建立起一種基于信息論的漢字編碼輸入系統(tǒng)模型(參見圖3.2)器赞,以便指導我們的漢字編碼輸入實踐,設計和開發(fā)出更好的漢字編碼輸入法请契。

在圖3.2中夏醉,M代表消息畔柔,C代表編碼,S’代表編碼的內(nèi)碼腮考,M’代表消息的內(nèi)碼玄捕。與信息論中的通信系統(tǒng)模型相比枚粘,該圖中的模型僅僅是多了一個反向信道,而其它部分都是相同的捞蛋,相當于一個帶反饋的通信系統(tǒng)柬姚。雖然模型中各部分的具體含義與典型的通信系統(tǒng)中的相應部分大不相同,但是信息論中的普遍結(jié)論仍然是成立的搬设。


漢字編碼輸入系統(tǒng)的信源

在漢字編碼輸入系統(tǒng)這個特殊的通信系統(tǒng)中拿穴,充當信源的是輸入人員,而不是一般的電子設備球凰。輸入人員是一種離散信源呕诉,他產(chǎn)生的消息序列就是待輸入的文本吃度。消息可以是單個的字符,也可以是字符的序列伊者。消息中不僅包括漢字亦渗,還包括標點兑牡、符號均函、拼音等菱涤,不僅包括全角字符還可以包括半角字符粘秆。所有的這些符號一起構(gòu)成了源字母表。在中文信息處理領域殷勘,該字母表通常被稱為“信息交換用漢字編碼字符集”昔搂。在不同的國家和地區(qū)摘符,以及在不同的時期策吠,這個字符集的大小和包含的具體字符是不同的瘩绒。臺灣在字符集方面有自己獨立的BIG5工業(yè)標準。另外蟀给,日本、韓國也在使用漢字跋理,也有各自的標準薪介。在中國大陸汁政,字符集的主要發(fā)展歷程是由GB2312(6763個漢字)到GB13000(20902個漢字)再到GB18030(27533個漢字)

① 漢字編碼輸入系統(tǒng)信源的統(tǒng)計結(jié)構(gòu)

在討論語言文字信源的統(tǒng)計結(jié)構(gòu)時缀旁,一般都不考慮標點符號并巍。這里討論漢字信源的統(tǒng)計結(jié)構(gòu)也不考慮非漢字符號懊渡。源字母表中的字符可以是單字,也可以是詞誓禁。漢字信源可以用一個馬爾柯夫鏈(或稱離散馬爾柯夫過程)來描述摹恰。馬爾柯夫鏈的階可高可低怒见,階數(shù)越高對漢字信源的描述就越準確。在階數(shù)相同時闺阱,以詞為源字母表中的字符又比以單字為源字母表中的字符準確馏颂。但是难审,越準確的描述需要的運算量就越大告喊。

對于一般漢字輸入編碼來說黔姜,只有單字的零階熵和詞的零階熵實際意義最大秆吵。漢字的最大熵和極限熵也有很大的理論價值纳寂。另外兩個比較重要的派生指標是漢字信源的相對熵和冗余度毙芜。下面我們就這些內(nèi)容加以討論争拐。

對于單字的零階熵,由于出現(xiàn)概率越小的漢字對零階熵的影響越小绑雄,且漢字的概率分布極均勻绳慎,所以如果以漢字出現(xiàn)概率的高低收錄漢字的話杏愤,當字集的大小達到一定程度后慢洋,不論漢字數(shù)量如何增加黍图,漢字的零階熵都幾乎不再變化觉增。GB2312曲聂、GB13000朋腋、GB18030三者所收錄漢字的數(shù)量是遞增的赌厅,然而所增加的漢字都幾乎是低頻的漢字仲墨,因此GB2312中的漢字也就基本上決定了漢字的零階熵洽议,字符集的增大對其影響不大宗收。目前學者們對現(xiàn)代漢字零階熵計算的結(jié)果比較一致亚兄,大約為9.66比特。

對于單字的零階熵匈勋,由于出現(xiàn)概率越小的漢字對零階熵的影響越小膳叨,且漢字的概率分布極均勻,所以如果以漢字出現(xiàn)概率的高低收錄漢字的話菲嘴,當字集的大小達到一定程度后,不論漢字數(shù)量如何增加昭雌,漢字的零階熵都幾乎不再變化健田。GB2312烛卧、GB13000妓局、GB18030三者所收錄漢字的數(shù)量是遞增的总放,然而所增加的漢字都幾乎是低頻的漢字甥啄,因此GB2312中的漢字也就基本上決定了漢字的零階熵尚蝌,字符集的增大對其影響不大姿鸿。目前學者們對現(xiàn)代漢字零階熵計算的結(jié)果比較一致热某,大約為9.66比特。

對于詞的零階熵,情況和單字的零階熵類似凰兑,只是計算的規(guī)模要大得多锅知。目前昌妹,詞的零階熵結(jié)果大約是11.46比特/詞固歪。根據(jù)北京航空航天大學等單位承擔的“七五”國家重點科技攻關(guān)項目“現(xiàn)代漢語詞頻統(tǒng)計”所得的結(jié)果(參見表3.1)蒲讯,詞的平均長度為1.5字脊另。這樣踩麦,把詞的零階熵折合為漢字熵的結(jié)果為11.46/1.5=7.64贪婉。

② 輸入方式對漢字信源熵率的影響

在“看打”時幅垮,輸入者產(chǎn)生消息的速度肯定會受到其閱讀速度的制約呵萨。另外跑杭,因輸入者打字的熟練程度不同窄做,他還需要不同程度地查看屏幕上提示的反饋信息,這種來回視線轉(zhuǎn)移所造成的字詞定位困難會進一步限制他產(chǎn)生消息的速度乌叶。越依賴屏幕提示的輸入法對“看打”時產(chǎn)生消息的速度影響越大求橄。比如“全拼”就比“五筆字型”對屏幕提示的依賴性大得多,除非能記住重碼字詞的位置夹厌,否則“看打”時效率非常低下或南。

在“聽打”時,漢字信源熵率取決于口述者的說話速度和錄入者的聽話速度逝薪。如果前者超過后者感局,那么后者就成為速度瓶頸唧领。如果前者慢于后者鸽心,那么前者就成為速度瓶頸。一般來講温学,口授者是邊思維邊說話讽膏,因此口授者的說話速度又受其思維速度的限制垄潮。

在“想打”時,漢字信源熵率主要取決于錄入者的思維速度潦闲。

無論是“聽打”還是“想打”,錄入者一般都是注視著插入光標進行操作的芭逝,因此在插入光標處或在插入光標附近提供適當?shù)姆答佇畔⒖梢詭椭麥p少記憶量旬盯,并且不會對信源熵率產(chǎn)生太大的影響切厘。

③ 特定輸入者對漢字信源統(tǒng)計結(jié)構(gòu)的影響

上述漢字信源統(tǒng)計結(jié)構(gòu)的結(jié)果都是以漢字使用者全體所產(chǎn)生的漢字文本為基礎進行統(tǒng)計而得出來的某弦。但是拣度,不同的輸入者有不同的知識背景和字詞使用習慣。如果統(tǒng)計僅局限于某個輸入者所產(chǎn)生的漢字文本,則不同的輸入者將會成為具有不同統(tǒng)計結(jié)構(gòu)的信源。為了適應個性化輸入的需要裹赴,輸入法軟件應該能夠可針對不同用戶采用不同的優(yōu)化編碼。進一步射沟,還可以在用戶輸入不同領域的內(nèi)容時動態(tài)地提供不同的編碼,使輸入法更具利用特殊場景的能力验夯。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末挥转,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子绑谣,更是在濱河造成了極大的恐慌,老刑警劉巖幌衣,帶你破解...
    沈念sama閱讀 223,207評論 6 521
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件壤玫,死亡現(xiàn)場離奇詭異,居然都是意外死亡垦细,警方通過查閱死者的電腦和手機挡逼,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,455評論 3 400
  • 文/潘曉璐 我一進店門家坎,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人虱疏,你說我怎么就攤上這事《苑啵” “怎么了装蓬?”我有些...
    開封第一講書人閱讀 170,031評論 0 366
  • 文/不壞的土叔 我叫張陵,是天一觀的道長牍帚。 經(jīng)常有香客問我,道長鄙币,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 60,334評論 1 300
  • 正文 為了忘掉前任因惭,我火速辦了婚禮详幽,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘唇聘。我一直安慰自己,他們只是感情好迟郎,可當我...
    茶點故事閱讀 69,322評論 6 398
  • 文/花漫 我一把揭開白布宪肖。 她就那樣靜靜地躺著,像睡著了一般控乾。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上壤短,一...
    開封第一講書人閱讀 52,895評論 1 314
  • 那天慨仿,我揣著相機與錄音,去河邊找鬼镰吆。 笑死,一個胖子當著我的面吹牛摧找,可吹牛的內(nèi)容都是我干的牢硅。 我是一名探鬼主播,決...
    沈念sama閱讀 41,300評論 3 424
  • 文/蒼蘭香墨 我猛地睜開眼唤衫,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了休里?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 40,264評論 0 277
  • 序言:老撾萬榮一對情侶失蹤悴侵,失蹤者是張志新(化名)和其女友劉穎拭嫁,沒想到半個月后可免,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體做粤,經(jīng)...
    沈念sama閱讀 46,784評論 1 321
  • 正文 獨居荒郊野嶺守林人離奇死亡怕品,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,870評論 3 343
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了闯估。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,989評論 1 354
  • 序言:一個原本活蹦亂跳的男人離奇死亡涨薪,死狀恐怖炫乓,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情厢岂,我是刑警寧澤阳距,帶...
    沈念sama閱讀 36,649評論 5 351
  • 正文 年R本政府宣布筐摘,位于F島的核電站,受9級特大地震影響咖熟,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜馍管,卻給世界環(huán)境...
    茶點故事閱讀 42,331評論 3 336
  • 文/蒙蒙 一确沸、第九天 我趴在偏房一處隱蔽的房頂上張望捌锭。 院中可真熱鬧,春花似錦拉盾、人聲如沸豁状。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,814評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至驻粟,卻和暖如春凶异,著一層夾襖步出監(jiān)牢的瞬間蜀撑,已是汗流浹背剩彬。 一陣腳步聲響...
    開封第一講書人閱讀 33,940評論 1 275
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留沃饶,地道東北人轻黑。 一個月前我還...
    沈念sama閱讀 49,452評論 3 379
  • 正文 我出身青樓,卻偏偏與公主長得像馆揉,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子升酣,可洞房花燭夜當晚...
    茶點故事閱讀 45,995評論 2 361

推薦閱讀更多精彩內(nèi)容

  • 本文是本人于 2003 年做的研究生論文綜述噩茄,權(quán)當作一個遙遠的輸入法歷史回顧吧。這次重新整理成 HTML 格式的同...
    聲筆系列閱讀 777評論 0 1
  • 在軟件工程中绩聘,軟件產(chǎn)品的質(zhì)量是由軟件的一組質(zhì)量屬性來定義的。漢字編碼輸入法也是一種軟件產(chǎn)品君纫,但有其特殊性,不能完全...
    聲筆系列閱讀 422評論 0 0
  • 3 實用系統(tǒng) 3.1 實用系統(tǒng)分類 最常見的分類法是按編碼時使用的特征信息元(或稱字元)將漢字編碼輸入法分為音碼叉庐、...
    聲筆系列閱讀 1,068評論 0 0
  • 3.4 第三代漢字編碼輸入法 到了九十年代末会喝,隨著微微機價格的進一步降低、存儲處理能力的進一步增強枉阵、Windows...
    聲筆系列閱讀 552評論 0 0
  • 我是黑夜里大雨紛飛的人啊 1 “又到一年六月预茄,有人笑有人哭,有人歡樂有人憂愁耻陕,有人驚喜有人失落,有的覺得收獲滿滿有...
    陌忘宇閱讀 8,547評論 28 53