1 打字速度
對許多人來說妥凳,打字速度是個謎竟贯。這里的謎有三層意思:迷信、迷惑逝钥、迷失屑那!迷信者盲目崇拜打字飛快的高手,希望有朝一日也取得同樣的成就艘款。迷惑者覺得有些人演示的速度太離譜持际、不可信,但又不知道是為什么哗咆。迷失者對自己感到失望蜘欲,懷疑自己的能力,甚至覺得自己是個笨蛋晌柬,為什么我同排行榜上的打字高手差距那么大姥份?
這個迷怎么破郭脂?讓我慢慢道來。首先澈歉,我們要弄清打字速度究竟是什么展鸡。怎么定義打字速度呢?打字速度 s 的計算公式如下:
s = r ÷ l,
其中埃难,s 是指每分鐘輸入的字數(shù)莹弊,即打字速度,簡稱為字速涡尘,單位為字 / 分忍弛;r 是指每分鐘的擊鍵次數(shù),稱為鍵速考抄,單位為鍵 / 分细疚;l 是指平均每個字的用鍵數(shù),包括空格座泳、選擇鍵惠昔、翻頁鍵等幕与,稱為碼長挑势,單位為鍵。
一般的打字練習軟件在計算時字數(shù)時啦鸣,不僅包括漢字潮饱,還包括了標點符號,甚至包括了英文字母和數(shù)字等诫给,這會造成字速的失真香拉,因為非漢字字符常常只需要一鍵就能輸入了,導致碼長被非真實地縮短中狂。
從字速的計算公式可以看出凫碌,打字速度取決于鍵速和碼長兩個因素。在碼長一定的情況下胃榕,影響打字速度的決定性因素就是擊鍵盛险。在擊鍵一定的情況下,決定打字速度的因素就是碼長勋又。然而苦掘,鍵速和碼長都受很多因素的影響,情況相當復雜楔壤,將在接下來的兩節(jié)詳細論述鹤啡。
然而,鍵速和碼長都是統(tǒng)計平均值蹲嚣,是根據(jù)一定時間 t 內輸入的總字數(shù) c 和總用鍵數(shù) n 計算出來的:
r = n ÷ t
l = n ÷ c
2 鍵速
在中文輸入時的鍵速會受很多因素的影響递瑰,絕不是單純的一個擊鍵動作祟牲。花費更多時間的抖部,往往是擊鍵之前的一系列活動疲眷。看打時的預讀和想打時的思考您朽,字詞的編碼過程狂丝,提示選項的查看,這些常常會成為影響鍵速的關鍵因素哗总。
編碼方式和碼元集大小也會影響鍵速几颜。編碼盡量采用易于擊打的組合,碼元集盡量小讯屈,都有利于加快擊鍵蛋哭,有利于提高打字速度,但卻會增加碼長涮母,又同時會降低打字速度谆趾。偏面強調一方面都是不行的,如何平衡兩者才是最關鍵的叛本。
中文輸入過程所花費的時間等于獲取時間沪蓬、編碼時間、擊打時間来候、選擇時間跷叉、回改時間和處理時間之和。獲取時間在看打時就是預讀時間营搅,在聽打時則是聽取時間云挟,而在想打時就是思考時間。現(xiàn)代設備转质,不論是電腦還是手機园欣,其處理時間都是非常短的,在人操作的同時進行的休蟹,一般可以忽略不計沸枯,只有在發(fā)生明顯延遲的時候人才會感覺到。不同的人使用不同的輸入法在不同的熟練程度時鸡挠,花在不同操作上的時間是不同的辉饱。
對于最常見的拼音輸入法來說,如果以句子為單位來輸入拣展,那么其獲取時間和編碼時間都短彭沼,擊打時間因為碼長較長是比較長的,選擇時間因為不確定性而比較長备埃,在發(fā)現(xiàn)輸入和轉換錯誤時的回改時間就很長了姓惑,總的時間花費有賴于轉換的準確性褐奴,這是導致拼音整句輸入速度不穩(wěn)定和競速成績不理想的根本原因。如果以字詞為單位來輸入于毙,那么其獲取和編碼時間都會增加敦冬,擊打時間因為可以采用簡拼而得到縮短,選擇時間和回改時間因為觀察的內容少而得到縮短唯沮,輸入速度的穩(wěn)定性也會增加脖旱。由于拼音的重碼非常多,單字輸入的效果非常差介蛉,所以基本上沒有人會按這種方式來輸入的萌庆,則有在改錯時迫不得已才這么做。
對于五筆字型來說币旧,如果以句子來輸入践险,其效果是非常差的,完全是避其長而用其短吹菱,所以基本上都是以字詞為單位來輸入巍虫,而有的單字派則以字為單位來輸入。如果以字詞為單位鳍刷,那么其獲取時間和編碼時間都比較長占遥,擊打時間因為碼長較短而比較短,選擇時間和回改時間因為重碼較多和可能打空而較長倾剿。如果以字為單位來輸入筷频,那么其獲取時間和編碼時間都比較短,擊打時間因為平均碼長增加而加長前痘,選擇時間和回改時間因為重碼少和沒有打空問題而變短。
3 碼長
碼長分為理論碼長和實際碼長担忧。理論碼長是根據(jù)文字的統(tǒng)計特性直接計算出來的芹缔,與具體輸入方案沒有任何關系,但是可以做為一個最方便和最合理的比較基礎和實現(xiàn)上的追求目標瓶盛,可以說是非常重要的數(shù)據(jù)最欠。而實際碼長則與具體輸入方案密切相關,是衡量其效率最重要的指標惩猫,當然前提是使用的碼元集一樣芝硬,否則就失去了比較的基礎。如果要對碼元集大小不同的輸入方案進行比較轧房,就需要先將它們轉換為相同的碼元集大小拌阴,通常是轉換為二進制最方便,因為理論值通常就是以二進制的形式來呈現(xiàn)的奶镶。折算方法很簡單迟赃,將碼長乘以一個系數(shù)即可陪拘,這個系數(shù)是 log|K|,其中 | K | 為碼元集的大小纤壁,log 是以 2 為底的左刽。
3.1 理論碼長
根據(jù)信息論,文字是一種平穩(wěn)離散信源酌媒,因此文字的信息熵是可以計算出來的欠痴。這個熵實際上就是以二進制計算的文字中每個字符的平均碼長,即理論碼長秒咨。對于中文編碼輸入來說斋否,中文的熵一般是以漢字的來近似的,因為非漢字字符一般用不著進行編碼拭荤,而且漢字在中文中占居了絕大多數(shù)茵臭。故而,中文熵通常又稱為漢字熵舅世。
討論中文輸入涉及到幾個重要的熵有零階熵旦委、字熵、詞熵雏亚、句熵和極限熵缨硝。零階熵和字熵都是以中文字符為單位來計算的,不考慮任何字符與字符之間的關系罢低,其中零階熵不考慮字頻查辩,而字熵是要考慮字頻的。詞熵网持、句熵和極限熵則分別以詞宜岛、句和無限長的序列來計算。這些熵考慮的字符間關系的范圍是不同的功舀,依次增大萍倡,導致熵依次減小。
在上表中極限是指編碼單元為無窮長的中文字符序列辟汰;零階 1列敲、零階 2 和零階 3 分別指以 GB2312-80 的 6763 字符、GBK 的 20902 字符和 GB18030-2022 的 87887 字符為準帖汞;2 碼元戴而、37 碼元、36 碼元翩蘸、27 碼元和 26 碼元可分別看成是 2 進制所意、37 進制、27 進制和 26 進制。
極限熵和零階熵的比值稱為相對熵扁眯,而 1 減去相對熵就是冗余度壮莹。相對熵反映的是有效信息的比例,而冗余度反映的是可被壓縮的程度姻檀,它的值就是 1 - 相對熵命满。
在上表中設中文的極限熵為 4.5;零階 1绣版、零階 2 和零階 3 分別指以 GB2312-80 的 6763 字符胶台、GBK 的 20902 字符和 GB18030-2022 的 87887 字符為準;設英文的極限熵為 1.4 比特杂抽,而英文字母包括空格在內為 27 個诈唬。
3.2 實際碼長
速度 s 的計算公式也可以直接來自統(tǒng)計結果:
s = c ÷ t
單個樣本甚至短期內的實測結果都不一定是準確的,往往與目標總體之間存在或大或小的偏差缩麸。更有人有意無意地利用這種偏差來夸大或者貶低某個人或者某個輸入方案的效果铸磅,采用極端情況下的演示效果來以偏概全,所以造成了眾說紛紜甚至相互矛盾的亂象杭朱,讓初學者無所適從阅仔,不知道誰說的正確。
從信息論的角度來講弧械,有三個重要的因素:應用場景(信源)八酒、輸入方案(編碼)和輸入設備(信道)。信源的冗余度決定了可被壓縮的極限刃唐,而編碼決定了實際的信源壓縮程度羞迷,信道則代表用戶操作設備(鍵盤)的能力,決定了傳輸效率画饥。