數(shù)據(jù)結(jié)構(gòu)(十四) -- Huffman樹

本文將通過 Huffman 編碼樹的構(gòu)造問題扮授,介紹優(yōu)先隊(duì)列結(jié)構(gòu)的具體應(yīng)用傅寡。

二進(jìn)制編碼

通訊系統(tǒng)可以幫助人們將一段信息從發(fā)送端傳送給接收端舵匾。最常見的信息形式是字符串诡曙,即由來自某一有限字符集Σ 的若干個(gè)字符組成的一個(gè)序列M = (x1, …, xn),xi∈Σ笆豁,1≤i≤n郎汪。在將M 加載至信道上并發(fā)送之前,首先需要對(duì)M 進(jìn)行編碼(Encoding)闯狱。通常采用的都是二進(jìn)制編碼煞赢,以英文字母集Σ = {A, B, C, …, Z}為例,若需要傳送字符串“MAIN”哄孤,一種可行的編碼方式就是:

e('N') = "00"
e('A') = "010"
e('I') = "011"
e('M') = "1"

若令每個(gè)字符分別對(duì)應(yīng)于一匹葉子照筑,則從根節(jié)點(diǎn)通往每匹葉子的路徑,就對(duì)應(yīng)于相應(yīng)字符的二進(jìn)制編碼瘦陈,這樣的一棵樹也稱作二叉編碼樹凝危。

二進(jìn)制解碼

反過來,根據(jù)這棵編碼樹也可以便捷地完成解碼工作晨逝。

  • 從頭開始掃描接收到的二進(jìn)制信息流蛾默;

  • 從根節(jié)點(diǎn)開始,根據(jù)各比特位不斷進(jìn)入下一層節(jié)點(diǎn)捉貌;

  • 到達(dá)葉子節(jié)點(diǎn)后支鸡,輸出其對(duì)應(yīng)的字符冬念;

  • 然后重新回到根節(jié)點(diǎn),并繼續(xù)掃描二進(jìn)制流牧挣。

實(shí)際上刘急,這一過程可以在接收過程中實(shí)時(shí)進(jìn)行,而不必等到所有的比特位都到達(dá)之后才開始解碼浸踩。

最優(yōu)編碼樹

在實(shí)際的通訊系統(tǒng)中叔汁,信道的使用效率是個(gè)很重要的問題,這在很大程度上取決于編碼算法本身的效率检碗。很自然地据块,我們當(dāng)然希望能夠用盡可能少的比特位來表示字符串。那么折剃,如何做到這一點(diǎn)呢另假?在什么情況下能夠做到這一點(diǎn)呢?

先介紹一項(xiàng)編碼效率的重要指標(biāo)——平均編碼長度

在二叉編碼樹中每個(gè)字符 c 的編碼長度為對(duì)應(yīng)的葉子的深度 depth(c)怕犁。

Σ 中各字符的編碼長度總和除以字符集 Σ 就是單個(gè)字符的平均編碼長度边篮。

對(duì)于任一字符集Σ,若在所有的編碼方式中奏甫,某一編碼方式 e() 使得平均編碼長度最短戈轿,則稱 e() 為 Σ 的一種最優(yōu)編碼,與之對(duì)應(yīng)的編碼樹稱作 Σ 的一棵最優(yōu)編碼樹阵子。

我們注意到思杯,對(duì)于同一字符集Σ,所有深度不超過|Σ|的編碼樹只有有限棵挠进,因此其中的總編碼長度最小者必然存在(盡管不見得唯一)色乾。

如何找到最優(yōu)編碼樹

首先需要更加深入地了解最優(yōu)編碼樹的性質(zhì),在最優(yōu)二叉編碼樹中:

  • (1) 每個(gè)內(nèi)部節(jié)點(diǎn)的度數(shù)均為 2

  • (2) 各葉子之間的深度差不超過 1

推論:基于由 2 | Σ | -1 個(gè)節(jié)點(diǎn)構(gòu)成的完全二叉樹 T领突,將 Σ 中的字符任意分配給 T 的 | Σ | 匹葉子暖璧,即可得到 Σ 的一棵最優(yōu)編碼樹。

這一推論也直接給出了一個(gè)構(gòu)造最優(yōu)編碼樹的算法君旦。

帶權(quán)編碼

上面所介紹的最優(yōu)編碼樹澎办,在實(shí)際應(yīng)用中的利用價(jià)值并不大。不難看出于宙,只有當(dāng) Σ 中各個(gè)字符在信息串中出現(xiàn)的概率相等時(shí)浮驳,其最優(yōu)性才有意義悍汛,遺憾的是捞魁,這一條件很難滿足。

在實(shí)際應(yīng)用中离咐,Σ 中各字符的出現(xiàn)頻率不僅很少相等或相近谱俭,而且往往相差懸殊奉件。以英文信息串為例,'e'昆著、't'等字符的出現(xiàn)頻率通常都是'z'县貌、'j'等字符的數(shù)百倍。在這種情況下凑懂,就應(yīng)該從另一角度衡量每個(gè)字符的編碼長度煤痕。

若假設(shè)字符 c 出現(xiàn)的概率為 p(c) ≥ 0, 其在二叉編碼樹中對(duì)應(yīng)的葉子的深度記作depth(c)接谨,則:

  • 每個(gè)字符 c∈Σ 的帶權(quán)編碼長度為|e(c)| = depth(c) × p(c)
  • 對(duì)于任一字符集 Σ 的任一編碼方式 e()摆碉,Σ 中各字符的平均帶權(quán)編碼長度總和|e(c)|稱作 e()(或其對(duì)應(yīng)的二叉編碼樹)的平均帶權(quán)編碼長度。

例如:信息串" M A M A N I "

各字符出現(xiàn)的概率分別為p('M') = 2/6脓豪、p('A') = 2/6巷帝、p('I') = 1/6 和p('N') = 1/6

則各字符的帶權(quán)編碼長度分別為:
|e('M')| = 3×(2/6) = 1
|e('A')| = 3×(2/6) = 1
|e('I')| = 2×(1/6) = 1/3
|e('N')| = 1×(1/6) = 1/6

相應(yīng)地,這一編碼方式對(duì)應(yīng)的平均帶權(quán)編碼長度就是:
|e('M')| + |e('A')| + |e('I')| + |e('N')| = 2.5

如何找到最優(yōu)帶權(quán)編碼樹(不唯一)

首先

** 完全二叉編碼樹 ≠ 平均帶權(quán)編碼最短 **

最優(yōu)帶權(quán)編碼樹有以下性質(zhì):

  • 在最優(yōu)帶權(quán)編碼樹中扫夜,內(nèi)部節(jié)點(diǎn)的度數(shù)均為 2

  • 對(duì)于字符出現(xiàn)概率為 p()的任一字符集 Σ 楞泼,若字符 x 和 y 在所有字符中的出現(xiàn)概率最低,則必然存在某棵最優(yōu)帶權(quán)編碼樹笤闯,使得 x 和 y 在其中同處于最底層堕阔,而且互為兄弟。

對(duì)于字符出現(xiàn)概率滿足一定分布的任一字符集 Σ 颗味,我們都可以按照如下算法來構(gòu)造其對(duì)應(yīng)的 Huffman 編碼樹:

首先印蔬,對(duì)應(yīng)于 Σ 中的每一字符,分別建立一棵由單個(gè)節(jié)點(diǎn)組成樹脱衙,其權(quán)重就是該字符出現(xiàn)的頻率侥猬,這|Σ |棵樹組成一個(gè)森林 F。

接下來捐韩,從 F 中選出權(quán)重最小的兩棵樹退唠,創(chuàng)建一個(gè)新節(jié)點(diǎn),并分別以這兩棵樹作為其左荤胁、右子樹瞧预,從而將它們合成為一棵更高的樹,其權(quán)重等于其左仅政、右子樹權(quán)重之和垢油。

這一選取、合并的過程將反復(fù)進(jìn)行圆丹,直到最后 F 中只剩下一棵樹??它就是我們所需要的 Huffman 編碼樹滩愁。

舉個(gè)例子:

字符 出現(xiàn)頻率
A 623
B 99
C 239
D 290
E 906
F 224
基于優(yōu)先隊(duì)列的 Huffman 樹構(gòu)造算法

具體方法是:

  • 1,始終將森林中的所有樹(根)組織為一個(gè)優(yōu)先隊(duì)列辫封,比如基于二叉堆實(shí)現(xiàn)的優(yōu)先隊(duì)列硝枉。

  • 2廉丽,這樣,只要連續(xù)地調(diào)用 delMin()方法兩次妻味,就可以找出當(dāng)前權(quán)重最小的兩棵樹正压。

  • 3,在將這兩棵樹合并為一棵新樹之后责球,可以調(diào)用 insert()方法將其重新插入優(yōu)先隊(duì)列焦履。

  • 4,這一過程將反復(fù)進(jìn)行雏逾,每迭代一次裁良,森林的規(guī)模就會(huì)減小 1。

因此校套,經(jīng)過 n-1 次迭代价脾,森林中將只包含一棵樹,即 Huffman 編碼樹笛匙。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末侨把,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子妹孙,更是在濱河造成了極大的恐慌秋柄,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,290評(píng)論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蠢正,死亡現(xiàn)場(chǎng)離奇詭異骇笔,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)嚣崭,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,107評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門笨触,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人雹舀,你說我怎么就攤上這事芦劣。” “怎么了说榆?”我有些...
    開封第一講書人閱讀 156,872評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵虚吟,是天一觀的道長。 經(jīng)常有香客問我签财,道長串慰,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,415評(píng)論 1 283
  • 正文 為了忘掉前任唱蒸,我火速辦了婚禮邦鲫,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘油宜。我一直安慰自己掂碱,他們只是感情好怜姿,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,453評(píng)論 6 385
  • 文/花漫 我一把揭開白布慎冤。 她就那樣靜靜地躺著疼燥,像睡著了一般。 火紅的嫁衣襯著肌膚如雪蚁堤。 梳的紋絲不亂的頭發(fā)上醉者,一...
    開封第一講書人閱讀 49,784評(píng)論 1 290
  • 那天,我揣著相機(jī)與錄音披诗,去河邊找鬼撬即。 笑死,一個(gè)胖子當(dāng)著我的面吹牛呈队,可吹牛的內(nèi)容都是我干的剥槐。 我是一名探鬼主播,決...
    沈念sama閱讀 38,927評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼宪摧,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼粒竖!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起几于,我...
    開封第一講書人閱讀 37,691評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤蕊苗,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后沿彭,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體朽砰,經(jīng)...
    沈念sama閱讀 44,137評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,472評(píng)論 2 326
  • 正文 我和宋清朗相戀三年喉刘,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了瞧柔。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,622評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡睦裳,死狀恐怖非剃,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情推沸,我是刑警寧澤备绽,帶...
    沈念sama閱讀 34,289評(píng)論 4 329
  • 正文 年R本政府宣布,位于F島的核電站鬓催,受9級(jí)特大地震影響肺素,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜宇驾,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,887評(píng)論 3 312
  • 文/蒙蒙 一倍靡、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧课舍,春花似錦塌西、人聲如沸他挎。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽办桨。三九已至,卻和暖如春站辉,著一層夾襖步出監(jiān)牢的瞬間呢撞,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評(píng)論 1 265
  • 我被黑心中介騙來泰國打工饰剥, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留殊霞,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,316評(píng)論 2 360
  • 正文 我出身青樓汰蓉,卻偏偏與公主長得像绷蹲,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子顾孽,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,490評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容