兩個(gè)有意思的編碼算法

最近在看《Column-Stores vs. Row-Stores: How Different Are They Really?》孽拷，發(fā)現(xiàn)里面提到了列式數(shù)據(jù)庫(kù)使用了編碼(壓縮)算法來(lái)減少查詢時(shí)候的I/O消耗瑞侮，因此找了兩種有意思的編碼算法: Run length encoding和Dictionary encoding找出來(lái)學(xué)習(xí)了一下楼肪。

Run Length Encoding

Run Length Encoding(RLE)是無(wú)損壓縮的一種始鱼，這種壓縮方法在數(shù)據(jù)連續(xù)重復(fù)的情況較多的時(shí)候比較有用千埃，比如下面的數(shù)據(jù):

WWWWWWWWWWWWBWWWWWWWWWWWWBBBWWWWWWWWWWWWWWWWWWWWWWWWBWWWWWWWWWWWWWW

利用RLE會(huì)被壓縮成:

12W1B12W3B24W1B14W

意思是說(shuō): 12個(gè)W，一個(gè)B赠堵，12個(gè)W, 3個(gè)B小渊，24個(gè)W，1個(gè)B茫叭，14個(gè)W酬屉。原來(lái)需要67個(gè)字符表示的字符串，利用RLE之后只需要18個(gè)字符揍愁。

Dictionary Encoding

字典編碼也稱為替換編碼呐萨，也是無(wú)損數(shù)據(jù)壓縮的一種。它維護(hù)一個(gè)字典莽囤，在編碼的時(shí)候把要編碼的字符串轉(zhuǎn)換成字典里面這個(gè)字母對(duì)應(yīng)的下標(biāo)谬擦，而解碼的時(shí)候這從這個(gè)下標(biāo)還原成原來(lái)的字符。我們余則成同志跟組織聯(lián)系使用的就是這個(gè)字典編碼：

字典編碼在《潛伏》中的應(yīng)用

字典編碼分為兩類朽缎，分類的依據(jù)是所依賴的字典是靜態(tài)的還是動(dòng)態(tài)的惨远。上面的例子里面則成通知使用的書(好像是《康熙字典》之類的)就是靜態(tài)的字典。靜態(tài)字典應(yīng)用的場(chǎng)景一般是要編碼的字符比較固定话肖，并且內(nèi)容很長(zhǎng)锨络；跟靜態(tài)字典相對(duì)應(yīng)的是動(dòng)態(tài)字典, 所謂的動(dòng)態(tài)字典是在編碼的過(guò)程中動(dòng)態(tài)構(gòu)建出來(lái)的，一開始字典是空的狼牺，輸入的字符越來(lái)越多羡儿，這個(gè)字典也就越來(lái)越豐富。(具體的構(gòu)建過(guò)程就不詳細(xì)介紹了)

字典編碼的關(guān)鍵是編碼之后輸出的不再是原來(lái)的字符了是钥，而是代表這個(gè)字符的引用(通常是下標(biāo))掠归，而且可以把多個(gè)字符編碼成一個(gè)數(shù)字，因?yàn)閿?shù)字比字符串占用的空間小悄泥，因此也就達(dá)到了編碼的目的虏冻。

參考資料

Column-Stores vs. Row-Stores: How Different Are They Really?
Run Length Encoding
Dictionary encoding

最后編輯于：2017.12.06 04:49:26

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市弹囚，隨后出現(xiàn)的幾起案子厨相，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 222,729評(píng)論 6贊 517
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件蛮穿，死亡現(xiàn)場(chǎng)離奇詭異庶骄，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)践磅，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,226評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門单刁，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人府适，你說(shuō)我怎么就攤上這事羔飞。” “怎么了檐春？”我有些...
開封第一講書人閱讀 169,461評(píng)論 0贊 362
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵逻淌，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我疟暖，道長(zhǎng)卡儒，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 60,135評(píng)論 1贊 300
?港島之戀（遺憾婚禮）
正文為了忘掉前任誓篱，我火速辦了婚禮，結(jié)果婚禮上凯楔，老公的妹妹穿的比我還像新娘窜骄。我一直安慰自己，他們只是感情好摆屯，可當(dāng)我...
茶點(diǎn)故事閱讀 69,130評(píng)論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布邻遏。她就那樣靜靜地躺著，像睡著了一般虐骑。火紅的嫁衣襯著肌膚如雪准验。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,736評(píng)論 1贊 312
城市分裂傳說(shuō)
那天廷没，我揣著相機(jī)與錄音糊饱，去河邊找鬼。笑死颠黎，一個(gè)胖子當(dāng)著我的面吹牛另锋，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播狭归，決...
沈念sama閱讀 41,179評(píng)論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼夭坪，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了过椎？” 一聲冷哼從身側(cè)響起室梅，我...
開封第一講書人閱讀 40,124評(píng)論 0贊 277
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后亡鼠，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體赏殃，經(jīng)...
沈念sama閱讀 46,657評(píng)論 1贊 320
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,723評(píng)論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年拆宛，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了嗓奢。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,872評(píng)論 1贊 353
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡浑厚，死狀恐怖股耽，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情钳幅，我是刑警寧澤物蝙，帶...
沈念sama閱讀 36,533評(píng)論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站敢艰，受9級(jí)特大地震影響诬乞，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜钠导，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 42,213評(píng)論 3贊 336
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一震嫉、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧牡属，春花似錦票堵、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,700評(píng)論 0贊 25
一樁弒父案悴势，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至措伐，卻和暖如春特纤，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背侥加。一陣腳步聲響...
開封第一講書人閱讀 33,819評(píng)論 1贊 274
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工捧存，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人担败。一個(gè)月前我還...
沈念sama閱讀 49,304評(píng)論 3贊 379
代替公主和親
正文我出身青樓矗蕊，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親氢架。傳聞我的和親對(duì)象是個(gè)殘疾皇子傻咖，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,876評(píng)論 2贊 361

兩個(gè)有意思的編碼算法

Run Length Encoding

Dictionary Encoding

參考資料

推薦閱讀更多精彩內(nèi)容