huffman編碼

huffman編碼簡介

python實現(xiàn)

開頭

    # -*- coding: utf-8 -*-
    import heapq
    import collections
    import json

    import io
    from BitVector import BitVector # 網(wǎng)上的bitbector實現(xiàn)
    import hashlib
    import sys
    import time
    import base64

二叉樹類

class TreeNode(object):
    def __init__(self, key=None, val=None, code=None):
        self.key, self.val, self.code = key, val, code
        self.left = None
        self.right = None

    def __cmp__(self, other):
        return cmp(self.val, other.val)

    def __repr__(self):
        return 'key=%s\nval=%s\ncode=%s' % (self.key, self.val, self.code)

定義裝飾器用于計時

def caltime(func):
    def wrapper(*args, **kwargs):
        st = time.clock()
        res = func(*args, **kwargs)
        print '%s take %.3f s...' % (func.__name__, time.clock()-st)
        return res
    return wrapper

定義huffman類

class Huffman(object):
    def __init__(self, raw_name, action='zip'):
        self.raw_name = raw_name
        if action=='zip':
            with open(self.raw_name, 'rb') as f:
                self.data = f.read()
            self.save_name = raw_name + '.hfm'
        elif action=='unzip':
            if not raw_name.endswith('.hfm'):
                raise IOError('file name must be ends with .hfm')
            self.save_name = raw_name.rsplit('.', 1)[0]

        self.root_node = None
        self.encode_dict = None
        self.tree_str = None

    @caltime
    def _build_heap(self):
        count = collections.Counter(self.data)
        count_list = count.items()
        return [TreeNode(key=ord(x[0]), val=x[1]) for x in count_list]

    @caltime
    def _build_huffman_tree(self):
        heap = self._build_heap()
        while heap:
            left_node = heapq.heappop(heap)
            right_node = heapq.heappop(heap)
            parent_node = TreeNode(val=left_node.val+right_node.val)
            parent_node.left = left_node
            parent_node.right = right_node
            if heap:
                heapq.heappush(heap, parent_node)
            else:
                return parent_node

    # =========================================================== #
    # 進行huffman編碼耳奕，返回編碼字典
    # =========================================================== #
    @caltime
    def _huffman_encode(self):
        def huffman_encode_helper(nd, cur_code=''):
            encode_dict = {}
            if nd.left is None and nd.right is None:
                nd.code = cur_code
                encode_dict.update({nd.key: nd.code})
            if nd.left:
                encode_dict.update(huffman_encode_helper(nd.left, cur_code+'0'))
            if nd.right:
                encode_dict.update(huffman_encode_helper(nd.right, cur_code+'1'))
            return encode_dict

        self.root_node = self._build_huffman_tree()
        self.encode_dict = huffman_encode_helper(self.root_node)
        self.tree_str = self._serialize_huffman_tree()

    # =========================================================== #
    # huffman樹序列化
    # =========================================================== #
    @caltime
    def _serialize_huffman_tree(self):
        def pre_order(nd):
            if nd is None:
                return ['#']
            output = [[nd.key, nd.code]] if nd.key is not None else [None]
            output += pre_order(nd.left)
            output += pre_order(nd.right)
            return output
        return json.dumps(pre_order(self.root_node))

    # =========================================================== #
    # 按照碼本進行字符壓縮
    # =========================================================== #
    @caltime
    def huffman_zip(self):
        print 'start huffman encoding...'
        self._huffman_encode()
        new_data = ''.join([self.encode_dict[ord(x)] for x in self.data])
        bit_sz = len(new_data)
        pad_sz = 8 - bit_sz%8
        new_data += '0'*pad_sz
        # bit_data = BitVector(bitstring=new_data) # 使用BitVector很慢
        byte_data = []
        for ii in range(0, len(new_data), 8):
            bit = 0
            for j in range(8):
                bit = (bit<<1) + int(new_data[ii+j])
            byte_data.append(chr(bit))

        print 'save to %s...' % self.save_name
        with open(self.save_name, 'wb') as fp:
            # 把序列化的huffman樹寫在前面
            fp.write('%s-%s-%s-' % (len(self.tree_str), self.tree_str, bit_sz))
            # bit_data.write_to_file(fp)
            fp.writelines(byte_data)

    # =========================================================== #
    # huffman樹反序列化蔗崎，重建樹
    # =========================================================== #
    @caltime
    def _deserialize_huffman_tree(self):
        def pre_order(node_list):
            nd_data = node_list.pop(0)
            if nd_data=='#':
                return None
            nd = TreeNode(key=chr(nd_data[0]), code=nd_data[1]) if isinstance(nd_data, list) else TreeNode()
            nd.left = pre_order(node_list)
            nd.right = pre_order(node_list)
            return nd

        return pre_order(json.loads(self.tree_str))

    # =========================================================== #
    # huffman解壓縮
    # =========================================================== #
    @caltime
    def huffman_unzip(self):
        with open(self.raw_name, 'rb') as fp:
            n_tree = ''
            while 1:
                c = fp.read(1)
                if c!='-':
                    n_tree += c
                else:
                    break
            ## 重建huffman樹
            print 'start huffman decoding...'
            self.tree_str = fp.read(int(n_tree))
            self.root_node = self._deserialize_huffman_tree()
            fp.read(1)
            n_data = ''
            while 1:
                c = fp.read(1)
                if c!='-':
                    n_data += c
                else:
                    break
            n_data = int(n_data)
            byte_data = fp.read()
        ## 保存到文件
        print 'save to %s...' % self.save_name
        nd = self.root_node
        with open(self.save_name, 'wb') as fp:
            ii = 0
            data = []
            while ii<=n_data:
                if nd.left is None and nd.right is None:
                    data.append(nd.key)
                    nd = self.root_node
                else:
                    bit = ord(byte_data[ii/8]) & (128>>ii%8)
                    nd = nd.left if bit==0 else nd.right
                    ii += 1
            fp.writelines(data)

總結(jié)

huffman壓縮

詞頻統(tǒng)計

統(tǒng)計每個字符（8位）出現(xiàn)的頻率，針對中文編碼涕滋，每個字節(jié)可用 0x?? 表示

構(gòu)建二叉樹

每次取出詞頻最低的2個字符進行構(gòu)建（利用堆），并將其父節(jié)點加入詞庫

進行編碼

自上而下左0右1給每個葉子節(jié)點賦值贿讹，得到編碼字典字符->二進制序列

壓縮

將源文件所有字符按編碼字典轉(zhuǎn)換為二進制序列后（需補齊位數(shù)為8的倍數(shù)）
寫入新文件
我在文件頭寫入了二叉樹（編碼字典）信息长窄，供解壓縮使用

運行結(jié)果

start huffman encoding...
_build_heap take 0.079 s...
_build_huffman_tree take 0.116 s...
_serialize_huffman_tree take 0.001 s...
_huffman_encode take 0.123 s...
save to xxx.pdf.hfm...
huffman_zip take 2.759 s...

看一下生成的壓縮文件

.hfm文件

huffman解碼

重建二叉樹

從壓縮文件頭讀入二叉樹信息，反序列化后構(gòu)建二叉樹

解碼

從文件讀入字節(jié)流医吊，按位操作，從根節(jié)點開始逮京，0左1右卿堂，直到葉子節(jié)點，
復(fù)原出原字符懒棉，寫入新文件
猜想使用2個線程一個讀一個寫會不會更快

運行結(jié)果

start huffman decoding...
_deserialize_huffman_tree take 0.003 s...
save to xxx.pdf...
huffman_unzip take 1.030 s...

最后編輯于：2017.12.05 01:58:47

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末草描，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子策严，更是在濱河造成了極大的恐慌穗慕，老刑警劉巖，帶你破解...
沈念sama閱讀 219,427評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件妻导，死亡現(xiàn)場離奇詭異揍诽，居然都是意外死亡诀蓉，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,551評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門暑脆，熙熙樓的掌柜王于貴愁眉苦臉地迎上來渠啤，“玉大人，你說我怎么就攤上這事添吗×げ埽” “怎么了？”我有些...
開封第一講書人閱讀 165,747評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵碟联，是天一觀的道長妓美。經(jīng)常有香客問我，道長鲤孵，這世上最難降的妖魔是什么壶栋？我笑而不...
開封第一講書人閱讀 58,939評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮普监，結(jié)果婚禮上躏鱼，老公的妹妹穿的比我還像新娘拂铡。我一直安慰自己金矛，他們只是感情好秸抚，可當(dāng)我...
茶點故事閱讀 67,955評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著廊散，像睡著了一般桑滩。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上允睹，一...
開封第一講書人閱讀 51,737評論 1贊 305
城市分裂傳說
那天运准，我揣著相機與錄音，去河邊找鬼缭受。笑死戳吝，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的贯涎。我是一名探鬼主播，決...
沈念sama閱讀 40,448評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼慢洋，長吁一口氣：“原來是場噩夢啊……” “哼塘雳！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起普筹，我...
開封第一講書人閱讀 39,352評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤败明，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后太防，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體妻顶，經(jīng)...
沈念sama閱讀 45,834評論 1贊 317
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡酸员，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,992評論 3贊 338
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了讳嘱。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片幔嗦。...
茶點故事閱讀 40,133評論 1贊 351
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖沥潭，靈堂內(nèi)的尸體忽然破棺而出邀泉，到底是詐尸還是另有隱情，我是刑警寧澤钝鸽，帶...
沈念sama閱讀 35,815評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布汇恤，位于F島的核電站，受9級特大地震影響拔恰，放射性物質(zhì)發(fā)生泄漏因谎。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,477評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一颜懊、第九天我趴在偏房一處隱蔽的房頂上張望财岔。院中可真熱鬧，春花似錦饭冬、人聲如沸使鹅。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,022評論 0贊 22
一樁弒父案昌抠，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽患朱。三九已至，卻和暖如春炊苫，著一層夾襖步出監(jiān)牢的瞬間裁厅，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,147評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工侨艾，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留执虹，地道東北人。一個月前我還...
沈念sama閱讀 48,398評論 3贊 373
代替公主和親
正文我出身青樓唠梨，卻偏偏與公主長得像袋励，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子当叭，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,077評論 2贊 355

huffman編碼

huffman編碼簡介

python實現(xiàn)

總結(jié)

推薦閱讀更多精彩內(nèi)容