作者:黃建義 ? ?組別:研0組
【嵌牛導(dǎo)讀】:數(shù)據(jù)壓縮是一種基礎(chǔ)工程問(wèn)題缺厉,在數(shù)據(jù)存儲(chǔ)和有限容量信道傳輸中有重要的應(yīng)用础浮。圖像作為一種信息載體恨豁,數(shù)據(jù)量巨大嘀粱,因此研究者們對(duì)圖像壓縮的研究從未停止過(guò)激挪。端到端優(yōu)化的圖像壓縮方法通常比標(biāo)準(zhǔn)JPEG和JPEG 2000壓縮方法有更好的rate-distortion性能辰狡,并顯著提升了壓縮后圖片的視覺(jué)效果。
【嵌牛鼻子】:End-to-End Optimized Image Compression(端到端優(yōu)化的圖像壓縮)
【嵌牛正文】:數(shù)據(jù)壓縮是一種被充分研究的基礎(chǔ)工程問(wèn)題垄分,通常是為具有最小熵的給定離散數(shù)據(jù)集設(shè)計(jì)編碼宛篇。解決方案很大程度上依賴于數(shù)據(jù)概率結(jié)構(gòu)的知識(shí),因此問(wèn)題與概率源建模密切相關(guān)薄湿。然而叫倍,由于所有的實(shí)際編碼一定具有有限的熵,連續(xù)值的數(shù)據(jù)(例如圖像像素強(qiáng)度的向量)必須被量化為離散的值豺瘤,這就會(huì)導(dǎo)致誤差吆倦。在有損壓縮問(wèn)題下,必須權(quán)衡兩種損失:離散化表示的熵(rate炉奴,壓縮率)和量化導(dǎo)致的誤差(distortion逼庞,失真)。不同的壓縮應(yīng)用場(chǎng)景瞻赶,比如數(shù)據(jù)存儲(chǔ)或者有限容量信道傳輸,需要不同的壓縮率與失真的權(quán)衡派任。
? ? ? ? 同時(shí)優(yōu)化壓縮率和失真是困難的砸逊。在沒(méi)有額外的約束的情況下,在高維空間進(jìn)行最優(yōu)量化是很棘手的掌逛。由于這個(gè)原因师逸,目前大多數(shù)的圖像壓縮方法將數(shù)據(jù)向量線性的變換成適當(dāng)?shù)倪B續(xù)值表示,獨(dú)立量化各個(gè)元素豆混,然后使用無(wú)損熵編碼對(duì)所得到的離散表示進(jìn)行編碼篓像。,由于變換起到的至關(guān)重要的作用皿伺,這種方法被稱為變換編碼(transform coding)例如JPEG在分塊像素上使用了離散余弦變換员辩,JPEG 2000使用了多種尺度的正交小波分解。
? ? ? 在ICLR 2017會(huì)議上鸵鸥,來(lái)自紐約大學(xué)的Johannes Balle等研究者提出了一種端到端優(yōu)化的圖像壓縮方法奠滑,并發(fā)表了論文:《End-to-End Optimized Image Compression》。這種方法包含了三個(gè)過(guò)程妒穴,分別是:非線性分析變換宋税,均勻量化器,以及非線性合成變換讼油。它是一種通用的非線性變換編碼架構(gòu)杰赛。一個(gè)圖像向量x,通過(guò)一個(gè)參數(shù)化的分析變換y=ga(x矮台;Φ)乏屯,映射到編碼空間(code space)中根时。這個(gè)表示被量化,產(chǎn)生一個(gè)離散值的向量q瓶珊,接下來(lái)q被壓縮啸箫。而重建壓縮圖像則與之相反。對(duì)于其中的分析變換伞芹,研究人員使用了基于級(jí)聯(lián)的線性卷積層和非線性層的更靈活的變換忘苛,來(lái)優(yōu)化均方誤差(mean squared error,MSE)唱较。值得注意的是扎唾,研究者使用了generalized divisive normalization(GND)聯(lián)合非線性層,這對(duì)高斯圖像密度是很有效的南缓,這是由生物視覺(jué)系統(tǒng)神經(jīng)元所啟發(fā)的胸遇。
? ? ? ? 論文中汉形,研究人員將他們的方法與兩個(gè)標(biāo)準(zhǔn)方法 JPEG 和 JPEG 2000 進(jìn)行對(duì)比纸镊。得到結(jié)果如下:
? ? ? ? ? ?下面是上圖圖像亮度分量的rate-distortion曲線概疆,左側(cè)是感知質(zhì)量逗威,由多尺度結(jié)構(gòu)相似性度量(MS-SSIM)。右側(cè)是峰值信噪比岔冀。
? ? ? ?下圖為三種比特率下的圖像壓縮。從上到下分別是JPEG使套,論文中的方法罐呼,JPEG 2000,從左到右侦高,比特率一步步增大嫉柴。
? ? ? ? 論文中的方法相較于未壓縮的原圖細(xì)節(jié)較少矫膨,細(xì)節(jié)紋理和圖案大部分被消除了差凹,但是保留了輪廓的平滑性以及邊緣的銳度,使得圖像擁有自然的感觀侧馅。相比之下危尿,JPEG和JPEG 2000有明顯的人工痕跡,這也是所有線性變換編碼方法的問(wèn)題:由于局部特征(邊緣馁痴,輪廓谊娇,紋理元素等)是由局部線性基函數(shù)的組合表示的,變換系數(shù)的獨(dú)立標(biāo)量量化導(dǎo)致這些組合不平衡,導(dǎo)致在視覺(jué)上反映出潛在的基函數(shù)济欢,即圖像混疊和振鈴現(xiàn)象赠堵。
? ? ? ?值得注意的是,該論文中的方法在所有測(cè)試圖像和所有比特率上法褥,都有可察覺(jué)的優(yōu)勢(shì)茫叭。上圖中顯示了從高到低比特率的過(guò)程。隨著比特率的降低半等,JPEG和JPEG 2000通過(guò)粗化線性基函數(shù)系數(shù)的精度來(lái)降低其對(duì)原始圖像的近似揍愁,因此暴露出這些基函數(shù)的視覺(jué)上的外觀。另一方面杀饵,論文中的方法逐漸簡(jiǎn)化了輪廓和其他圖像特征莽囤,有效隱藏了表示底層的量化。