模型量化

幾篇好的復(fù)習(xí)文章
匯總https://www.zhihu.com/column/c_1287038616917315584
https://www.zhihu.com/column/gemfield
https://www.zhihu.com/column/c_1258047709686231040
https://bbs.cvmart.net/topics/3938

后訓(xùn)練量化權(quán)重基礎(chǔ)知識(shí):https://zhuanlan.zhihu.com/p/38328685
https://jermmy.github.io/2020/07/04/2020-7-4-network-quantization-2/
https://blog.csdn.net/WZZ18191171661/article/details/103332338
https://blog.csdn.net/xz1308579340/article/details/108986176
https://mp.weixin.qq.com/s?src=11&timestamp=1617291204&ver=2982&signature=ubKT3qgOGyZ15xPNSezMJvmEpvpqsEP96FpZhhGyG6cktK8UyglWwkxZcRON-55YbShiRvnceyMc0UyhqIXwvvTH488rmeTqoQpaWV-nrFrit5nZ3HYEdYBQFne1-&new=1
https://mp.weixin.qq.com/s?src=11&timestamp=1617291281&ver=2982&signature=np
1ICwnnbfxlFP2Fr8z2BbTTIOewseKeziPSgWhYH7KhwOyNzNyrTP6XImzub8TWvwGopomMW7UWAQzK0cfPTUOBmCymDqVf-aAGZ8nEnEMpq0Vc83F8m4DDz7Ih8Ek&new=1
https://mp.weixin.qq.com/s?src=11&timestamp=1617291281&ver=2982&signature=QhaGCr4xVvvevtsQ8g6oRfOBHGRW74eVpTAljlIpxhFdtoChaFJFexE2WwHlmn6RitM6h9LgEZmAEshBeimlh7FmX08z3jiyKCx9pcCdQwzvLkWXwN6FBCRqmCy0By&new=1

后訓(xùn)練int8量化細(xì)節(jié)(校準(zhǔn))
https://zhuanlan.zhihu.com/p/58208691
https://zhuanlan.zhihu.com/p/58182172

后訓(xùn)練權(quán)重和激活函數(shù)知識(shí):
https://ictjournal.itri.org.tw/content/Messagess/contents.aspx?MmmID=654304432061644411&MSID=1073702170343562557
https://mp.weixin.qq.com/s?src=11&timestamp=1617291226&ver=2982&signature=AQWhyQ4j09Lcs-iP6lDrugacvFvRpzj2u8JrPZg5jIkkz96w-LbUt2rSjZ7eSnPglPpeuVuIqYIrGqqhrFAwYN4VpBM32eP7BiZ71G9flHySs-yw8G6c7VMT90184B9A&new=1

量化分析:
https://blog.csdn.net/qq_20880415/article/details/103840442
https://mp.weixin.qq.com/s?src=11&timestamp=1617291204&ver=2982&signature=ubKT3qgOGyZ15xPNSezMJvmEpvpqsEP96FpZhhGyG6cktK8UyglWwkxZcRON-55YbShiRvnceyMc0UyhqIXwvvTH488rmeT*qoQpaWV-nrFrit5nZ3HYEdYBQFne1-&new=1

量化白皮書
https://mp.weixin.qq.com/s?src=11&timestamp=1617291281&ver=2982&signature=rWeRFjDvf1sxv8bIRxumTRoF8C9qtY4HOJqs9N6LozV9RT5HfxArRR46eviSxfbDOuZjrjNggY2j-8YekIt5mOvy6T10wRQGPICuI3uXFsRZNzAbTYWYE8dtB0Q0hI&new=1

各類量化策略介紹

  1. https://zhuanlan.zhihu.com/p/140893305
  2. http://www.reibang.com/p/b57b87b2f97a
  3. https://chenrudan.github.io/blog/2018/10/02/networkquantization.html
  4. https://www.jiqizhixin.com/articles/2018-06-01-11
  5. https://zhuanlan.zhihu.com/p/132561405#:~:text=%E7%94%9F%E4%BA%A7%E4%B8%80%E4%B8%AA%E9%87%8F%E5%8C%96%E6%A8%A1%E5%9E%8B%E7%9A%84,%E4%BD%86%E4%BD%BF%E7%94%A8%E4%B8%8A%E9%9D%9E%E5%B8%B8%E7%AE%80%E5%8D%95%E3%80%82
  6. https://flashgene.com/archives/85093.html
  7. https://mp.weixin.qq.com/s?src=11&timestamp=1617291204&ver=2982&signature=AQWhyQ4j09Lcs-iP6lDrugacvFvRpzj2u8JrPZg5jIkUPHmFyEHhSp0e7ly7lKi519pSOlQTZnSR63E2FjgGW80SNY8zsPUD-UaRmVolGHABOO9FASdqaq0s2-g*u0dS&new=1
  8. https://mp.weixin.qq.com/s?src=11&timestamp=1617291204&ver=2982&signature=yorh8jgIzHNJl14EN-pZu2d2EM01xMpFAZuRsXDOgbojDeGaaUD3LRUTXI7zNFpcrR3VBivMBQmTGf7F3PRGtLdXk7I0ZMOrI3ldLg0wO3smqnh2Vu6WUm7wAob7oTMB&new=1
    9.https://mp.weixin.qq.com/s?src=11&timestamp=1617291281&ver=2982&signature=RvjUdTfW-7eh1ZPlMAJOkt6cVQY6TP5QHJU*p4NRrxtvzNeuU63SirOZjiqWksX-oQAmxElFcamnUo3JRzP2YUrkHmPQwE7O765l0x8lxNmK19aIwg7Os0fNSpcesCHa&new=1

其他量化方法
神經(jīng)網(wǎng)絡(luò)低比特量化——DSQ
神經(jīng)網(wǎng)絡(luò)低比特量化——TQT
神經(jīng)網(wǎng)絡(luò)低比特量化——LSQ
AdaQuant:改進(jìn)訓(xùn)練后神經(jīng)網(wǎng)絡(luò)量化:分層校準(zhǔn)和整數(shù)編程
HAWQ:基于 Hessian 的混合精度神經(jīng)網(wǎng)絡(luò)量化

一躯保、量化簡(jiǎn)介

(一)為什么需要量化

Resnet-152神經(jīng)網(wǎng)絡(luò)的提出證明了越寬越深越大的模型往往比越窄越淺越小的模型精度要高,但是越寬越深越大的模型對(duì)計(jì)算資源要求更高辖所,而現(xiàn)在模型應(yīng)用越來越傾向于從云端部署到邊緣側(cè)彩倚,受限于邊緣側(cè)設(shè)備的計(jì)算資源濒旦,我們不得不考慮設(shè)備存儲(chǔ)空間(storage)比伏、設(shè)備內(nèi)存大小(memory)户魏、設(shè)備運(yùn)行功耗(power)及時(shí)延性(latency)等等問題澡刹,特別是在移動(dòng)終端和嵌入式設(shè)備等資源受限的邊緣側(cè)應(yīng)用場(chǎng)景中更加需要我們進(jìn)行優(yōu)化折剃。因此,為了解決此類問題模型量化應(yīng)運(yùn)而生像屋,本篇我們將探討模型量化的概念原理怕犁、優(yōu)缺點(diǎn)及tensorflow模型量化的實(shí)現(xiàn)方法。

隨著模型預(yù)測(cè)(predication)越來越準(zhǔn)確己莺,網(wǎng)絡(luò)越來越深奏甫,神經(jīng)網(wǎng)絡(luò)消耗的內(nèi)存大小成為問題(圖二),尤其是在移動(dòng)設(shè)備上凌受。通常情況下阵子,目前(2019年初)的手機(jī)一般配備 4GB 內(nèi)存來支持多個(gè)應(yīng)用程序的同時(shí)運(yùn)行。而三個(gè)模型運(yùn)行一次通常就要占用1GB內(nèi)存胜蛉。

模型大小不僅是內(nèi)存容量問題挠进,也是內(nèi)存帶寬問題。模型在每次預(yù)測(cè)時(shí)都會(huì)使用模型的權(quán)重(weights)誊册,圖像相關(guān)的應(yīng)用程序通常需要實(shí)時(shí)處理數(shù)據(jù)领突,這意味著至少 30 FPS(Frame per Second,每秒幀數(shù))案怯。因此君旦,如果部署相對(duì)較小的 ResNet-50 網(wǎng)絡(luò)來分類,運(yùn)行網(wǎng)絡(luò)模型就需要 3GB/s 的內(nèi)存帶寬嘲碱。網(wǎng)絡(luò)運(yùn)行時(shí)金砍,內(nèi)存,CPU 和電池會(huì)都在飛速消耗麦锯,我們無(wú)法為了讓設(shè)備變得智能一點(diǎn)點(diǎn)就負(fù)擔(dān)如此昂貴的代價(jià)恕稠。

(二)什么是量化

模型量化的定義沒有統(tǒng)一的說法,下面有幾種理解

1. 量化定義一

模型量化即以較低的推理精度損失將連續(xù)取值(或者大量可能的離散取值)的浮點(diǎn)型模型權(quán)重或流經(jīng)模型的張量數(shù)據(jù)定點(diǎn)近似(通常為int8)為有限多個(gè)(或較少的)離散值的過程扶欣,它是以更少位數(shù)的數(shù)據(jù)類型用于近似表示32位有限范圍浮點(diǎn)型數(shù)據(jù)的過程鹅巍,而模型的輸入輸出依然是浮點(diǎn)型千扶,從而達(dá)到減少模型尺寸大小、減少模型內(nèi)存消耗及加快模型推理速度等目標(biāo)

2.量化定義二

模型量化是由模型昆著、量化兩個(gè)詞組成县貌。我們要準(zhǔn)確理解模型量化术陶,要看這兩個(gè)詞分別是什么意思凑懂。

在計(jì)算機(jī)視覺、深度學(xué)習(xí)的語(yǔ)境下梧宫,模型特指卷積神經(jīng)網(wǎng)絡(luò)接谨,用于提取圖像/視頻視覺特征。

量化是指將信號(hào)的連續(xù)取值近似為有限多個(gè)離散值的過程塘匣∨Ш溃可理解成一種信息壓縮的方法。在計(jì)算機(jī)系統(tǒng)上考慮這個(gè)概念忌卤,一般用“低比特”來表示扫夜。也有人稱量化為“定點(diǎn)化”赡若,但是嚴(yán)格來講所表示的范圍是縮小的肃拜。定點(diǎn)化特指scale為2的冪次的線性量化,是一種更加實(shí)用的量化方法咆课。

3.量化定義三

模型量化是將浮點(diǎn)數(shù)替換成整數(shù)棍厂,并進(jìn)行存儲(chǔ)和計(jì)算的方法颗味。舉例來講,模型量化可通過將32比特浮點(diǎn)數(shù)轉(zhuǎn)換成8比特整數(shù)牺弹,大大減少模型存儲(chǔ)空間(最高可達(dá)4倍)浦马;同時(shí)將浮點(diǎn)數(shù)運(yùn)算替換成整數(shù)運(yùn)算,能夠加快模型的推理速度并降低計(jì)算內(nèi)存张漂。

4.量化定義四

量化就是將神經(jīng)網(wǎng)絡(luò)的浮點(diǎn)算法轉(zhuǎn)換為定點(diǎn)

量化有若干相似的術(shù)語(yǔ)晶默。低精度(Low precision)可能是最通用的概念。常規(guī)精度一般使用 FP32(32位浮點(diǎn)航攒,單精度)存儲(chǔ)模型權(quán)重荤胁;低精度則表示 FP16(半精度浮點(diǎn)),INT8(8位的定點(diǎn)整數(shù))等等數(shù)值格式屎债。不過目前低精度往往指代 INT8仅政。

混合精度(Mixed precision)在模型中使用 FP32 和 FP16 。FP16 減少了一半的內(nèi)存大小盆驹,但有些參數(shù)或操作符必須采用 FP32 格式才能保持準(zhǔn)確度圆丹。如果您對(duì)該主題感興趣,請(qǐng)查看Mixed-Precision Training of Deep Neural Networks 躯喇。

量化一般指 INT8 辫封。不過硝枉,根據(jù)存儲(chǔ)一個(gè)權(quán)重元素所需的位數(shù),還可以包括:

二進(jìn)制神經(jīng)網(wǎng)絡(luò):在運(yùn)行時(shí)具有二進(jìn)制權(quán)重和激活的神經(jīng)網(wǎng)絡(luò)倦微,以及在訓(xùn)練時(shí)計(jì)算參數(shù)的梯度妻味。

三元權(quán)重網(wǎng)絡(luò):權(quán)重約束為+1,0和-1的神經(jīng)網(wǎng)絡(luò)。

XNOR網(wǎng)絡(luò):過濾器和卷積層的輸入是二進(jìn)制的欣福。XNOR 網(wǎng)絡(luò)主要使用二進(jìn)制運(yùn)算來近似卷積责球。

5. 量化定義五

量化是將數(shù)值 x 映射到 y 的過程,其中 x 的定義域是一個(gè)大集合(通常是連續(xù)的)拓劝,而 y 的定義域是一個(gè)小集合(通常是可數(shù)的)雏逾。8-bit 低精度推理,是將一個(gè)原本 FP32 的浮點(diǎn)張量轉(zhuǎn)化成一個(gè) int8/uint8 張量來處理郑临。先看一下浮點(diǎn)數(shù)和 8-bit 整數(shù)的完整表示范圍栖博。


image.png

模型量化會(huì)帶來如下兩方面的好處:

減少內(nèi)存帶寬和存儲(chǔ)空間

深度學(xué)習(xí)模型主要是記錄每個(gè) layer(比如卷積層/全連接層) 的 weights 和 bias, FP32 模型中,每個(gè) weight /bias 數(shù)值原本需要 32-bit 的存儲(chǔ)空間厢洞,量化之后只需要 8-bit 即可仇让。因此,模型的大小將直接降為將近 1/4躺翻。

不僅模型大小明顯降低丧叽, activation 采用 8-bit 之后也將明顯減少對(duì)內(nèi)存的使用,這也意味著低精度推理過程將明顯減少內(nèi)存的訪問帶寬需求获枝,提高高速緩存命中率蠢正,尤其對(duì)于像 batch-norm, relu省店,elmentwise-sum 這種element-wise 算子來說嚣崭,效果更為明顯。

提高系統(tǒng)吞吐量(throughput)懦傍,降低系統(tǒng)延時(shí)(latency)

直觀理解雹舀,試想對(duì)于一個(gè) 專用寄存器寬度為 512 位的 SIMD 指令,當(dāng)數(shù)據(jù)類型為 FP32 而言一條指令能一次處理 16 個(gè)數(shù)值粗俱,但是當(dāng)我們采用 8-bit 表示數(shù)據(jù)時(shí)说榆,一條指令一次可以處理 64 個(gè)數(shù)值。因此寸认,在這種情況下签财,可以讓芯片的理論計(jì)算峰值增加 4 倍。

6.量化定義6

量化本質(zhì)上只是對(duì)數(shù)值范圍的重新調(diào)整偏塞。一般并非單射唱蒸,比如說把float32改成int8,那肯定都是類似于四舍五入灸叼,會(huì)損失精度神汹。同理存在相反的反量化庆捺,反量化會(huì)使精度變高。例如:0-1 變成0-255是量化(從float到int)屁魏,0-255到0-1是反量化(從int到float)滔以。

7.量化定義7

image.png

二、常見量化方法

(一)氓拼、量化方法分類

  1. 量化映射方法你画,也就是將float-32映射到Int數(shù)據(jù)類型,每個(gè)間隔是相等的還是不相等的
    這里就是均勻量化(uniform quantization)和非均勻量化(non-uniform quantization)披诗,也可以叫作線性量化和非線性量化
  2. 關(guān)于映射到整數(shù)是數(shù)值范圍是有正負(fù)數(shù)撬即,還是都是正數(shù)立磁,這里就是對(duì)稱量化(有正負(fù)數(shù))和非對(duì)稱量化(全是正數(shù))呈队,非對(duì)稱量化就有zero-point,zero-point的主要作用是用于做padding唱歧。
  3. 原精度即浮float-32宪摧,量化到什么樣的數(shù)據(jù)類型,這里就有float和int颅崩;到底要選擇量化后的是多少個(gè)bit几于,這里就有1-bit(二值網(wǎng)絡(luò))、2-bit(三值網(wǎng)絡(luò))沿后、3-bit沿彭、4-bit、5-bit尖滚、6-bit喉刘、7-bit、8-bit漆弄,這幾種量化后的數(shù)值類型是整型睦裳。
  4. 是固定所有網(wǎng)絡(luò)都是相同的bit-width,還是不同的撼唾,這里就有混合精度量化(Mixed precision)
  5. 是從一個(gè)已經(jīng)訓(xùn)練好的模型再進(jìn)行量化廉邑,還是有fine tune的過程或者直接是從頭開始訓(xùn)練一個(gè)量化的模型,這里就有Post-training quantization(后量化倒谷,即將已經(jīng)訓(xùn)練完的模型參數(shù)進(jìn)行量化)蛛蒙、quantization-aware training(量化感知訓(xùn)練,即在從頭開始訓(xùn)練中加入量化)和quantization-aware fine tune(在fine tune訓(xùn)練中加入量化)渤愁。

(二)牵祟、線性量化 / 均勻量化(量化映射的每個(gè)間隔是相等的)

image.png

image.png

**其中,

  • r是待量化的實(shí)數(shù)猴伶;
  • [a, b]是量化的范圍
  • s稱為scaling factor课舍,表示浮點(diǎn)區(qū)間到量化整數(shù)區(qū)間的映射系數(shù)塌西,指定了量化的步長(zhǎng)。
  • z稱為zero point筝尾,表示原值域中的0值對(duì)應(yīng)量化后的取值捡需。
  • qmin和qmax分別為可量化區(qū)間的下界與上界
    image.png

1、非對(duì)稱量化(全是正數(shù))

如下圖所示筹淫,非對(duì)稱算法的基本思想是通過 收縮因子(scale) 和 零點(diǎn)(zero point) 將 FP32 張量 的 min/max 映射分別映射到 8-bit 數(shù)據(jù)的 min/max站辉。


image.png

如果我們用 x_f 表示 原始浮點(diǎn)數(shù)張量, 用 x_q 表示量化張量, 用 q_x 表示 scale,用 zp_x 表示 zero_point, n 表示量化數(shù)值的 bit數(shù)损姜,這里 n=8饰剥, 那么非對(duì)稱算法的量化公式如下:


image.png

上述公式中引入了 zero_point 的概念。它通常是一個(gè)整數(shù)摧阅,即 zp_x= rounding(q_x * min_x_f)汰蓉。

當(dāng)x_f 為 0 時(shí),在量化之后棒卷,剛好對(duì)應(yīng)這個(gè)整數(shù) zero_point 顾孽。這也意味著 zero_point 可以無(wú)誤差地量化浮點(diǎn)數(shù)中的數(shù)據(jù) 0,從而減少補(bǔ)零操作(比如卷積中的padding zero)在量化中產(chǎn)生額外的誤差比规。

但是若厚,從上述公式我們可以發(fā)現(xiàn) x_q 的結(jié)果只能是一個(gè)非負(fù)數(shù),這也意味著其無(wú)法合理地處理有符號(hào)的 int8 量化蜒什,Pytorch 的處理措施是將零點(diǎn)向左移動(dòng) -128测秸,并限制其在 [-128,127] 之間。

一般認(rèn)為灾常,若zero point不為0霎冯,稱為非對(duì)稱(Asymmetric)量化。非對(duì)稱量化不要求原值域和量化后值域關(guān)于0對(duì)稱岗憋。

2肃晚、對(duì)稱量化(有正負(fù)數(shù))

若zero point為0,則稱為對(duì)稱(Asymmetric)量化仔戈。對(duì)稱量化关串,一般會(huì)將整型值域最小值去掉,如8位有符號(hào)整型表示范圍[-128, 127]监徘,截取后變成[-127, 127]晋修,否則會(huì)產(chǎn)生偏差。

對(duì)稱算法的基本思路是通過一個(gè)收縮因子(scale)將 FP32 tensor 中的最大絕對(duì)值映射到 8 bit數(shù)據(jù)的最大值凰盔,將最大絕對(duì)值的負(fù)值映射到 8-bit 數(shù)據(jù)的最小值墓卦。以 int8 為例,max(|x_f|)被映射到 127户敬,-max(|x_f|)被映射到-128落剪。如下圖所示:


image.png

image.png

image.png

image.png
FP32 Tensor (T) = scale_factor(sf) * 8-bit Tensor(t) + FP32_bias (b)

3睁本、均勻量化與非均勻量化

根據(jù)量化后quantizer point間表示的step size是否一樣,可分為均勻(Uniform)量化與非均勻(Non-uniform)量化忠怖。

直觀上呢堰,非均勻量化能獲得更好的量化效果,例如對(duì)輕量級(jí)模型使用均勻量化凡泣,因?yàn)椴煌ǖ篱g權(quán)值方差較大枉疼,導(dǎo)致量化時(shí)原值域集中在部分比特位上,而非均勻量化能較好的解決這個(gè)問題鞋拟,但非均勻量化的實(shí)現(xiàn)方式對(duì)邊緣設(shè)備不是很友好骂维,會(huì)影響最終的加速效果。

4贺纲、例子

由浮點(diǎn)到定點(diǎn)的量化公式如下:


image.png

由定點(diǎn)到浮點(diǎn)反量化公式如下:


image.png

量化公式如下:
image.png
image.png
  • R表示真實(shí)的浮點(diǎn)值航闺,
  • Q表示量化后的定點(diǎn)值,
  • Z表示0浮點(diǎn)值對(duì)應(yīng)的量化定點(diǎn)值哮笆,
  • S則為定點(diǎn)量化后可表示的最小刻度
  • Rmax表示最大的浮點(diǎn)值
  • Rmin表示最小的浮點(diǎn)值
  • Qmax表示最大的定點(diǎn)值
  • Qmin表示最小的定點(diǎn)值

這里的S和Z均是量化參數(shù)来颤,而Q和R均可由公式進(jìn)行求值汰扭,不管是量化后的Q還是反推求得的浮點(diǎn)值R稠肘,如果它們超出各自可表示的最大范圍,那么均需要進(jìn)行截?cái)嗵幚砺苊6↑c(diǎn)值0在神經(jīng)網(wǎng)絡(luò)里有著舉足輕重的意義项阴,比如padding就是用的0,因而必須有精確的整型值來對(duì)應(yīng)浮點(diǎn)值0笆包。

模型訓(xùn)練后權(quán)重或激活值往往在一個(gè)有限的范圍內(nèi)分布环揽,如激活值范圍為[-2.0, 6.0],然后我們用int8進(jìn)行模型量化庵佣,則定點(diǎn)量化值范圍為[-128, 127]歉胶,那么S和Z的求值過程如下:

image.png
image.png

那么存在如下的對(duì)應(yīng)關(guān)系:


image.png

如果此時(shí)我們有一個(gè)真實(shí)的激活值為0.28即R=0.28,那么對(duì)應(yīng)Q的求值過程如下:


image.png

通常來說巴粪,模型量化用的最多的是int8定點(diǎn)量化通今。

(三)、對(duì)稱算法 vs 非對(duì)稱算法

非對(duì)稱算法一般能夠較好地處理數(shù)據(jù)分布不均勻的情況肛根,為了驗(yàn)證這個(gè)問題辫塌,用 python 做了一個(gè)小實(shí)驗(yàn)。FP32 原始數(shù)據(jù)均勻分布在 [-20, 1000]派哲,這也意味著數(shù)據(jù)分布明顯傾向于正數(shù)一方臼氨。下圖展示了實(shí)驗(yàn)結(jié)果。


芭届、

從圖中可以看出储矩,對(duì)于這種FP32 數(shù)據(jù)分布不均勻的情況下感耙,對(duì)稱算法的量化數(shù)據(jù)分布與原始數(shù)據(jù)分布相差很大。由對(duì)稱算法(symmetric)產(chǎn)生的 量化數(shù)據(jù)絕大部分都位于[0,127] 這個(gè)表示范圍內(nèi)持隧,而 0 的左側(cè)有相當(dāng)于一部分范圍內(nèi)沒有任何的數(shù)據(jù)抑月。int8 本來在數(shù)據(jù)的表示范圍上就明顯少于 FP32,現(xiàn)在又有一部分表示范圍沒發(fā)揮左右舆蝴,這將進(jìn)一步減弱量化數(shù)據(jù)的表示能力谦絮,影響量化模型的精度。與之相反洁仗,非對(duì)稱算法(asymmetric)則能較好地解決 FP32 數(shù)據(jù)分布不明顯傾向于一側(cè)的問題层皱,量化數(shù)據(jù)的分布與原始數(shù)據(jù)分布情況大致相似,較好地保留了 FP32 數(shù)據(jù)信息赠潦。

(四)叫胖、非線性量化(量化映射的每個(gè)間隔是不相等的)

三、量化的幾個(gè)前沿研究方向

(一)她奥、強(qiáng)化學(xué)習(xí)

  1. 混合精度量化

(二)瓮增、訓(xùn)練時(shí)量化

  1. 量化感知訓(xùn)練STE 。量化損失添加到loss中
    image.png

    https://zhuanlan.zhihu.com/p/163413457
  2. 可微量化哩俭。 DSQ 直接讓量化操作可導(dǎo)

(三)绷跑、用什么比特表示最好?

二值網(wǎng)絡(luò)
三值網(wǎng)絡(luò)
https://chenrudan.github.io/blog/2018/10/02/networkquantization.html

(四)凡资、提高int8 量化效果

  1. 找到更好的 mixmax(非線性量化)
  2. weight activation 數(shù)據(jù)分布不同
  3. 每一層的數(shù)據(jù)范圍都不同砸捏,動(dòng)態(tài)值域問題(calibration)
  4. round帶來誤差。(round會(huì)肯定會(huì)帶來誤差隙赁,怎么處理呢垦藏?Stochastic roundin)


    image.png

(五)、如何與其他神經(jīng)網(wǎng)絡(luò)壓縮方法一起達(dá)到最好的壓縮效果

  • Deep compression


    image.png

    image.png

(六)伞访、神經(jīng)網(wǎng)絡(luò)的各個(gè)操作應(yīng)該如何量化(relu 掂骏,concat, merge BN以及Eltwise等等)

image.png
image.png

四厚掷、工業(yè)界量化

  1. asymmetric uint8
  2. 量化感知訓(xùn)練會(huì)涉及到一些參數(shù)
  3. relu 弟灼,concat, merge BN以及Eltwise
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末蝗肪,一起剝皮案震驚了整個(gè)濱河市袜爪,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌薛闪,老刑警劉巖辛馆,帶你破解...
    沈念sama閱讀 221,198評(píng)論 6 514
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡昙篙,警方通過查閱死者的電腦和手機(jī)腊状,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,334評(píng)論 3 398
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來苔可,“玉大人缴挖,你說我怎么就攤上這事》俑ǎ” “怎么了映屋?”我有些...
    開封第一講書人閱讀 167,643評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)同蜻。 經(jīng)常有香客問我棚点,道長(zhǎng),這世上最難降的妖魔是什么湾蔓? 我笑而不...
    開封第一講書人閱讀 59,495評(píng)論 1 296
  • 正文 為了忘掉前任瘫析,我火速辦了婚禮,結(jié)果婚禮上默责,老公的妹妹穿的比我還像新娘贬循。我一直安慰自己,他們只是感情好桃序,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,502評(píng)論 6 397
  • 文/花漫 我一把揭開白布杖虾。 她就那樣靜靜地躺著,像睡著了一般葡缰。 火紅的嫁衣襯著肌膚如雪亏掀。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,156評(píng)論 1 308
  • 那天泛释,我揣著相機(jī)與錄音,去河邊找鬼温算。 笑死怜校,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的注竿。 我是一名探鬼主播茄茁,決...
    沈念sama閱讀 40,743評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼巩割!你這毒婦竟也來了裙顽?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,659評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤宣谈,失蹤者是張志新(化名)和其女友劉穎愈犹,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,200評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡漩怎,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,282評(píng)論 3 340
  • 正文 我和宋清朗相戀三年勋颖,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片勋锤。...
    茶點(diǎn)故事閱讀 40,424評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡饭玲,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出叁执,到底是詐尸還是另有隱情茄厘,我是刑警寧澤,帶...
    沈念sama閱讀 36,107評(píng)論 5 349
  • 正文 年R本政府宣布谈宛,位于F島的核電站蚕断,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏入挣。R本人自食惡果不足惜亿乳,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,789評(píng)論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望径筏。 院中可真熱鬧葛假,春花似錦、人聲如沸滋恬。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,264評(píng)論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)恢氯。三九已至带斑,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間勋拟,已是汗流浹背勋磕。 一陣腳步聲響...
    開封第一講書人閱讀 33,390評(píng)論 1 271
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留敢靡,地道東北人挂滓。 一個(gè)月前我還...
    沈念sama閱讀 48,798評(píng)論 3 376
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像啸胧,于是被迫代替她去往敵國(guó)和親赶站。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,435評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容