reference:
https://blog.csdn.net/niaolianjiulin/article/details/82764511
https://blog.csdn.net/baidu_24281959/article/details/52015811
而定點(diǎn)與浮點(diǎn)在《計(jì)算機(jī)組成原理》有很詳細(xì)的說明微酬,但是電子專業(yè)的學(xué)生只學(xué)《單片機(jī)》碗誉,而《單片機(jī)》并沒有介紹定點(diǎn)與浮點(diǎn)的內(nèi)容,所以電子專業(yè)的學(xué)生缺了這點(diǎn)基礎(chǔ)忿薇,導(dǎo)致在FPGA處理運(yùn)算時(shí)遇到攔路虎毕骡。
定點(diǎn)
定點(diǎn)數(shù)是非常簡單的,它最早在小學(xué)的時(shí)候就已經(jīng)學(xué)了奏候,只不過那個(gè)時(shí)候并沒有使用定點(diǎn)這個(gè)術(shù)語循集。
如上圖所示,31.5米=315分米蔗草,顯然根據(jù)單位的不同咒彤,小數(shù)點(diǎn)是可以移動(dòng)的疆柔。只要單位固定了,那么小數(shù)點(diǎn)也固定镶柱,所以叫定點(diǎn)數(shù)婆硬。那么二進(jìn)制的定點(diǎn)數(shù),也是同樣的原理奸例。
浮點(diǎn)
由于定點(diǎn)數(shù)所表示數(shù)的范圍非常有限,所以才弄了浮點(diǎn)數(shù)向楼,以擴(kuò)充數(shù)的范圍查吊,以便給精度要求高的場合下使用。于是湖蜕,得到IEEE754標(biāo)準(zhǔn)的格式逻卖,如下圖所示。
雖然在CPU內(nèi)部運(yùn)算時(shí)使用昭抒,但是在顯示給人看的時(shí)候评也,根據(jù)實(shí)際需求,可以轉(zhuǎn)成10的e次方等形式灭返。
浮點(diǎn)數(shù)在運(yùn)算過程中盗迟,需要對階(也就是讓指數(shù)位相同),而對階過程中就常常使小數(shù)點(diǎn)移動(dòng)熙含,所以叫浮點(diǎn)數(shù)罚缕。
使用浮點(diǎn)數(shù)格式處理加、減怎静、乘邮弹、除等運(yùn)算,有兩種方法蚓聘,一種是使用定點(diǎn)模擬浮點(diǎn)腌乡,另一種是使用FPU(浮點(diǎn)處理單元)。
定點(diǎn)模擬浮點(diǎn)夜牡,運(yùn)算速度較慢与纽,在一些沒有FPU的CPU會(huì)用得上(如51單片機(jī))。
FPU是在CPU內(nèi)部集成的外設(shè)氯材,運(yùn)算速度較快渣锦,但是CPU的成本會(huì)增加(如STM32F4系列)。
然而大多數(shù)FPGA內(nèi)部沒有集成FPU氢哮,要么使用IP核(OpenCores有)袋毙,要么自己用HDL寫一個(gè)。
浮點(diǎn):小數(shù)點(diǎn)非固定的數(shù)冗尤,可表示數(shù)據(jù)范圍較廣听盖,整數(shù)胀溺,小數(shù)都可表示。包含float皆看,double仓坞;
定點(diǎn):小數(shù)點(diǎn)固定,可表示整數(shù)腰吟,小數(shù)无埃。int本質(zhì)是小數(shù)點(diǎn)位于末尾的32位定點(diǎn)數(shù)而已;
IEEE 754標(biāo)準(zhǔn)
規(guī)定浮點(diǎn)數(shù)格式為:- s表示符號位毛雇,當(dāng)s=0嫉称,V為正數(shù);當(dāng)s=1灵疮,V為負(fù)數(shù)
- m表示尾數(shù)
- n表示階碼
例如,前面繪出的浮點(diǎn)數(shù)的表示形式中,s=0,n=132,m=(1/2+0/4+0/8+1/16+0/32+……),則計(jì)算結(jié)果為50.0
定點(diǎn)數(shù)的表示法
對于計(jì)算機(jī)來說织阅,浮點(diǎn)定點(diǎn)的概念是看不見的,因?yàn)樗荒芸吹剑?…00001110震捣,至于它表示多少荔棉,是邏輯層面的設(shè)置。你如果讓它是int那就按照int表示法對每個(gè)位賦予意義蒿赢,如果你讓它是float就按照float表示法賦予意義润樱。
對于00011100表示的定點(diǎn)數(shù):
- 如果我們設(shè)定小數(shù)點(diǎn)是位于最后一位的,即00011100. 則其表示28
- 若設(shè)定小數(shù)點(diǎn)位于后三位的羡棵,即00011.100 則其表示3.50
- 若設(shè)定小數(shù)點(diǎn)位于后四位的祥国,即0001.1100 則其表示1.75
可以看到:
- 小數(shù)位數(shù)越多,表示的精度越高晾腔。若小數(shù)點(diǎn)后有n位舌稀,則其表示的最大精度為1/(2n);
- 整數(shù)位數(shù)越多,可表示的最大值越大灼擂。
以8位為例壁查,最高位為符號位:
- 若整數(shù)位占4位,小數(shù)位占3位剔应,則其最大精度為0.125睡腿,最大值為15.875
- 若整數(shù)位占5位,小數(shù)位占2位峻贮,則其最大精度為0.250席怪,最大值為31.750
- 若整數(shù)位占6位,小數(shù)位占1位纤控,則其最大精度為0.500挂捻,最大值為63.500
- 若整數(shù)位占7位,小數(shù)位占0位船万,則其最大精度為1.000刻撒,最大值為127
為何要把浮點(diǎn)數(shù)轉(zhuǎn)換為定點(diǎn)數(shù)呢骨田?
1.這來源于項(xiàng)目中神經(jīng)網(wǎng)絡(luò)的需求,網(wǎng)絡(luò)中大量的參數(shù)声怔,如果全部用F32表示态贤,一是占用空間大,二是讀取效率不高醋火。
如果我們可以將某些浮點(diǎn)數(shù)轉(zhuǎn)換為定點(diǎn)數(shù)表示悠汽,在接受精度損失的前提下,每次就可以讀取多個(gè)進(jìn)行運(yùn)行芥驳,可顯著提高運(yùn)算效率介粘;
2.浮點(diǎn)數(shù)在運(yùn)算過程中,需要對階(也就是讓指數(shù)位相同)晚树,而對階過程中就常常使小數(shù)點(diǎn)移動(dòng);
3.FPU是在CPU內(nèi)部集成的外設(shè)
舉例來說雅采,我們用8位定點(diǎn)數(shù)爵憎,1個(gè)符號位,4個(gè)整數(shù)位婚瓜,3個(gè)小數(shù)位宝鼓,則其可表示范圍是-16.00~15.875,最大精度0.125巴刻。
有幾個(gè)浮點(diǎn)數(shù):0.145愚铡,1.231,2.364胡陪,7.512沥寥,每個(gè)需要32bit表示。
如果我們將每個(gè)量化成一個(gè)8位定點(diǎn)數(shù)柠座,比如通過某種方法得到:1邑雅,10,19妈经,60
此時(shí)每個(gè)數(shù)需要8bit表示淮野。那么讀一個(gè)浮點(diǎn)數(shù),可以同時(shí)讀4個(gè)定點(diǎn)數(shù)吹泡,且計(jì)算效率可以提高骤星。當(dāng)然這樣做是有風(fēng)險(xiǎn)的:
- 損失精度,比如再將上述定點(diǎn)數(shù)轉(zhuǎn)化為浮點(diǎn)數(shù):0.125爆哑,1.250洞难, 2.375,7.500揭朝;
- 定點(diǎn)數(shù)表示范圍有限廊营,加法有可能會(huì)溢出歪泳,需要拿int16或int32來暫存中間結(jié)果;
如何將浮點(diǎn)數(shù)轉(zhuǎn)換為定點(diǎn)數(shù)露筒?
我們用8位定點(diǎn)數(shù)呐伞,1個(gè)符號位,4個(gè)整數(shù)位慎式,3個(gè)小數(shù)位伶氢。這個(gè)3稱為量化系數(shù)。該過程稱為量化瘪吏。
(我們總是將非離散值量化到離散值空間癣防,處理更為簡單)
如何將定點(diǎn)數(shù)轉(zhuǎn)換為浮點(diǎn)數(shù)
該過程稱為反量化。
還有個(gè)note:
- 定點(diǎn)數(shù)加減時(shí)需要量化系數(shù)相同掌眠,其值有可能溢出蕾盯,需要更大定點(diǎn)數(shù)來暫存中間值;
- 兩個(gè)定點(diǎn)數(shù)乘法后如果需要轉(zhuǎn)化為f32蓝丙,則反量化系數(shù)變?yōu)??n
16位量化
參與數(shù)值運(yùn)算的數(shù)為16位的整型數(shù)级遭,通過設(shè)定小數(shù)點(diǎn)在16位數(shù)中的不同位置,就可以表示不同大小和不同精度的小數(shù)渺尘。
Q表示 | S表示 | 十進(jìn)制數(shù)表示范圍 |
---|---|---|
Q15 | S0.15 | -1≤x≤0.9999695 |
Q14 | S1.14 | -2≤x≤1.9999390 |
Q13 | S2.13 | -4≤x≤3.9998779 |
Q12 | S3.12 | -8≤x≤7.9997559 |
Q11 | S4.11 | -16≤x≤15.9995117 |
Q10 | S5.10 | -32≤x≤31.9990234 |
Q9 | S6.9 | -64≤x≤63.9980469 |
Q8 | S7.8 | -128≤x≤127.9960938 |
Q7 | S8.7 | -256≤x≤255.9921875 |
Q6 | S9.6 | -512≤x≤511.9804375 |
Q5 | S10.5 | -1024≤x≤1023.96875 |
Q4 | S11.4 | -2048≤x≤2047.9375 |
Q3 | S12.3 | -4096≤x≤4095.875 |
Q2 | S13.2 | -8192≤x≤8191.75 |
Q1 | S14.1 | -16384≤x≤16383.5 |
Q0 | S15.0 | -32768≤x≤32767 |
不同的Q所表示的數(shù)不僅范圍不同挫鸽,而且精度也不相同。
Q越大鸥跟,數(shù)值范圍越小丢郊,但精度越高;相反医咨,Q越小枫匾,數(shù)值范圍越大,但精度就越低拟淮。
轉(zhuǎn)換關(guān)系
浮點(diǎn)數(shù)與定點(diǎn)數(shù)的轉(zhuǎn)換關(guān)系可表示為:
浮點(diǎn)數(shù)(Fx)轉(zhuǎn)換為定點(diǎn)數(shù)(Ix):Ix = (int)x* 2^Q
定點(diǎn)數(shù)(Ix)轉(zhuǎn)換為浮點(diǎn)數(shù)(Fx):Fx= (float)Ix*2^(-Q)
轉(zhuǎn)換示例:
浮點(diǎn)數(shù) Fx = 0.5婿牍,定標(biāo) Q = 15,則定點(diǎn)數(shù):
Ix = floor(0.5*32768) = 16384
反之惩歉,一個(gè)用 Q = 15 表示的定點(diǎn)數(shù)Ix = 16384等脂,其浮點(diǎn)數(shù)為:
Fx = 16384 * 2^(-15) = 16384 / 32768 = 0.5
浮點(diǎn)數(shù)轉(zhuǎn)換為定點(diǎn)數(shù)時(shí),為了降低截尾誤差,可以在取整前可以先加上0.5,視情況而定撑蚌。
定點(diǎn)加減
將浮點(diǎn)加法/減法轉(zhuǎn)化為定點(diǎn)加法/減法時(shí)最重要的一點(diǎn)就是必須保證兩個(gè)操作數(shù)的定標(biāo):
若兩者不一樣上遥,則在做加法/減法運(yùn)算前先進(jìn)行小數(shù)點(diǎn)的調(diào)整。
為保證運(yùn)算精度争涌,需使Q值小的數(shù)調(diào)整為與另一個(gè)數(shù)的Q值一樣大粉楚。
此外,在做加法/減法運(yùn)算時(shí),必須注意結(jié)果可能會(huì)超過16位表示模软。
如果加法/減法的結(jié)果超出16位的表示范圍伟骨,則必須保留32位結(jié)果,以保證運(yùn)算的精度燃异,否則可能會(huì)出現(xiàn)嚴(yán)重的精度丟失携狭。
# 設(shè)x的Q值為Qx,y的Q值為Qy回俐,且Qx > Qy逛腿,加法/減法結(jié)果z的定標(biāo)值為Qz
# 所以定點(diǎn)加法可以描述為:
int16 x,y;
#結(jié)果用更大長度的存
int z;
int temp; // 臨時(shí)變量
temp = y << (Qx - Qy);
# Q大-Q小,Q大的變量分辨率更高仅颇,Q小的左移增加其Q
temp = x + temp;
z = (temp >> (Qx - Qz)); // if Qx >= Qz
z = (temp << (Qz - Qx)); // if Qx <= Qz
// 設(shè)x = 0.5单默,y = 3.1,則浮點(diǎn)運(yùn)算結(jié)果為z = x+y = 0.5+3.1 = 3.6;
// Qx = 15忘瓦,Qy = 13搁廓,Qz = 13,則定點(diǎn)加法為:
x = 16384耕皮;y = 25395;
temp = 25395 << 2 = 101580;
temp = x+temp = 16384+101580 = 117964;
z = (int)(117964L >> 2) = 29491;
#因?yàn)閦的Q值為13境蜕,所以定點(diǎn)值z = 29491即為浮點(diǎn)值z = 29491/8192 = 3.5999755859375
自己理解的版本:因?yàn)橛?jì)算過程中并不知道實(shí)際的Qz,因此上個(gè)版本實(shí)際上不可行明场,因此有:
# 設(shè)x的Q值為Qx,y的Q值為Qy李丰,且Qx > Qy苦锨,加法/減法結(jié)果z的定標(biāo)值為Qz
# 所以定點(diǎn)加法可以描述為:
int16 x,y;
#結(jié)果用更大長度的存
int z;
int temp; // 臨時(shí)變量
temp = y << (Qx - Qy);
# Q大-Q小,Q大的變量分辨率更高趴泌,Q小的左移增加其Q
z= x + temp;
# 設(shè)x = 0.5舟舒,y = 3.1,則浮點(diǎn)運(yùn)算結(jié)果為z = x+y = 0.5+3.1 = 3.6
# Qx = 15嗜憔,Qy = 13秃励,Qz = 13,則定點(diǎn)加法為:
x = 16384吉捶;y = 25395;
temp = 25395 << 2 = 101580;
temp = x+temp = 16384+101580 = 117964;
z = (int)(temp) = 117964;
#因?yàn)閤的Q值為15夺鲜,所以定點(diǎn)值z = 117964即為浮點(diǎn)值z = 117964/32768= 3.5999755859375,與上一版相同
定點(diǎn)乘法
int x,y,z;
long temp;
temp = (long)x;
z = (temp×y) >>(Qx+Qy-Qz);
# 設(shè)x = 18.4,y = 36.8呐舔,則浮點(diǎn)運(yùn)算值為z = 18.4×36.8 = 677.12;
# 根據(jù)上節(jié)币励,得Qx = 10,Qy = 9珊拼,Qz = 5食呻,所以
x = 18841;y = 18841;
temp = 18841L; // Long int
z = (18841L * 18841) >> (10+9-5) = 354983281L >> 14 = 21666;
# 因?yàn)閦的定標(biāo)值為5,故定點(diǎn) z = 21666即為浮點(diǎn)的 z = 21666/32 = 677.0768756866455078125 產(chǎn)生了精度損失
自己理解的版本:因?yàn)橛?jì)算過程中并不知道實(shí)際的Qz仅胞,因此上個(gè)版本實(shí)際上不可行每辟,因此有:
int16 x,y,
#結(jié)果用更大長度的存
int z;
int temp;
temp = (int)x;
z = x*y
# 設(shè)x = 18.4,y = 36.8干旧,則浮點(diǎn)運(yùn)算值為z = 18.4×36.8 = 677.12;
# 根據(jù)上節(jié)渠欺,得Qx = 10,Qy = 9莱革,所以
x = 18841峻堰;y = 18841;
z=18841*18841=354983281
#浮點(diǎn)z = 354983281/(2^10+2^9) =354983281/(524288)= 677.0768756866455078125 產(chǎn)生了精度損失