姓名:王偉旗处窥;學(xué)號:21021210962;學(xué)院:電子工程學(xué)院
改編自https://blog.csdn.net/OneFlow_Official/article/details/123767295
【嵌牛導(dǎo)讀】
歷史不會簡單重復(fù)玄组,但總是驚人的相似滔驾。之前在電影谒麦、游戲等人文領(lǐng)域流行的縫合風(fēng),似乎也對IT界芯片設(shè)計師們產(chǎn)生了影響嵌灰。在英偉達(dá)最新的發(fā)布會上弄匕,黃仁勛發(fā)布的Grace CPU Superchip颅悉,其實(shí)就是用兩塊Grace CPU粘在一起而形成的炸裂之作沽瞭。
【嵌牛鼻子】芯片縫合風(fēng)
【嵌牛提問】讀完本文,知道“縫合風(fēng)”為何在芯片大廠中盛行了嗎剩瓶?
【嵌牛正文】
縫合風(fēng)從蘋果的初代M1就開始了驹溃,只是初代的M1目標(biāo)是把CPU、GPU延曙、內(nèi)存縫合到一起豌鹤,由于使用的都是片內(nèi)內(nèi)存,所以理論上講M1系列的全族芯片都不支持內(nèi)存擴(kuò)展枝缔,要換只能把CPU布疙、GPU打包一起換掉。當(dāng)然縫合方案的影響不止于此愿卸,下面我們就來分析一下這種芯片縫合方案的具體情況灵临。
內(nèi)存帶寬極高,CPU和GPU通信能力超強(qiáng)
由于內(nèi)存完全被芯片集成趴荸,內(nèi)存與CPU之間的通信也就不用經(jīng)過主板進(jìn)行轉(zhuǎn)手了儒溉,因此目前我們可以看到英偉達(dá)的Grace CPU的內(nèi)存帶寬可以達(dá)到驚人每秒1TB,而蘋果M1 Ultra也是不遑多讓发钝,有每秒800GB的成績顿涣。這是我們一般主板接入內(nèi)存的普通X86玩家所不能想象的效果,可見甩了主板這個中間商以后酝豪,其實(shí)內(nèi)存的速度還是能打的涛碑。
另外由于M1系列縫合式芯片內(nèi)存、GPU都是由CPU進(jìn)行統(tǒng)一管理孵淘,也就是說內(nèi)存與顯存是共享的蒲障,這就可以大大提高CPU與GPU的通信效率,從而增強(qiáng)圖像處理夺英、3D建模等任務(wù)的處理效率晌涕。由于英偉達(dá)Grace尚未投產(chǎn),具體細(xì)節(jié)還不多痛悯,因此這里這種片內(nèi)共享所帶來的加成效應(yīng)余黎,我們繼續(xù)以蘋果M1舉例,蘋果初代M1顯存與內(nèi)存加在一起只有16G载萌,而M1前一代的Mac Pro內(nèi)存是128G惧财,光是顯存都有與M1持平16G巡扇,不過搭載M1的入門版Mac在進(jìn)行圖像處理等任務(wù)時,卻要比上一代頂配的Mac還要強(qiáng)出近一倍垮衷。而本次發(fā)布的M1 Max更是直接將內(nèi)存帶寬提升到初代M1的6位厅翔,其性能加強(qiáng)的程度也就可想而知了。
英偉達(dá)最近發(fā)布處理器中用到的縫合技術(shù)NVlink搀突,其實(shí)采用了和蘋果比較類似的思路刀闷。未來不排除英特爾和AMD也會跟進(jìn),今后內(nèi)存也很可能不會再是一個單獨(dú)的元件了仰迁,被集成起來也會是一種趨勢甸昏。
AI算力史詩級提升,元宇宙可期
在AI優(yōu)化方面徐许,現(xiàn)在看來未來主流的Tensor也就是矢量的主流格式正在由FP32向FP8施蜜。在英偉達(dá)最新的顯卡H100中,主打的矢量格式就已經(jīng)明確是FP8了雌隅。
不管是AI計算翻默,還是元宇宙概念,其最基本的計算單元都是矢量恰起。以深度神經(jīng)網(wǎng)絡(luò)為例修械,神經(jīng)元可以抽象為對于輸入矢量乘以權(quán)重以表示信號強(qiáng)度乘積加總,再由ReLU村缸、Sigmoid等應(yīng)用激活函數(shù)調(diào)節(jié)祠肥,本質(zhì)是將輸入數(shù)據(jù)與權(quán)重矩陣相乘,并輸入激活函數(shù)梯皿,對于有三個輸入數(shù)據(jù)和兩個全連接神經(jīng)元的單層神經(jīng)網(wǎng)絡(luò)而言仇箱,需要把輸入和權(quán)重進(jìn)行六次相乘,經(jīng)典CNN中無論GEMM的矩陣乘法運(yùn)算還是卷積地乘加計算都是使用FP32也就是用32位字長的數(shù)字來表示的东羹,在這種情況下如果我們可以使用FP8來作為輸入表示此以過程剂桥,其計算量至少可以下降75%。尤其在圖像處理的場景下属提,通常由FP32到FP8的轉(zhuǎn)換权逗,如果方案得當(dāng),其精度損失是低于1%的冤议。因此在針對FP8類型的計算加速也就是業(yè)界都在探討的話題斟薇。
由于之前英特爾去年至強(qiáng)三代中引入的VNNI已經(jīng)針對FP8進(jìn)行過加速優(yōu)化,據(jù)筆者所知咱們國內(nèi)某大廠在實(shí)時生成用戶3D頭像模型的應(yīng)用中恕酸,在VNNI的支持下可以在精度降低1%的情況下堪滨,性能還提升了4.23倍。而這次英偉達(dá)的發(fā)布會上蕊温,黃仁勛的說法也為FP8投上了關(guān)鍵一票袱箱。
RISC的自帶光環(huán)遏乔,超強(qiáng)的譯碼器
目前處理器的流水線一般分為取指、譯碼发笔、取操作數(shù)等等環(huán)節(jié)盟萨,其中譯碼是一個非常重要的環(huán)節(jié)。譯碼器方面ARM架構(gòu)的精簡指令集的確有一定優(yōu)勢了讨,由于指令都是定長的捻激,完全可以做出高效的多路譯碼器以提升效率。據(jù)筆者所知之前初代M1應(yīng)該是四路譯碼量蕊,目前的M1 MAX和Ultra都是6路指令解碼器铺罢,8μop發(fā)射寬度艇挨,6路分配残炮、10路執(zhí)行端口的指標(biāo)。但是英特爾和AMD想用縫合方案的話缩滨,就需要實(shí)現(xiàn)像M1 Ultra這么強(qiáng)的譯碼器势就,但由于X86指令集是變長的,因此X86芯片的譯碼器一般都先按短碼進(jìn)行翻譯脉漏,遇差錯再返工苞冯,這也就很難在相同的功耗下達(dá)到很強(qiáng)的譯碼效率。
未來趨勢-打破指令集之間的墻
在英特爾IDM 2.0的戰(zhàn)略當(dāng)中有一個重要原則侧巨,那就是敞開大門舅锄,全面接收各種芯片的訂單,同時也可以考慮在同一芯片中集成多種不同指令集的核心司忱,這可能終極的縫合目標(biāo)皇忿,也就是同一塊芯片中可以由英特爾的CPU當(dāng)大核,ARM的CPU當(dāng)小核坦仍,AMD的顯卡當(dāng)GPU的神奇組合鳍烁。
這種趨勢在英特爾去年發(fā)布的Alder Lake處理器中搭建的Thread Director上已經(jīng)顯出端倪。Thread Director就是這樣一種軟繁扎、硬結(jié)合的核心調(diào)度方案幔荒,英特爾的做法是在處理器中集成了一個專用的MCU,用來監(jiān)控當(dāng)前處理器內(nèi)核的運(yùn)行情況梳玫,能夠監(jiān)測到每個線程的特征爹梁,比如它運(yùn)行什么樣的指令集、它的性能需求如何等等提澎。在收集完信息之后姚垃,MCU會將收集到的信息反饋給操作系統(tǒng),再次操作系統(tǒng)把這些信息與線程調(diào)度信息相結(jié)合虱朵,判斷是否應(yīng)該將線程轉(zhuǎn)移到別的核心上莉炉。如果與操作系統(tǒng)結(jié)合的好話钓账,那么一輪調(diào)度信息采集工作僅需要30微秒就能完成,而傳統(tǒng)方案調(diào)度器可能需要100多毫秒才能判斷出結(jié)論絮宁。據(jù)了解梆暮,Alder Lake上集成的這顆調(diào)度用的MCU就是RISC-V的核心,一切就是這么奇妙绍昂。
天下大勢合久必分啦粹,分久必合,因此縫合芯片窘游,也符合現(xiàn)在芯片行業(yè)的發(fā)展趨勢唠椭,不過這種縫合這款處理器如何在虛擬化的云環(huán)境中,為不同用戶提供服務(wù)忍饰,并進(jìn)行嚴(yán)格的隔離可能也是一個難點(diǎn)贪嫂,但是可以肯定的是英偉達(dá)、英特爾和蘋果的接連站臺艾蓝,縫合式芯片的未來可期力崇。