文章時間:2021年11月前
會議/期刊:SC 2021
筆記時間:2021年11月17日周三
Session 高性能數(shù)值方法
1禁悠,
論文題目:Reverse-mode automatic differentiation and optimization of GPU kernels via enzyme
作者背景:MIT CSAIL
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476165
摘要:
計算導(dǎo)數(shù)是科學(xué)計算和機(jī)器學(xué)習(xí)中的許多算法的關(guān)鍵署照,如優(yōu)化彼水、不確定性量化和穩(wěn)定性分析。Enzyme是一個LLVM編譯器插件漠烧,它執(zhí)行反向模式自動微分(AD)堪伍,從而生成高性能的程序梯度語言,包括C/ c++扩然、Fortran艘儒、Julia和Rust。在此之前夫偶,Enzyme等AD工具無法生成GPU內(nèi)核的梯度界睁。我們的論文提出了一種新技術(shù)的組合,使Enzyme成為第一個全自動反向模式AD工具兵拢,以生成GPU內(nèi)核的梯度翻斟。由于不同于其他工具,Enzyme在通用編譯器中執(zhí)行自動區(qū)分卵佛,我們能夠引入幾個新穎的GPU和特定于ad的優(yōu)化杨赤。為了展示我們方法的通用性和效率敞斋,我們計算了5個基于gpu的HPC應(yīng)用程序的梯度截汪,這些應(yīng)用程序在NVIDIA和AMD gpu上執(zhí)行。所有基準(zhǔn)測試都在原始程序執(zhí)行時間的一個數(shù)量級內(nèi)運(yùn)行植捎。如果沒有GPU和特定ad的優(yōu)化衙解,GPU內(nèi)核的梯度要么無法在缺乏資源的情況下運(yùn)行,要么有不可行的開銷焰枢。最后蚓峦,我們證明了通過增加線程數(shù)量或增加每個線程的工作來增加問題的大小,并不會實質(zhì)上影響差異化帶來的開銷济锄。
2暑椰,
論文題目:Overcoming barriers to scalability in variational quantum Monte Carlo
作者背景:University of Michigan
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476219
摘要:
變分量子蒙特卡羅(VQMC)方法由于其克服多體量子系統(tǒng)固有維數(shù)詛咒的能力,近年來受到了廣泛的關(guān)注荐绝。VQMC和新出現(xiàn)的混合量子-經(jīng)典變分量子算法計算范式之間存在著密切的平行關(guān)系一汽。VQMC通過對參數(shù)化量子態(tài)進(jìn)行蒙特卡羅采樣的交替步驟,然后進(jìn)行基于梯度的優(yōu)化,克服了維數(shù)詛咒召夹。雖然VQMC已經(jīng)被應(yīng)用于解決高維問題岩喷,但眾所周知其難以并行化,主要是由于馬爾可夫鏈蒙特卡羅(MCMC)采樣步驟监憎。在這項工作中纱意,我們探索了當(dāng)使用具有精確采樣的自回歸模型來代替MCMC時,VQMC的可擴(kuò)展性鲸阔。這種方法可以在采樣任務(wù)中利用分布式內(nèi)存偷霉、共享內(nèi)存和/或GPU并行性而沒有任何瓶頸。特別地褐筛,我們演示了VQMC的gpu可擴(kuò)展性腾它,可用于解決多達(dá)10000維的組合優(yōu)化問題。
3死讹,
論文題目:3D acoustic-elastic coupling with gravity: the dynamics of the 2018 palu, sulawesi earthquake and tsunami
作者背景:德國慕尼黑科技大學(xué)
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476173
摘要:我們提出了一個高度可伸縮的地震破裂和海嘯產(chǎn)生的三維全耦合地球和海洋模型瞒滴,并首次對實際地震海嘯事件進(jìn)行了完全耦合模擬,并對大型逆沖斷層動態(tài)地震破裂產(chǎn)生海嘯的三維基準(zhǔn)問題進(jìn)行了模擬赞警。多千萬億次模擬妓忍,在三個不同的平臺上演示了出色的性能,允許進(jìn)行高分辨率的正向建模愧旦。我們最大的網(wǎng)格有≈2610億自由度世剖,至少能分辨15赫茲的聲波場。我們自洽地模擬了地震笤虫、聲波和表面重力波在彈性(地球)和聲學(xué)(海洋)材料中的傳播旁瘫。從而深入了解海嘯的產(chǎn)生過程,而不依賴于以前應(yīng)用于解決這一挑戰(zhàn)性問題的近似方法琼蚯。采用自適應(yīng)非結(jié)構(gòu)四面體網(wǎng)格對復(fù)雜幾何圖形進(jìn)行離散化酬凳,包括高分辨率測深、海岸線和分段地震斷層遭庶。這不可避免地導(dǎo)致了元素大小和波速的巨大差異宁仔,可以通過ADER局部時間步進(jìn)和不連續(xù)Galerkin離散化來緩解這種差異,從而在時間和空間上獲得高階精度峦睡。
Session 計算生物學(xué)
1翎苫,
論文題目:Accelerating large scale de novo metagenome assembly using GPUs
作者背景:Lawrence Berkeley National Laboratory
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476212
摘要:
宏基因組工作流程包括直接從環(huán)境中研究未培養(yǎng)的微生物。這些環(huán)境樣本經(jīng)現(xiàn)代測序機(jī)處理后榨了,產(chǎn)生的龐大而復(fù)雜的數(shù)據(jù)集超過了宏基因組軟件的能力煎谍。數(shù)據(jù)集的不斷增加的大小和復(fù)雜性為能夠億億級的元基因組匯編器提供了一個強(qiáng)有力的例子。然而龙屉,底層的算法主題并不適合gpu呐粘。這是一個挑戰(zhàn),因為大多數(shù)下一代超級計算機(jī)將主要依賴gpu進(jìn)行計算。
在本文中事哭,我們提出了第一個gpu加速本地裝配方法的實現(xiàn)漫雷,該方法是廣泛使用的大規(guī)模元基因組裝配程序MetaHipMer的組成部分。本地裝配使用的算法會導(dǎo)致隨機(jī)內(nèi)存訪問和不確定性的工作負(fù)載鳍咱,這使得GPU卸載成為一項具有挑戰(zhàn)性的任務(wù)降盹。我們的GPU實現(xiàn)比CPU版本的性能高出約7倍,在64個Summit節(jié)點上運(yùn)行時谤辜,MetaHipMer的性能提高了42%蓄坏。
2,
論文題目:FastZ: accelerating gapped whole genome alignment on GPUs
作者背景:普渡大學(xué)
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476202
摘要:認(rèn)識到全基因組比對(WGA)的重要性丑念,美國國立衛(wèi)生研究院(National Institutes for Health)維護(hù)了連續(xù)WGA應(yīng)用程序LASTZ涡戳。隨著基因組數(shù)據(jù)的增長,迫切需要可擴(kuò)展的脯倚、高性能的WGA渔彰。不幸的是,高靈敏度推正,'間隙'對齊使用動態(tài)規(guī)劃(DP)是緩慢的恍涂,而更快的對齊與無間隙濾波通常不太敏感。我們開發(fā)了FastZ植榕,一個gpu加速的再沧,間隙的WGA軟件,在靈敏度上與間隙的LASTZ相匹配尊残。FastZ采用了一種新穎的檢查器-執(zhí)行器方案炒瘸,其中(a)輕量級檢查器省略了DP回溯,除了通常情況下的極短對齊寝衫,檢查器執(zhí)行有限的顷扩、熱切的回溯以消除執(zhí)行器,(b)執(zhí)行器縮減避免了不必要的工作竞端。此外屎即,F(xiàn)astZ采用基于寄存器的循環(huán)緩沖極大地減少內(nèi)存流量,并按大小將DP問題分組以實現(xiàn)負(fù)載平衡事富。FastZ運(yùn)行在RTX 3080 GPU上,而我們的LASTZ多核實現(xiàn)分別比連續(xù)的LASTZ加速111倍和20倍乘陪。
3统台,
論文題目:Scalable FBP decomposition for cone-beam CT reconstruction
作者背景:日本 ,RIKEN
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476139
摘要:濾波反投影(FBP)是一種用于層析圖像重建的基本計算密集算法啡邑。錐形束計算機(jī)斷層掃描(CBCT)設(shè)備使用錐形x射線束贱勃,與舊一代CT使用的平行束相比。錐束數(shù)據(jù)集的分布式圖像重建通常依賴于將成批圖像劃分到不同的節(jié)點。然而贵扰,這種簡單的輸入分解會限制輸入/輸出大小和可伸縮性仇穗。
提出了一種新的分布式FPB分解和重構(gòu)算法。該方案允許任意大的輸入/輸出大小戚绕,消除了端到端管道中產(chǎn)生的冗余纹坐,并通過只用一個分段減少替換兩個通信集合來提高可伸縮性。最后舞丛,我們在一個適用于所有當(dāng)前一代CT設(shè)備(第7代)的框架中實現(xiàn)了所提出的分解方案耘子。在我們使用多達(dá)1024個gpu的實驗中,我們的框架可以在不到16秒(包括I/O)的時間內(nèi)為真實數(shù)據(jù)集構(gòu)建40963個卷球切。
Session 計算流體力學(xué)CFD
1谷誓,
論文題目:Preparing an incompressible-flow fluid dynamics code for exascale-class wind energy simulations
作者背景:National Renewable Energy Lab
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476185
摘要:美國能源部已經(jīng)確認(rèn),百億億級風(fēng)電場模擬是風(fēng)能科學(xué)發(fā)現(xiàn)的關(guān)鍵吨凑。ExaWind項目的一個主要目標(biāo)是構(gòu)建高性能捍歪、預(yù)測性計算流體動力學(xué)(CFD)工具,以滿足這些建模需求鸵钝。GPU加速器將作為下一代的超級計算機(jī)的計算良種费封。在這里,我們報告我們的努力準(zhǔn)備ExaWind非結(jié)構(gòu)化網(wǎng)格求解器蒋伦,Nalu-Wind弓摘,為exascale類機(jī)器。對于這種規(guī)模的計算痕届,一個簡單的不可壓縮流算法端口到gpu是不夠的韧献。為了實現(xiàn)高性能,需要新的算法研叫,應(yīng)用感知锤窑,內(nèi)存高效,并為最新一代GPU設(shè)備優(yōu)化嚷炉。我們努力的結(jié)果是風(fēng)力渦輪機(jī)的非結(jié)構(gòu)化網(wǎng)格模擬渊啰,可以有效地利用數(shù)千個gpu。特別地申屹,我們使用代數(shù)多重網(wǎng)格求解器在Summit超級計算機(jī)上演示了一種史無前例的不可壓縮流模擬绘证,該解算器的規(guī)模超過4000個gpu。
2哗讥,
論文題目:Scalable adaptive PDE solvers in arbitrary domains
作者背景:Iowa State University
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476220
摘要:高效嚷那、準(zhǔn)確地模擬任意幾何形狀及其周圍的偏微分方程(PDEs),特別是具有高水平的自適應(yīng)杆煞,對不同的應(yīng)用領(lǐng)域具有重要意義魏宽。上述過程中的一個關(guān)鍵瓶頸是快速構(gòu)建一個“良好的”自適應(yīng)細(xì)化網(wǎng)格腐泻。在這項工作中,我們提出了一種高效的基于八叉樹的自適應(yīng)離散化方法队询,能夠從父域中雕刻出任意形狀的空洞區(qū)域派桩,這是圍繞復(fù)雜物體進(jìn)行流體模擬的基本要求。雕刻物體會產(chǎn)生一個不完整的八叉樹蚌斩。我們開發(fā)了高效的自頂向下和自底向上遍歷方法來執(zhí)行不完整八叉樹的有限元計算铆惑。我們通過(a)顯示適當(dāng)?shù)氖諗糠治龊?b)計算大范圍雷諾數(shù)(O(1 - 106))的通過球體的阻力系數(shù)來驗證該框架,其中包括阻力危機(jī)機(jī)制凳寺。最后鸭津,我們將框架部署在一個當(dāng)前項目的現(xiàn)實幾何上,以評估COVID-19在教室中的傳播風(fēng)險
3肠缨,
論文題目:A next-generation discontinuous galerkin fluid dynamics solver with application to high-resolution lung airflow simulations
作者背景:德國大學(xué)
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476171
摘要:
基于不可壓縮Navier-Stokes方程的高階不連續(xù)Galerkin離散化逆趋,提出了一種新穎的、高度可擴(kuò)展的晒奕、優(yōu)化的紊流求解器闻书,以最小化求解時間。求解器采用顯式-隱式時間積分脑慧,步長可變魄眉。算法的核心部分是離散有限元算子的無矩陣求值。節(jié)點級性能通過張量積元素的和因子核優(yōu)化闷袒,具有獨特的算法選擇坑律,減少了算術(shù)操作的數(shù)量,提高了緩存的使用囊骤,并向量化了跨元素和面的算術(shù)工作晃择。這些成分被集成到一個可擴(kuò)展到超級計算機(jī)的大規(guī)模并行的框架中,通過使用最優(yōu)復(fù)雜性線性求解器也物,如混合精度宫屠,混合幾何-多項式-代數(shù)多重網(wǎng)格求解器的壓力泊松問題』牵考慮的應(yīng)用問題是機(jī)械通氣條件下的人體呼吸系統(tǒng)的流體動力學(xué)模擬浪蹂,使用非結(jié)構(gòu)化/結(jié)構(gòu)化自適應(yīng)精細(xì)網(wǎng)格,用于生物醫(yī)學(xué)工程典型的幾何復(fù)雜領(lǐng)域告材。
Session 材料科學(xué)
1坤次,
論文題目:Enabling large-scale correlated electronic structure calculations: scaling the RI-MP2 method on summit
作者背景:澳國立
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476222
摘要:二階M?ller-Plesset微擾理論使用恒等分辨率近似(i - mp2)是一種精確估計多體電子相關(guān)效應(yīng)的最先進(jìn)的方法。這對于預(yù)測復(fù)雜分子系統(tǒng)的物理化學(xué)性質(zhì)至關(guān)重要;然而创葡,這些計算的規(guī)模受到其極高的計算成本的限制浙踢。本文提出了一種新的多gpu算法和基于分子碎片的RI-MP2方法的實現(xiàn),能夠在12分鐘內(nèi)使用整個Summit超級計算機(jī)對超過18萬個電子和4.5萬個原子進(jìn)行相關(guān)計算灿渴。與其他當(dāng)前的GPU和CPU代碼相比洛波,該實現(xiàn)顯示了顯著的提速,在Summit上具有出色的強(qiáng)大可擴(kuò)展性骚露,在4600個節(jié)點上實現(xiàn)了89.1%的并行效率蹬挤,并顯示了近乎理想的弱擴(kuò)展到612個節(jié)點。這項工作使得在大型超級計算機(jī)系統(tǒng)和商品集群上進(jìn)行比以往更大的分子尺度上的從頭開始相關(guān)量子化學(xué)計算成為可能棘幸,并有可能對化學(xué)焰扳、物理、生物和工程科學(xué)的進(jìn)展產(chǎn)生重大影響误续。
2吨悍,
論文題目:Accelerating all-electron ab initio simulation of raman spectra for biological systems
作者背景:清華大學(xué)
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476160
摘要:拉曼光譜提供化學(xué)和成分信息,可作為各種材料的結(jié)構(gòu)指紋蹋嵌。因此育瓜,包括量子微擾分析和基態(tài)計算在內(nèi)的拉曼光譜模擬具有重要意義。然而栽烂,高精度的全量子力學(xué)(QM)模擬拉曼光譜以前僅限于小系統(tǒng)躏仇。對于像生物材料這樣的大型系統(tǒng),全質(zhì)量管理模擬的計算成本是非常高的腺办,并且它們的擴(kuò)展仍然具有挑戰(zhàn)性焰手。在這里描述的工作中,通過使用魯棒的新算法和實現(xiàn)多核架構(gòu)的進(jìn)展怀喉,我們能夠執(zhí)行快速书妻、準(zhǔn)確、大規(guī)模并行的全從頭開始模擬生物系統(tǒng)的拉曼光譜躬拢,具有優(yōu)秀的強(qiáng)和弱標(biāo)度躲履,從而為將質(zhì)量管理方法應(yīng)用于此類系統(tǒng)的結(jié)構(gòu)研究提供了一個起點。
3估灿,
論文題目:MFF: efficient and scalable layered materials force field on heterogeneous many-core processors
作者背景:山東大學(xué)崇呵,無錫超算中心
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476137
摘要:
LAMMPS是目前最流行的分子動力學(xué)(MD)組件之一,廣泛應(yīng)用于物理馅袁、化學(xué)和材料模擬等領(lǐng)域域慷。層狀材料力場(Layered Materials Force Field, LMFF)是我們在LAMMPS中Tersoff勢和層間勢(interlayer potential, ILP)基礎(chǔ)上對LAMMPS勢函數(shù)的擴(kuò)展。LMFF旨在研究層狀材料汗销,如石墨烯和六氮化硼犹褒。
它是通用的,不依賴于任何平臺弛针。我們還對LMFF進(jìn)行了一系列優(yōu)化叠骑,優(yōu)化工作是在新一代神威超級計算機(jī)SWLMFF上進(jìn)行的。實驗表明削茁,該方法具有良好的可擴(kuò)展性和可移植性宙枷。當(dāng)通用LMFF被移植到Intel Xeon Gold 6278C掉房,實現(xiàn)了2倍的性能改進(jìn)。與最初的ILP和Tersoff電勢相比慰丛,優(yōu)化后的SWLMFF的總體性能提高了近200- 330X卓囚。在270萬個原子的弱標(biāo)度條件下,SWLMFF具有95% ~ 100%的并行效率诅病。SWLMFF模擬的最大原子系統(tǒng)接近231個原子哪亿。并且可以在一天內(nèi)實現(xiàn)納秒級的模擬。
Session 數(shù)值離散化
1贤笆,
論文題目:Temporal vectorization for stencils
作者背景:中科院 張云泉
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476149
摘要:Stencil計算代表了科學(xué)和工程應(yīng)用中非常常見的一類嵌套循環(huán)蝇棉。利用現(xiàn)代cpu中的向量單元是實現(xiàn)最高性能的關(guān)鍵。以前的向量化方法通辰嬗溃考慮數(shù)據(jù)空間篡殷,特別是最內(nèi)層的單位跨步循環(huán)。由于連續(xù)模板計算之間的數(shù)據(jù)共享恤左,導(dǎo)致矢量負(fù)載重疊贴唇,這導(dǎo)致了眾所周知的數(shù)據(jù)對齊沖突問題。
本文提出了一種新的模板時態(tài)矢量化方法飞袋。它在迭代空間中對模板計算進(jìn)行矢量化戳气,并將不同時間坐標(biāo)的點集合到一個矢量中。時間向量化導(dǎo)致少量固定數(shù)量的向量重組巧鸭,這與向量長度瓶您、模板順序和維數(shù)無關(guān)。此外纲仍,它也適用于矢量化研究較少的Gauss-Seidel型板呀袱。時間矢量化的有效性被各種Jacobi和Gauss-Seidel模板所證明。
2郑叠,
論文題目:PAGANI: a parallel adaptive GPU algorithm for numerical integration
作者背景:Old Dominion University
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476198
摘要:針對大規(guī)模并行體系結(jié)構(gòu)中的多維數(shù)值積分問題夜赵,提出了一種新的自適應(yīng)并行算法。自適應(yīng)算法已經(jīng)證明了最好的性能乡革,但是很難實現(xiàn)有效的多核利用寇僧,因為自適應(yīng)工作負(fù)載可能在集成空間中變化很大,而且不可能預(yù)測先驗》邪妫現(xiàn)有的并行算法在獨立的處理器上進(jìn)行順序計算嘁傀,由于需要進(jìn)行數(shù)據(jù)重新分配和處理器同步,因此存在瓶頸视粮。該算法采用了一種高吞吐量的方法细办,對所有現(xiàn)有的子區(qū)域進(jìn)行并行處理和細(xì)分。重復(fù)子區(qū)域分類和過濾在蠻力方法的基礎(chǔ)上進(jìn)行了改進(jìn)蕾殴,使算法能夠有效地利用計算和內(nèi)存資源笑撞。CUDA實現(xiàn)比最快的開源CPU方法顯示了數(shù)量級的加速岛啸,并擴(kuò)展了復(fù)雜被積函數(shù)的可達(dá)到的精度。我們的算法通常優(yōu)于其他現(xiàn)有的確定性并行方法娃殖。
3值戳,
論文題目:Reducing redundancy in data organization and arithmetic calculation for stencil computations
作者背景:中科院议谷,張云泉
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476154
摘要:Stencil計算是各種科學(xué)和工程應(yīng)用中最重要的核心內(nèi)容之一炉爆。各種各樣的工作都集中在向量化技術(shù)上,目的是利用核內(nèi)數(shù)據(jù)的并行性卧晓。然而芬首,當(dāng)與平鋪集成時,它們要么會引起空間數(shù)據(jù)沖突逼裆,要么會損害數(shù)據(jù)局部性郁稍。本文提出了一種新的空間計算折疊方法,以減少向量化過程中的數(shù)據(jù)重組開銷胜宇,同時保留數(shù)據(jù)空間中的數(shù)據(jù)局部性耀怜。然后,我們提出了一種利用移位復(fù)用桐愉、鑲嵌平鋪和半自動代碼生成增強(qiáng)的時間計算折疊方法财破。該算法旨在進(jìn)一步降低算法計算的冗余度,實現(xiàn)寄存器在時間維度上的重用从诲。在AVX2和AVX-512 cpu上的實驗結(jié)果表明左痢,與目前的技術(shù)相比,該方法獲得了顯著的性能改進(jìn)系洛。
Session 量子計算和模擬
1俊性,
論文題目:Empirical evaluation of circuit approximations on noisy quantum devices
作者背景:North Carolina State University
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476189
摘要:目前,噪聲中尺度量子(NISQ)器件無法為具有許多柵極的深電路產(chǎn)生足夠逼真的輸出描扯。這種器件會受到讀出定页、多量子位門、串?dāng)_噪聲以及短的去相干時間限制電路深度的影響绽诚。本文提出了一種產(chǎn)生更短的多量子位門電路的方法典徊,其幺正變換近似于原始參考電路。它探索了在NISQ設(shè)備下產(chǎn)生的這種近似的好處憔购。格羅弗算法宫峦、多控制Toffoli門和橫場Ising模型的實驗結(jié)果表明,這種近似電路比NISQ設(shè)備上較長的玫鸟、理論上精確的電路產(chǎn)生更高的保真度結(jié)果导绷,特別是當(dāng)參考電路有許多CNOT門時。有了這種微調(diào)電路的能力屎飘,證明了量子計算可以在今天的設(shè)備上執(zhí)行比以前更復(fù)雜的問題妥曲,有時甚至可以將總體精度提高60%贾费。
2,
論文題目:SV-sim: scalable PGAS-based state vector simulation of quantum circuits
作者背景:Quantum Science Center檐盟,Pacific Northwest National Laboratory
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476169
摘要:在經(jīng)典高性能計算中進(jìn)行高性能量子電路仿真在NISQ時代仍然是必不可少的褂萧。鑒于可擴(kuò)展?fàn)顟B(tài)向量量子模擬的主要障礙來自于與遠(yuǎn)程節(jié)點的大規(guī)模細(xì)粒度不規(guī)則數(shù)據(jù)交換,本文提出SV-Sim應(yīng)用基于pgas的通信模型(即:對于節(jié)點內(nèi)CPU/GPU的直接對等訪問葵萎,對于節(jié)點間CPU/GPU集群的SHMEM)导犹,用于高效的通用量子電路仿真。
通過基于設(shè)備功能指針的精心設(shè)計羡忘,SV-Sim能夠在一個統(tǒng)一的框架中抽象跨多個異構(gòu)后端(包括IBM/Intel/AMD cpu谎痢、NVIDIA/AMD gpu和Intel Xeon Phi協(xié)處理器)的各種量子門。但仍然堅持卓越的性能和易于處理的接口卷雕,以更高級別的量子編程環(huán)境节猿,如IBM Qiskit,微軟q#和谷歌Cirq漫雕。為了克服GPU中缺乏多態(tài)性的障礙滨嘱,并利用設(shè)備發(fā)起的單邊通信,SV-Sim可以處理使用單個GPU/CPU內(nèi)核在Python中動態(tài)生成的電路浸间,而不需要昂貴的JIT或運(yùn)行時解析太雨,極大地簡化了編程復(fù)雜度,提高了QC仿真的性能发框。
這對于變分量子算法尤其有吸引力躺彬,因為每次迭代電路都是在線合成的。對最新的NVIDIA DGX-A100梅惯、v100r - dgx -2宪拥、ALCF Theta、OLCF Spock和OLCF Summit HPC的評估表明铣减,SV-Sim可以在各種最先進(jìn)的HPC平臺上提供可伸縮的性能她君,為量子算法驗證和驗證提供了一個有用的工具。SV-Sim已在http://github.com/pnnl/sv-sim發(fā)布葫哗。另外還提供了一個針對q# /QDK進(jìn)行特別調(diào)整的版本缔刹。
3,
論文題目:SW_Qsim: a minimize-memory quantum simulator with high-performance on a new Sunway supercomputer
作者背景:無錫國家超算中心
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476161
摘要:量子計算的經(jīng)典模擬在量子算法的數(shù)值研究和量子器件的驗證中起著至關(guān)重要的作用劣针。在這里校镐,我們介紹了基于張量網(wǎng)絡(luò)的量子模擬器SW_Qsim,它采用兩級并行結(jié)構(gòu)設(shè)計捺典,用于在多核新神威超級計算機(jī)上高效實現(xiàn)鸟廓。我們提出了一種矩形量子網(wǎng)格最小化內(nèi)存收縮路徑算法,以減少內(nèi)存開銷,并提供了SW26010pro內(nèi)存有限的模擬容量引谜。此外牍陌,在SW處理器上對張量運(yùn)算進(jìn)行了精心的優(yōu)化,以實現(xiàn)高性能员咽。設(shè)計了一種容錯機(jī)制來提高極值尺度并行穩(wěn)定性毒涧。我們對SW_Qsim的rqc模擬進(jìn)行了基準(zhǔn)測試,達(dá)到400量子位贝室,使用2875萬個核實現(xiàn)了近線性的強(qiáng)和弱伸縮契讲,遠(yuǎn)遠(yuǎn)超過了以前的技術(shù)水平。這項工作揭示了在物理档玻、化學(xué)和工程科學(xué)領(lǐng)域中使用的有效量子算法的發(fā)展怀泊。
Session 線性和多線性代數(shù)和應(yīng)用
1,
論文題目:On the parallel I/O optimality of linear algebra kernels: near-optimal matrix factorizations
作者背景: ETH Zurich, Switzerland
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476167
摘要
矩陣分解是科學(xué)計算最重要的構(gòu)建模塊之一误趴。然而,最先進(jìn)的庫在通信方面并不是最優(yōu)的务傲,沒有充分利用當(dāng)前的并行架構(gòu)凉当。我們提出了一種新的Cholesky和LU分解算法,該算法利用漸近通信最優(yōu)2.5D分解售葡。我們首先建立了一個理論框架來推導(dǎo)線性代數(shù)內(nèi)核的并行I/O下界看杭,然后利用它的觀點來推導(dǎo)Cholesky和LU調(diào)度,兩者都是每個處理器的通信[EQUATION]元素挟伙,其中M是本地內(nèi)存大小楼雹。實證結(jié)果與我們的理論分析相吻合:我們的實現(xiàn)的通信明顯少于Intel MKL、SLATE和漸進(jìn)通信最優(yōu)的CANDMC和CAPITAL庫尖阔。我們的代碼在幾乎所有測試場景中都優(yōu)于這些最先進(jìn)的庫贮缅,在Piz Daint超級計算機(jī)的512個CPU節(jié)點上,矩陣大小從2,048到524,288不等介却,將解決方案的時間減少了三倍谴供。我們的代碼是scalapack兼容的,可以作為開源庫使用齿坷。
2桂肌,
論文題目:STM-multifrontal QR: streaming task mapping multifrontal QR factorization empowered by GCN
作者背景: 湖南大學(xué)
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476199
摘要
MultifrontalQR算法是一種高性能的稀疏矩陣正交分解算法,它由符號分析和數(shù)字分解兩部分組成永淌。本文提出了一種用于符號分析中自適應(yīng)選擇最優(yōu)重排序算法的圖卷積網(wǎng)絡(luò)(GCN)崎场。使用我們的GCN自適應(yīng)分類器,與默認(rèn)方法相比遂蛀,平均數(shù)字分解時間減少了20.78%谭跨,額外的內(nèi)存開銷比之前的工作高出約4%。
此外,在數(shù)值分解方面饺蚊,提出了一種優(yōu)化的任務(wù)流并行處理策略萍诱,并采用了一種針對NUMA體系結(jié)構(gòu)的更高效的計算任務(wù)映射框架——stm - multifront QR factorization。
在泰山服務(wù)器上進(jìn)行的數(shù)值實驗表明污呼,與原始SuiteSparseQR相比裕坊,性能平均提高了1.22倍。與Intel Xeon 6248上的MKL稀疏QR相比燕酷,近80%的數(shù)據(jù)集獲得了更好的性能籍凝。
3,
論文題目:LIBSHALOM: optimizing small and irregular-shaped matrix multiplications on ARMv8 multi-cores
作者背景: 國防科技大學(xué)
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476217
摘要
通用矩陣乘法(GEMM)是高性能計算中的一個關(guān)鍵子程序苗缩。雖然主流的線性代數(shù)庫可以在大型和規(guī)則形狀的GEMM上提供高性能饵蒂,但它們不足以優(yōu)化小型和不規(guī)則形狀的GEMM,這在新的HPC應(yīng)用程序中很常見酱讶。最近在這個方向上的一些工作已經(jīng)在x86架構(gòu)和gpu上取得了有希望的進(jìn)展退盯,但對于基于ARMv8架構(gòu)的新興HPC硬件來說,仍然有很大的改進(jìn)空間泻肯。
我們展示了LibShalom渊迁,一個用于優(yōu)化小型和不規(guī)則形狀gemm的開源庫,明確針對ARMv8架構(gòu)灶挟。LibShalom基于經(jīng)典的Goto算法琉朽,但對其進(jìn)行了調(diào)整,以最小化數(shù)據(jù)打包和處理小矩陣所需的昂貴內(nèi)存訪問開銷稚铣。利用解析方法確定GEMM核優(yōu)化參數(shù)箱叁,提高了GEMM核的計算效率和并行化效率。我們將LibShalom應(yīng)用于三個ARMv8多核架構(gòu)惕医,并將其與五個主流線性代數(shù)庫進(jìn)行比較耕漱。實驗結(jié)果表明,LibShalom可以在GEMM工作負(fù)載和硬件架構(gòu)上持續(xù)優(yōu)于現(xiàn)有的解決方案曹锨。