姓名:李昕洲? 學(xué)號:16030120026
轉(zhuǎn)載自:http://www.guancha.cn/kegongliliang/2017_12_13_438931.shtml
【嵌牛導(dǎo)讀】:11月18日,海洋國家實驗室與國家超級計算無錫中心大溜、國家超級計算濟南中心在青島海洋科學(xué)與技術(shù)國家實驗室簽署共同構(gòu)建超算大科學(xué)裝置群戰(zhàn)略協(xié)議基公,構(gòu)建全球首個國際超算大科學(xué)網(wǎng)絡(luò)基礎(chǔ)設(shè)施廉涕。本文將為你介紹其緣故容诬。
【嵌牛鼻子】:超算大科學(xué)網(wǎng)絡(luò)、關(guān)鍵技術(shù)聚蝶、應(yīng)用奄侠。
【嵌牛提問】:為何要構(gòu)建超算互聯(lián)網(wǎng)體系?構(gòu)建超算互聯(lián)體系又需要哪些關(guān)鍵技術(shù)呢迷雪?
【嵌牛正文】:
其實限书,構(gòu)建超算互聯(lián)網(wǎng)體系并不是新概念。早在十多年前章咧,國內(nèi)單位就提出過各超算中心聯(lián)網(wǎng)共享資源倦西。為此,還專門部署過研究課題赁严,并被列為“863計劃”的一個專項扰柠。中科院計算所粉铐、航天二院、清華大學(xué)等十多家科研院所和大學(xué)曾經(jīng)參與過相關(guān)研究卤档。
緣何構(gòu)建超算互聯(lián)體系
在早些年蝙泼,一些學(xué)者認(rèn)為單臺高性能計算機已經(jīng)不能勝任一些超大規(guī)模應(yīng)用問題的解決。于是大家想把多臺超算通過廣域互連技術(shù)連接起來劝枣,從而解決一些大規(guī)奶捞ぃ科學(xué)與工程計算等問題。
這樣一來舔腾,就可以把多臺超算擰成一股繩溪胶,形成合力,用于解決模擬核爆炸琢唾、藥物研制载荔、氣象預(yù)報和環(huán)境等重大科學(xué)研究和技術(shù)應(yīng)用領(lǐng)域的問題。
同時采桃,通過共享計算資源懒熙,還能有效提升超算中心的計算資源利用率。
從實踐上看普办,用戶對超算的需求也有一定的周期性和不平衡性工扎。比如現(xiàn)在南方某中心的超算應(yīng)用率高達(dá)130%,也就是說超算的計算資源根本不夠用衔蹲,有30%的用戶需要排隊等候肢娘。與此同時,國內(nèi)的另一些超算中心可能正處于業(yè)務(wù)的“淡季”舆驶。
(廣州超算中心)
又比如橱健,新老超算中心之間存在利用率的不均衡。正如新建一條商業(yè)街后沙廉,商鋪進(jìn)駐拘荡、人氣積累都需要時間,新超算建成后的用戶積累也要有類似的一個過程撬陵。
由于超算性能在過去10多年里進(jìn)步非常迅速珊皿,這導(dǎo)致老超算中心在積累的較多用戶的同時,超算相對有限的性能已經(jīng)越來越力不從心巨税。而新超算中心的機器由于具備后發(fā)優(yōu)勢蟋定,性能卓越,但卻在短時間內(nèi)無法積累與機器性能相匹配的用戶草添,進(jìn)而出現(xiàn)超算計算資源利用率不高的情況驶兜。
如果將不同年代建設(shè)的多個超算中心連接起來,形成超算互聯(lián)網(wǎng)體系,不僅能夠?qū)崿F(xiàn)多臺超算共同解決一些重大科研課題抄淑,還能做到計算資源的充分利用犀盟。
需要解決哪些關(guān)鍵技術(shù)
首先要明確的是體系結(jié)構(gòu)。體系結(jié)構(gòu)可以清楚地說明整個系統(tǒng)是由哪些關(guān)鍵部分結(jié)合在一起形成的蝇狼,還必須能夠?qū)Ω鱾€部分的功能、目的倡怎、特點等進(jìn)行清晰的描述迅耘,使人們能夠了解各個組成部分的作用。
比如怎樣自動地把用戶最需要的信息放在離用戶最近的服務(wù)器上监署;如何讓用戶盡快得到所需信息而不管信息到底存放在什么地方颤专;如何去自動平衡負(fù)載;如何使網(wǎng)上的多臺高性能計算機協(xié)同工作等钠乏。這些都是設(shè)計網(wǎng)絡(luò)系統(tǒng)的體系結(jié)構(gòu)所要考慮的問題栖秕。
其次,要解決的是任務(wù)協(xié)同晓避。正如“一個和尚挑水喝簇捍,兩個和尚抬水喝,三個和尚沒水喝”俏拱,如果在協(xié)同上做的不好暑塑,將多個超算中心連接起來,未必能實現(xiàn)理想中的效果锅必。因此事格,如何實現(xiàn)任務(wù)的協(xié)同是超算互聯(lián)體系的一項關(guān)鍵技術(shù)。
要解決任務(wù)的協(xié)同搞隐,必須要解決好資源管理和任務(wù)管理驹愚。資源管理包括資源的發(fā)現(xiàn)、描述劣纲、定位逢捺、組織、分配味廊、監(jiān)測蒸甜、更新和信息發(fā)布等,主要負(fù)責(zé)用戶與系統(tǒng)環(huán)境的交互余佛,提供標(biāo)準(zhǔn)的柠新、開放、通用的協(xié)議和接口辉巡。
在應(yīng)用過程中恨憎,一般將其分解為幾個任務(wù),并為每個任務(wù)配置最合適執(zhí)行的機器。任務(wù)管理指的根據(jù)當(dāng)前系統(tǒng)的負(fù)載情況憔恳,以及根據(jù)用戶提交的任務(wù)類型瓤荔、所需資源等內(nèi)容,對系統(tǒng)內(nèi)的任務(wù)進(jìn)行動態(tài)調(diào)度钥组。通過這種方式實現(xiàn)計算資源的最優(yōu)配置输硝,并達(dá)到提高系統(tǒng)的運行效率的目的。
再次程梦,要解決通信問題点把。將超算中心連接起來,必然離不開通信技術(shù)的輔助屿附。這也是為何專家認(rèn)為實現(xiàn)國家超算中心“合六為一”郎逃,必須有足夠的帶寬才行。除了帶寬挺份,延時也非常重要褒翰,只有將延時降到足夠低,才能滿足需要匀泊。而為了進(jìn)一步降低延遲优训,則離不開計算和通訊過程重疊等方法。
最后各聘,國內(nèi)各超算中心的一些差異也會造成技術(shù)障礙型宙。由于國內(nèi)眾多超算中心的各臺超算的體系架構(gòu)、芯片指令集伦吠、軟件平臺都不一樣妆兑,舉例來說,神威太湖之光使用的芯片是申威26010毛仪,指令集為SW64搁嗓;而天河二號使用的芯片是E5和至強PHI,指令集為X86箱靴。這種情況就會對資源共享造成一定障礙腺逛。
正是因此,本次只是將國家超級計算無錫中心和國家超級計算濟南中心實現(xiàn)互聯(lián)衡怀,而沒有做到六家超算中心全部互聯(lián)棍矛。其中的原因就在于無錫超算中心的神威太湖之光和濟南超算中心的神威藍(lán)光有很多相似之處,比如都采用申威芯片抛杨,都采用睿思操作系統(tǒng)等等够委。
結(jié)語
將超算連接起來,看起來和云計算有一定的相似之處——都通過網(wǎng)絡(luò)將計算資源連接怖现,并向用戶提供計算資源茁帽。不過玉罐,兩者也存在一定差異。
最明顯的差異就在于應(yīng)用方向上潘拨。超算互聯(lián)系統(tǒng)主要用于科學(xué)計算吊输,屬于計算密集型運算,是專為解決物理铁追、化學(xué)季蚂、材料、生命科學(xué)琅束、CAE仿真癣蟋、氣象、海洋狰闪、環(huán)境、石油物探濒生、以及國防軍工等領(lǐng)域的特定問題而設(shè)計的埋泵。而云計算是面向用戶不同需求設(shè)計的通用模式,屬于訪存密集型運算罪治,對CPU計算資源的占用沒有那么高丽声,卻對讀寫操作有很高的要求,跑科學(xué)計算非其所長觉义。
在該項目的研究方面雁社,美國、歐洲晒骇、日本等國都有相關(guān)計劃霉撵,比如美國就計劃在2020年建成類似的系統(tǒng)。
不過洪囤,真正將性能超過100P的超算與其它超算互聯(lián)徒坡,并將該系統(tǒng)用于全球海洋系統(tǒng)模擬,在全球還是第一個瘤缩。
在建成國際超算大科學(xué)網(wǎng)絡(luò)基礎(chǔ)設(shè)施之后喇完,不僅有效整合各高性能計算中心服務(wù)能力,共同服務(wù)于國際超大規(guī)模協(xié)同計算任務(wù)剥啤,還能立足已建成的P級超算锦溪,開發(fā)面向E級超算建設(shè)基礎(chǔ)應(yīng)用支撐體系,為中國的科學(xué)研究提供高彈性府怯、高可用性的計算資源保障刻诊。