近日心软,UCloud推出了UAI Train 智能一體化訓(xùn)練平臺(tái)壕吹,結(jié)合此前已推出的UAI Service、GPU及安全屋等AI系列產(chǎn)品删铃,UCloud現(xiàn)已初步形成一站式AI全服務(wù)耳贬。
UAI Train靈活便捷的訓(xùn)練任務(wù)托管服務(wù),能夠幫助用戶擺脫資源采購運(yùn)維煩惱猎唁,降低AI使用門檻咒劲;同時(shí),平臺(tái)采用按需付費(fèi)模式诫隅,降低AI成本投入腐魂,避免閑置資源浪費(fèi)。
AI模型訓(xùn)練的痛點(diǎn)
隨著人工智能產(chǎn)業(yè)的興起逐纬,人工智能技術(shù)已經(jīng)被廣泛運(yùn)用于各行各業(yè)蛔屹。近年來,人工智能技術(shù)在圖像(物體識(shí)別豁生、人臉識(shí)別等)兔毒、自然語言(語音識(shí)別、翻譯沛硅、對(duì)話機(jī)器人)眼刃、智能醫(yī)療、智能推薦(廣告摇肌、新聞擂红、視頻)等領(lǐng)域取得了飛速發(fā)展。與此同時(shí)围小,人工智能技術(shù)對(duì)計(jì)算資源的需求也快速增加昵骤,因而“云計(jì)算如何服務(wù)于人工智能產(chǎn)業(yè)的發(fā)展”已成為公有云服務(wù)的一個(gè)新方向。
通常來說肯适,構(gòu)建人工智能服務(wù)包括三個(gè)步驟:大數(shù)據(jù)收集與處理变秦、AI模型訓(xùn)練、AI模型在線服務(wù)框舔,其中的每一個(gè)環(huán)節(jié)都需要投入大量計(jì)算資源蹦玫。
對(duì)于大數(shù)據(jù)處理赎婚,可通過采購一定數(shù)量的云主機(jī)或物理機(jī)來搭建一個(gè)數(shù)據(jù)處理集群 ,也可通過采用UHadoop產(chǎn)品來搭建Hadoop或Spark集群來處理數(shù)據(jù)樱溉;對(duì)于AI在線服務(wù)挣输,可通過使用云主機(jī)搭建服務(wù)集群或直接使用UCloud AI Service服務(wù),來快速部署AI在線推理服務(wù)福贞。
然而撩嚼,對(duì)于AI模型訓(xùn)練,用戶通常需要高性能的GPU資源來滿足AI模型訓(xùn)練過程中所產(chǎn)生的龐大的浮點(diǎn)計(jì)算需求挖帘,以及處理隨之而來的諸多挑戰(zhàn):
1.成本投入高:GPU硬件或GPU云主機(jī)的采購成本非常高完丽。一塊P40 GPU的采購價(jià)格超過5萬,即使是租用P40云主機(jī)拇舀,其成本也在4500元/月以上逻族,因此使用GPU硬件一次性投入的成本非常高。
2.資源閑置:自行采購GPU還會(huì)面臨空閑資源閑置等問題你稚。在AI算法研發(fā)瓷耙、迭代過程中,算法設(shè)計(jì)刁赖、數(shù)據(jù)處理都需要花費(fèi)大量時(shí)間搁痛,但此時(shí)GPU設(shè)備卻通常因?yàn)闊o法被充分利用而造成閑置,進(jìn)一步增加GPU的使用成本宇弛。
3.采購周期長(zhǎng):GPU采購和備貨周期比普通CPU服務(wù)器更長(zhǎng)鸡典。即便使用公有云服務(wù)也無法像使用CPU云主機(jī)一樣,隨時(shí)隨地購買使用GPU云主機(jī)枪芒。
4.運(yùn)維成本高:訓(xùn)練環(huán)境配置彻况、GPU資源調(diào)度、數(shù)據(jù)存儲(chǔ)舅踪、訓(xùn)練任務(wù)容災(zāi)等問題會(huì)隨著業(yè)務(wù)量的增加而增加纽甘,從而不斷提高GPU訓(xùn)練集群維護(hù)的運(yùn)維成本。
諸多問題表明抽碌,對(duì)于從事AI業(yè)務(wù)的公司來說悍赢,所面臨的挑戰(zhàn)非常嚴(yán)峻。研發(fā)人員可能手握很好的AI算法模型和解決方案货徙,卻往往因?yàn)锳I技術(shù)的高門檻要求而導(dǎo)致研發(fā)成本增加左权、研發(fā)周期變長(zhǎng)。
為了幫助客戶解決AI模型訓(xùn)練過程面臨的四個(gè)關(guān)鍵問題痴颊,UCloud AI Train平臺(tái)基于UCloud性能強(qiáng)大的GPU云主機(jī)集群構(gòu)建赏迟,為AI訓(xùn)練任務(wù)提供充足的計(jì)算能力。同時(shí)蠢棱,提供一站式訓(xùn)練任務(wù)托管服務(wù)锌杀,包括自動(dòng)實(shí)現(xiàn)計(jì)算節(jié)點(diǎn)調(diào)度甩栈、訓(xùn)練環(huán)境準(zhǔn)備、數(shù)據(jù)上傳下載以及任務(wù)容災(zāi)等功能糕再,能夠幫助用戶從繁雜的GPU資源采購谤职、管理、運(yùn)維工作中解放出來亿鲜。另外,UAI Train平臺(tái)按照實(shí)際計(jì)算消耗付費(fèi)冤吨,不但可以降低GPU的成本投入蒿柳,而且可以避免閑置資源浪費(fèi)。
智能一體化訓(xùn)練平臺(tái)的三大核心優(yōu)勢(shì)
一站式任務(wù)托管漩蟆,實(shí)時(shí)訓(xùn)練狀態(tài)追蹤
UAI Train平臺(tái)提供一站式訓(xùn)練任務(wù)托管服務(wù)垒探,用戶只需要提供打包好的訓(xùn)練鏡像、數(shù)據(jù)源路徑怠李、數(shù)據(jù)輸出路徑以及訓(xùn)練所需的參數(shù)圾叼,就可以提交訓(xùn)練任務(wù)并等待任務(wù)結(jié)束。UAI Train平臺(tái)將自動(dòng)進(jìn)行GPU資源調(diào)度捺癞、數(shù)據(jù)下載上傳和計(jì)算節(jié)點(diǎn)容災(zāi)夷蚊。
同時(shí)UAI Train平臺(tái)提供了圖形化的實(shí)時(shí)日志輸出,以及TensorBoard的實(shí)時(shí)展示(Tensorflow和Keras可用)髓介,用戶可以通過瀏覽器實(shí)時(shí)追蹤訓(xùn)練的狀態(tài)惕鼓。
基于Docker容器技術(shù),強(qiáng)大的AI兼容性
UAI Train基于Docker容器技術(shù)唐础,提供兼容性極強(qiáng)的訓(xùn)練環(huán)境箱歧。用戶只需將AI模型訓(xùn)練算法打包至Docker鏡像中,即可以將訓(xùn)練任務(wù)提交至訓(xùn)練平臺(tái)一膨,訓(xùn)練平臺(tái)將會(huì)負(fù)責(zé):
1.訓(xùn)練數(shù)據(jù)下載呀邢;
2.訓(xùn)練任務(wù)執(zhí)行;
3.訓(xùn)練結(jié)果輸出并保存豹绪。
完全無需用戶介入价淌,整個(gè)過程如下圖所示:
為簡(jiǎn)化UAI Train平臺(tái)的使用過程,UCloud提供了Python SDK和基礎(chǔ)Docker鏡像森篷,以此來協(xié)助用戶封裝Docker鏡像输钩。目前,UAI Train平臺(tái)支持4種主流AI框架仲智,包括鏡像一鍵打包和測(cè)試工具以及基礎(chǔ)鏡像(后續(xù)還將計(jì)劃增加對(duì)PyTorch买乃、CNTK等開源框架的支持)。
同時(shí)钓辆,UAI Train平臺(tái)也支持自定義Docker訓(xùn)練鏡像剪验,并提供了預(yù)裝cuda和cudnn的基礎(chǔ)鏡像肴焊。
靈活配置選擇,超高性價(jià)比
UAI Train平臺(tái)目前支持3種GPU節(jié)點(diǎn)功戚,按需使用收費(fèi)娶眷,計(jì)費(fèi)精確到分鐘,具有極高的性價(jià)比啸臀。
UAI Train平臺(tái)還計(jì)劃逐步推出種類更豐富的硬件加速計(jì)算設(shè)備届宠,包括更新的GPU設(shè)備、Xeon Phi設(shè)備等乘粒,另外還將推出分布式訓(xùn)練集群支持豌注。
四大核心應(yīng)用場(chǎng)景,助力企業(yè)AI業(yè)務(wù)發(fā)展
應(yīng)用場(chǎng)景一:快速AI轉(zhuǎn)型
AI模型訓(xùn)練任務(wù)執(zhí)行環(huán)境配置復(fù)雜(GPU驅(qū)動(dòng)灯萍、AI框架環(huán)境安裝等)轧铁、GPU資源采購周期長(zhǎng)、成本高旦棉、運(yùn)維工作繁雜等齿风,這都成為企業(yè)快速轉(zhuǎn)型AI業(yè)務(wù)的絆腳石。使用UAI Train訓(xùn)練服務(wù)可以無需擔(dān)心資源采購绑洛、環(huán)境配置救斑、集群維護(hù)等問題,快速開展AI模型訓(xùn)練工作真屯。
應(yīng)用場(chǎng)景二:降低AI成本
AI訓(xùn)練任務(wù)執(zhí)行需要花費(fèi)大量計(jì)算資源系谐。GPU硬件采購成本高,閑置資源浪費(fèi)開銷大讨跟。使用UAI Train訓(xùn)練服務(wù)不僅可以獲得充足的GPU硬件資源纪他,同時(shí)又可以按照實(shí)際計(jì)算消耗付費(fèi),使用較小的投入獲取充足的計(jì)算資源晾匠,具有極高的性價(jià)比茶袒,可以有效減低AI成本。
應(yīng)用場(chǎng)景三:簡(jiǎn)化AI運(yùn)維
大規(guī)模執(zhí)行AI模型訓(xùn)練任務(wù)需要處理計(jì)算資源調(diào)度凉馆、任務(wù)管理薪寓、任務(wù)容災(zāi)等問題。UAI Train訓(xùn)練平臺(tái)自動(dòng)幫助使用者解決計(jì)算節(jié)點(diǎn)調(diào)度澜共、任務(wù)管理向叉、容災(zāi)等問題,更為使用者提供了圖形化界面展示訓(xùn)練任務(wù)狀態(tài)嗦董。
應(yīng)用場(chǎng)景四:共享GPU資源
使用GPU云主機(jī)母谎、物理機(jī)很難在團(tuán)隊(duì)之間、部門之間以及各類使用者之間共享GPU資源京革。UAI Train訓(xùn)練平臺(tái)則可以同時(shí)滿足成千上百個(gè)使用者共享整個(gè)GPU資源池奇唤,同時(shí)又提供了資源隔離幸斥、配額管理功能,可以滿足GPU資源共享場(chǎng)景的需求咬扇。
在9月份由創(chuàng)新工場(chǎng)聯(lián)合搜狗甲葬、今日頭條發(fā)起的“AI Challenger全球AI挑戰(zhàn)賽”中,UCloud 便作為唯一的AI GPU合作方懈贺,為大賽獨(dú)家提供了AI模型訓(xùn)練服務(wù)(UCloud AI Train)经窖。此次合作也驗(yàn)證UCloud在AI領(lǐng)域強(qiáng)大的研發(fā)實(shí)力、快速響應(yīng)服務(wù)以及自身平臺(tái)穩(wěn)定性梭灿,為大賽的成功舉辦保駕護(hù)航钠至。
作為國內(nèi)領(lǐng)先的云計(jì)算服務(wù)商,UCloud將繼續(xù)深入研究AI訓(xùn)練平臺(tái)的功能與性能胎源,致力為用戶提供更豐富的AI框架和分布式訓(xùn)練支持。同時(shí)屿脐,UCloud還將結(jié)合UAI Service 在線服務(wù)平臺(tái)涕蚤,打造從AI訓(xùn)練到AI在線服務(wù)的一體化解決方案,全方位提升面向AI產(chǎn)業(yè)的服務(wù)能力的诵。