奇虎360開源深度學習調(diào)度平臺XLearning

【嵌牛導讀】:近兩年人工智能技術(shù)發(fā)展迅速壹甥,以Google開源的TensorFlow為代表的各種深度學習框架層出不窮空幻。為了方便算法工程師使用各類深度學習技術(shù)熙兔,減少繁雜的諸如運行環(huán)境部署運維等工作弛说,提升GPU等硬件資源利用率挽懦,節(jié)省硬件投入成本,奇虎360系統(tǒng)部大數(shù)據(jù)團隊與人工智能研究院聯(lián)合開發(fā)了深度學習調(diào)度平臺——XLearning木人。

【嵌牛鼻子】:XLearning

【嵌牛提問】:此深度學習調(diào)度平臺特點是什么巾兆?

【嵌牛正文】:

XLearning平臺將大數(shù)據(jù)與深度學習相融合州弟,基于Hadoop Yarn完成了對TensorFlow坐慰、MXNet哼拔、Caffe胧奔、Theano视哑、PyTorch甚带、Keras悲关、XGBoost等常用深度學習框架的集成毙芜,是典型的“AI on Hadoop”的實現(xiàn)蒲列。XLearning從今年(2017)4月份正式開發(fā)上線運行窒朋,經(jīng)多次版本迭代更新,為各學習框架的使用者提供了統(tǒng)一蝗岖、穩(wěn)定的調(diào)度平臺侥猩,實現(xiàn)了資源共享,極大的提高了資源利用率抵赢,并且具有良好的擴展性和兼容性欺劳。目前已經(jīng)在公司搜索、人工智能研究院铅鲤、商業(yè)化划提、數(shù)據(jù)中心等業(yè)務(wù)部門廣泛使用。


圖片發(fā)自簡書App

XLearning架構(gòu)

Client:XLearning客戶端邢享,負責啟動作業(yè)及獲取作業(yè)執(zhí)行狀態(tài)鹏往;?

ApplicationMaster(AM):負責輸入數(shù)據(jù)分片、啟動及管理Container骇塘、執(zhí)行日志保存等伊履;? ?

Container:作業(yè)的實際執(zhí)行者,負責啟動Worker或PS(Parameter Server)進程款违,監(jiān)控并向AM匯報進程狀態(tài)唐瀑,上傳作業(yè)的輸出等。對于TensorFlow類型作業(yè)奠货,還負責啟動TensorBoard服務(wù)介褥。

XLearning功能特性

XLearning雖然架構(gòu)簡潔,但具有豐富的功能方便用戶進行模型訓練,并依托于Yarn提供有作業(yè)資源的統(tǒng)一管理柔滔。

支持多種深度學習框架

XLearning支持TensorFlow溢陪、MXNet分布式和單機模式,支持所有的單機模式的深度學習框架睛廊,如Caffe形真、Theano、PyTorch等超全。對于同一個深度學習框架支持多版本和自定義版本咆霜,滿足用戶個性化需求,不受限于集群機器上各學習框架的安裝版本嘶朱。


圖片發(fā)自簡書App

基于HDFS的統(tǒng)一數(shù)據(jù)管理

XLearning提供多種模式用于數(shù)據(jù)的輸入蛾坯、輸出,包括數(shù)據(jù)的流式讀寫疏遏、直接HDFS讀寫等脉课,可根據(jù)作業(yè)處理的數(shù)據(jù)量與集群機器硬盤容量,視情況決定所采用的讀寫方式财异。

可視化界面

為方便用戶查看作業(yè)信息倘零,XLearning提供可視化界面用于展示作業(yè)執(zhí)行進度和輸出日志等內(nèi)容。作業(yè)執(zhí)行完畢后戳寸,亦可查看日志內(nèi)容呈驶,便于分析訓練過程進展。對于TensorFlow類型作業(yè)疫鹊,支持TensorBoard服務(wù)袖瞻。作業(yè)運行界面大致分為三部分(如下圖所示):?

All Containers:顯示當前作業(yè)所含Container列表及各Container對應(yīng)信息,如Contianer ID订晌、所在機器(Container Host)虏辫、所屬類型(Container Role)、當前執(zhí)行狀態(tài)(Container Status)锈拨、開始時間(Start Time)、結(jié)束時間(Finish Time)羹唠、執(zhí)行進度(Reporter Progress)奕枢;

View TensorBoard:當作業(yè)類型為TensorFlow時,可點擊該鏈接直接跳轉(zhuǎn)至TensorBoard頁面佩微;?

Save Model:用戶可在作業(yè)執(zhí)行過程中缝彬,可以將當前訓練模型的輸出結(jié)果上傳至HDFS,并顯示目前已上傳的模型列表哺眯。

原生代碼兼容

XLearning支持TensorFlow分布式模式的ClusterSpec自動分配構(gòu)建谷浅,單機模式和其他深度學習框架代碼不用做任何修改即可遷移到XLearning上,便于用戶快速使用。

Checkpoint功能

利用深度學習框架本身的Checkpoint機制和直接讀寫HDFS數(shù)據(jù)功能一疯,XLearning方便用戶實現(xiàn)訓練恢復繼續(xù)執(zhí)行撼玄。

XLearning開源版本環(huán)境依賴簡單,可直接運行于社區(qū)Hadoop版本墩邀,使用方便掌猛,入門學習成本極低。公司的Yarn版本是我們在社區(qū)版本上做了不少增強眉睹,比如支持GPU的資源調(diào)度荔茬、GPU通信親和性的感知、DockerContainer支持等竹海。依賴于這些特性公司在用的版本多出了GPU資源調(diào)度支持慕蔚、作業(yè)Docker化、臨時GPU虛擬機斋配、Container Metrics可視化圖表展示等功能坊萝。這些功能我們后續(xù)會通過提供Yarn Patch或者開源自用Yarn版本來分享給大家,也歡迎大家隨時跟我們溝通许起。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末十偶,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子园细,更是在濱河造成了極大的恐慌惦积,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,941評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件猛频,死亡現(xiàn)場離奇詭異狮崩,居然都是意外死亡,警方通過查閱死者的電腦和手機鹿寻,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評論 3 395
  • 文/潘曉璐 我一進店門睦柴,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人毡熏,你說我怎么就攤上這事坦敌。” “怎么了痢法?”我有些...
    開封第一講書人閱讀 165,345評論 0 356
  • 文/不壞的土叔 我叫張陵狱窘,是天一觀的道長。 經(jīng)常有香客問我财搁,道長蘸炸,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,851評論 1 295
  • 正文 為了忘掉前任尖奔,我火速辦了婚禮搭儒,結(jié)果婚禮上穷当,老公的妹妹穿的比我還像新娘。我一直安慰自己淹禾,他們只是感情好馁菜,可當我...
    茶點故事閱讀 67,868評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著稀拐,像睡著了一般火邓。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上德撬,一...
    開封第一講書人閱讀 51,688評論 1 305
  • 那天铲咨,我揣著相機與錄音,去河邊找鬼蜓洪。 笑死纤勒,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的隆檀。 我是一名探鬼主播摇天,決...
    沈念sama閱讀 40,414評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼恐仑!你這毒婦竟也來了泉坐?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,319評論 0 276
  • 序言:老撾萬榮一對情侶失蹤裳仆,失蹤者是張志新(化名)和其女友劉穎腕让,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體歧斟,經(jīng)...
    沈念sama閱讀 45,775評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡纯丸,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了静袖。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片觉鼻。...
    茶點故事閱讀 40,096評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖队橙,靈堂內(nèi)的尸體忽然破棺而出坠陈,到底是詐尸還是另有隱情,我是刑警寧澤喘帚,帶...
    沈念sama閱讀 35,789評論 5 346
  • 正文 年R本政府宣布畅姊,位于F島的核電站,受9級特大地震影響吹由,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜朱嘴,卻給世界環(huán)境...
    茶點故事閱讀 41,437評論 3 331
  • 文/蒙蒙 一倾鲫、第九天 我趴在偏房一處隱蔽的房頂上張望粗合。 院中可真熱鬧,春花似錦乌昔、人聲如沸隙疚。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽供屉。三九已至,卻和暖如春溺蕉,著一層夾襖步出監(jiān)牢的瞬間伶丐,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評論 1 271
  • 我被黑心中介騙來泰國打工疯特, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留哗魂,地道東北人。 一個月前我還...
    沈念sama閱讀 48,308評論 3 372
  • 正文 我出身青樓漓雅,卻偏偏與公主長得像录别,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子邻吞,可洞房花燭夜當晚...
    茶點故事閱讀 45,037評論 2 355