![Avatar notebook default](https://cdn2.jianshu.io/assets/default_avatar/avatar-notebook-default-640f7dde88592bdf6417d8ce1902636e.png)
背景 我們小組主要負責(zé)Alpha機器學(xué)習(xí)平臺(以下簡稱Alpha)的設(shè)計與實現(xiàn)工作雄坪,前段時間算法同學(xué)提出一個需求勋桶,希望能夠按照小時為單位部凑,看到每...
前言 人在做自己喜歡的事情時蹭睡,時光總是過得很快雨涛。不知不覺到公司已經(jīng)兩年多了枢舶,在這兩年的時間里,我做了很多“有趣又有用”的事情替久,其中最讓我有成就感...
背景 我們機器學(xué)習(xí)平臺上的任務(wù)最初是通過 Marathon 啟動在Mesos集群上的凉泄,分布式訓(xùn)練框架是 ps-lite。但隨著技術(shù)的變更升級蚯根,M...
背景 兩年前入職公司的時候后众,我們的機器學(xué)習(xí)任務(wù)都是啟動在Mesos集群上,當(dāng)時使用的訓(xùn)練框架還是ps-lite。一個ps-lite訓(xùn)練任務(wù)包含兩...
背景 我們公司作為一個業(yè)內(nèi)領(lǐng)先的新聞資訊類公司蒂誉,基于機器學(xué)習(xí)的推薦排序教藻、自然語言處理、圖像識別等算法能力必不可少右锨,所以我們公司的機器學(xué)習(xí)平臺也有...
今天在嘗試將TensorFlow訓(xùn)練部署到K8s GPU機器上時括堤,發(fā)現(xiàn)部分實例啟動不起來,報出下面的錯誤: 從日志信息可以看到绍移,是缺少libcu...
不知不覺悄窃,從去年9月份入職到現(xiàn)在的公司,已經(jīng)過去一年了蹂窖。這一年付出了很多轧抗,也收獲了很多,在此想把這一年的經(jīng)歷做一下簡單的總結(jié)瞬测。 團隊的問題 在我...
背景 從下面兩張圖中可以看到鸦致,有大量實驗資源利用率不足50%(當(dāng)前為23個,2019.08.21數(shù)據(jù)涣楷,占比約42.5%)分唾,這些訓(xùn)練大多都獨占一臺...
背景 之前機器學(xué)習(xí)平臺可用機器數(shù)量為324臺,其中CPU機器289臺狮斗,GPU機器35臺绽乔。但由于一臺機器上只能部署一個訓(xùn)練實例,導(dǎo)致集群整體資源利...