多機(jī)自然組成集群Cluster。
Cluster由多個(gè)任務(wù)task組成,也就是多個(gè)server(計(jì)算節(jié)點(diǎn))纸兔。
Task分組到j(luò)ob舷暮,job按任務(wù)的角色來(lái)定義,同一job的任務(wù)具有相同的角色给僵。
按角色常見(jiàn)有參數(shù)節(jié)點(diǎn)類(lèi),parameter server,簡(jiǎn)稱(chēng)ps僵驰,保持追蹤模型的參數(shù)。另一種即計(jì)算節(jié)點(diǎn)唁毒,perform computation蒜茴,簡(jiǎn)稱(chēng)worker。
TF中浆西,類(lèi)tf.train.ClusterSpec定義集群粉私,格式為job到servers列表對(duì)應(yīng)。 server為暴露tcp端口來(lái)提供服務(wù)的TS服務(wù)實(shí)例近零,可以設(shè)定其對(duì)應(yīng)使用的CPU或者GPU(統(tǒng)稱(chēng)device)诺核。
GPU/CPU分配,TF由函數(shù)tf.device負(fù)責(zé)久信,可自己重定義來(lái)動(dòng)態(tài)分配窖杀。
圖片發(fā)自簡(jiǎn)書(shū)App