深入分析kubelet(7)—— 選取GPU掛載

深入分析kubelet(7)—— 選取GPU掛載

深入淺出kubernetes之device-plugins主要分析device-plugin資源上報(bào)部分,本來著重分析下分配過程总滩。

device-plugin

kubelet過于復(fù)雜,所以通過device-plugin反推

interface

kubernetes\pkg\kubelet\apis\deviceplugin\v1beta1\api.pb.go

type DevicePluginServer interface {
   GetDevicePluginOptions(context.Context, *Empty) (*DevicePluginOptions, error)

   ListAndWatch(*Empty, DevicePlugin_ListAndWatchServer) error

   Allocate(context.Context, *AllocateRequest) (*AllocateResponse, error)

   PreStartContainer(context.Context, *PreStartContainerRequest) (*PreStartContainerResponse, error)
}

最重要的是ListAndWatch()/Allocate()席函,因?yàn)榱硗鈨蓚€(gè)方法直接返回結(jié)果冈涧,沒有任何邏輯

ListAndWatch

k8s-device-plugin\server.go

func (m *NvidiaDevicePlugin) ListAndWatch(e *pluginapi.Empty, s pluginapi.DevicePlugin_ListAndWatchServer) error {
   s.Send(&pluginapi.ListAndWatchResponse{Devices: m.devs})

   for {
      select {
      case <-m.stop:
         return nil
      case d := <-m.health:
         d.Health = pluginapi.Unhealthy
         s.Send(&pluginapi.ListAndWatchResponse{Devices: m.devs})
      }
   }
}

老朋友了督弓,list所有設(shè)備,并長連接http-steaming將變化發(fā)到客戶端蒂阱。

// E.g:
// struct Device {
//    ID: "GPU-fef8089b-4820-abfc-e83e-94318197576e",
//    State: "Healthy",
// }
type Device struct {
   ID string `protobuf:"bytes,1,opt,name=ID,json=iD,proto3" json:"ID,omitempty"`
   Health string `protobuf:"bytes,2,opt,name=health,proto3" json:"health,omitempty"`
}

目前設(shè)備信息只有設(shè)備號(hào)和健康狀態(tài)狂塘,沒辦法擴(kuò)展荞胡,所以也就不知道GPU拓?fù)?。=廊营,所以說目前也就支持GPU數(shù)量萝勤。

Allocate

func (m *NvidiaDevicePlugin) Allocate(ctx context.Context, reqs *pluginapi.AllocateRequest) (*pluginapi.AllocateResponse, error) {
   devs := m.devs
   responses := pluginapi.AllocateResponse{}
   for _, req := range reqs.ContainerRequests {
      response := pluginapi.ContainerAllocateResponse{
         Envs: map[string]string{
            "NVIDIA_VISIBLE_DEVICES": strings.Join(req.DevicesIDs, ","),
         },
      }

      for _, id := range req.DevicesIDs {
         if !deviceExists(devs, id) {
            return nil, fmt.Errorf("invalid allocation request: unknown device: %s", id)
         }
      }

      responses.ContainerResponses = append(responses.ContainerResponses, &response)
   }

   return &responses, nil
}

Allocate做了兩件事情纵刘,返回NVIDIA_VISIBLE_DEVICES環(huán)境變量,以及檢查設(shè)備是否存在。

Note:

  1. 這里其實(shí)就已經(jīng)告訴了我們分配邏輯鞍历,即kubelet根據(jù)limit選擇掛載具體的GPU卡劣砍,然后將設(shè)備號(hào)發(fā)送給device-plugin,得到env香嗓;
  2. 以后想在調(diào)度器里面根據(jù)GPU拓?fù)溥x擇GPU卡,是很難實(shí)現(xiàn)的沧烈,并且調(diào)度器本身邏輯只創(chuàng)建bind像云,賦值node name,要想再把設(shè)備號(hào)加進(jìn)去比較困難腋逆。

kubelet

從上面我們可以知道最重要的就是Allocate方法侈贷,所以我們首先去找kubelet中Allocate方法的調(diào)用俏蛮。

kubernetes\pkg\kubelet\cm\devicemanager\endpoint.go

type endpoint interface {
   run()
   stop()
   allocate(devs []string) (*pluginapi.AllocateResponse, error)
   preStartContainer(devs []string) (*pluginapi.PreStartContainerResponse, error)
   callback(resourceName string, devices []pluginapi.Device)
   isStopped() bool
   stopGracePeriodExpired() bool
}

其中最重要的就是run和allocate,分別會(huì)調(diào)用device-plugin的ListAndWatch()和Allocate()锨并。

run

func (e *endpointImpl) run() {
   stream, err := e.client.ListAndWatch(context.Background(), &pluginapi.Empty{})

   for {
      response, err := stream.Recv()
      devs := response.Devices
      var newDevs []pluginapi.Device
      for _, d := range devs {
         newDevs = append(newDevs, *d)
      }

      e.callback(e.resourceName, newDevs)
   }
}

調(diào)用ListAndWatch第煮,再調(diào)用callback處理設(shè)備

kubernetes\pkg\kubelet\cm\devicemanager\manager.go

func (m *ManagerImpl) genericDeviceUpdateCallback(resourceName string, devices []pluginapi.Device) {
   m.mutex.Lock()
   m.healthyDevices[resourceName] = sets.NewString()
   m.unhealthyDevices[resourceName] = sets.NewString()
   for _, dev := range devices {
      if dev.Health == pluginapi.Healthy {
         m.healthyDevices[resourceName].Insert(dev.ID)
      } else {
         m.unhealthyDevices[resourceName].Insert(dev.ID)
      }
   }
   m.mutex.Unlock()
   m.writeCheckpoint()
}

這里就看到在kubelet.ContainerManager.deviceManager中保存了設(shè)備ID包警,數(shù)據(jù)結(jié)構(gòu)是map[string]sets.String

allocate

kubernetes\pkg\kubelet\cm\devicemanager\endpoint.go

func (e *endpointImpl) allocate(devs []string) (*pluginapi.AllocateResponse, error) {
   return e.client.Allocate(context.Background(), &pluginapi.AllocateRequest{
      ContainerRequests: []*pluginapi.ContainerAllocateRequest{
         {DevicesIDs: devs},
      },
   })
}

這里就直接發(fā)了gRPC請(qǐng)求底靠,看下函數(shù)調(diào)用處是怎么選擇設(shè)備ID的暑中。

kubernetes\pkg\kubelet\cm\devicemanager\manager.go

func (m *ManagerImpl) allocateContainerResources(pod *v1.Pod, container *v1.Container, devicesToReuse map[string]sets.String) error {
   podUID := string(pod.UID)
   contName := container.Name
   allocatedDevicesUpdated := false
    
   for k, v := range container.Resources.Limits {
      resource := string(k)
      needed := int(v.Value())

      allocDevices, err := m.devicesToAllocate(podUID, contName, resource, needed, devicesToReuse[resource])

      startRPCTime := time.Now()
      m.mutex.Lock()
      e, ok := m.endpoints[resource]
      m.mutex.Unlock()

      devs := allocDevices.UnsortedList()
      resp, err := e.allocate(devs)
      
      // Update internal cached podDevices state.
      m.mutex.Lock()
      m.podDevices.insert(podUID, contName, resource, allocDevices, resp.ContainerResponses[0])
      m.mutex.Unlock()
   }

   // Checkpoints device to container allocation information.
   return m.writeCheckpoint()
}

  1. 通過devicesToAllocate方法獲得分配的設(shè)備ID
  2. 調(diào)用allocate方法鳄逾,獲取響應(yīng)env
  3. 更新devicemanager.podDevices數(shù)據(jù)
func (m *ManagerImpl) devicesToAllocate(podUID, contName, resource string, required int, reusableDevices sets.String) (sets.String, error) {
   m.mutex.Lock()
   defer m.mutex.Unlock()
   needed := required
   devices = sets.NewString()
   
   devicesInUse := m.allocatedDevices[resource]
   available := m.healthyDevices[resource].Difference(devicesInUse)

   allocated := available.UnsortedList()[:needed]

   for _, device := range allocated {
      m.allocatedDevices[resource].Insert(device)
      devices.Insert(device)
   }
   return devices, nil
}

分配資源邏輯

  1. 獲取容器已分配資源
  2. 從cache中獲取已使用的設(shè)備
  3. 比較全部設(shè)備與已用設(shè)備雕凹,得到可用設(shè)備
  4. 隨機(jī)從可用設(shè)備選出設(shè)備ID
  5. 更新已用設(shè)備cache
  6. 返回取得的設(shè)備ID

這里就一切真相大白了政冻,kubelet是隨機(jī)去GPU掛載的明场。

保存資源分配情況

kubernetes\pkg\kubelet\cm\devicemanager\pod_devices.go

func (pdev podDevices) insert(podUID, contName, resource string, devices sets.String, resp *pluginapi.ContainerAllocateResponse) {
   if _, podExists := pdev[podUID]; !podExists {
      pdev[podUID] = make(containerDevices)
   }
   if _, contExists := pdev[podUID][contName]; !contExists {
      pdev[podUID][contName] = make(resourceAllocateInfo)
   }
   pdev[podUID][contName][resource] = deviceAllocateInfo{
      deviceIds: devices,
      allocResp: resp,
   }
}

這里就保存了每個(gè)Pod下每個(gè)contrainer的每種資源的使用情況李丰。

// Returns combined container runtime settings to consume the container's allocated devices.
func (pdev podDevices) deviceRunContainerOptions(podUID, contName string) *DeviceRunContainerOptions {}

deviceRunContainerOptions方法返回了創(chuàng)建容器所需的設(shè)備信息配置參數(shù)嫌套。

ps. 一般來說信息不會(huì)存兩份踱讨,所以資源分配情況應(yīng)該只存在于devicemanager中;只有在需要的時(shí)候莺治,返回對(duì)應(yīng)的配置文件就好帚稠。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市榄审,隨后出現(xiàn)的幾起案子杆麸,更是在濱河造成了極大的恐慌昔头,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,919評(píng)論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異讹开,居然都是意外死亡萧吠,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,567評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來除破,“玉大人琼腔,你說我怎么就攤上這事丹莲。” “怎么了甥材?”我有些...
    開封第一講書人閱讀 163,316評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵洲赵,是天一觀的道長鸳惯。 經(jīng)常有香客問我,道長叠萍,這世上最難降的妖魔是什么苛谷? 我笑而不...
    開封第一講書人閱讀 58,294評(píng)論 1 292
  • 正文 為了忘掉前任独悴,我火速辦了婚禮绵患,結(jié)果婚禮上落蝙,老公的妹妹穿的比我還像新娘暂幼。我一直安慰自己,他們只是感情好旺嬉,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,318評(píng)論 6 390
  • 文/花漫 我一把揭開白布捐顷。 她就那樣靜靜地躺著迅涮,像睡著了一般。 火紅的嫁衣襯著肌膚如雪唉地。 梳的紋絲不亂的頭發(fā)上传透,一...
    開封第一講書人閱讀 51,245評(píng)論 1 299
  • 那天群嗤,我揣著相機(jī)與錄音骚烧,去河邊找鬼赃绊。 笑死羡榴,一個(gè)胖子當(dāng)著我的面吹牛校仑,可吹牛的內(nèi)容都是我干的迄沫。 我是一名探鬼主播羊瘩,決...
    沈念sama閱讀 40,120評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼逝她,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼睬捶!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起臀晃,我...
    開封第一講書人閱讀 38,964評(píng)論 0 275
  • 序言:老撾萬榮一對(duì)情侶失蹤疆拘,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后隆圆,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體渺氧,經(jīng)...
    沈念sama閱讀 45,376評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,592評(píng)論 2 333
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,764評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡纠亚,死狀恐怖条篷,靈堂內(nèi)的尸體忽然破棺而出指蚜,到底是詐尸還是另有隱情,我是刑警寧澤免猾,帶...
    沈念sama閱讀 35,460評(píng)論 5 344
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,070評(píng)論 3 327
  • 文/蒙蒙 一李根、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,697評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,846評(píng)論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,819評(píng)論 2 370
  • 正文 我出身青樓琳骡,卻偏偏與公主長得像,于是被迫代替她去往敵國和親剔猿。 傳聞我的和親對(duì)象是個(gè)殘疾皇子酷含,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,665評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容

  • “唔别威,你怎么這么好的?”“我們林家的男人個(gè)個(gè)都很癡情,像我媽就有一個(gè)癡情的老公和一個(gè)癡情的兒子⌒趺澹”“她很幸福...
    上帝的寵兒媳閱讀 345評(píng)論 5 5
  • 背景: 根據(jù)規(guī)劃允扇,讀書并分享讀后感,第三篇妙啃。 主要內(nèi)容: 說清楚兩個(gè)事情 1、我為什么要思考“我為什么活著”; 2...
    長游閱讀 1,432評(píng)論 4 5
  • 今天考試我懵逼了,考完我發(fā)了條說說:“沒想到我會(huì)敗在數(shù)學(xué)計(jì)算上,果然數(shù)學(xué)不好是要伴隨一生的,我已經(jīng)不想看見jw了敌呈。...
    cuckoo醬閱讀 581評(píng)論 0 2
  • 晚上在幫同學(xué)按摩頸部的時(shí)候,發(fā)現(xiàn)他的頸部有淤堵分尸,開始幫她按的時(shí)候她說疼箩绍,不要按了材蛛。我就想著不通的地方肯定會(huì)有些疼...
    井田婷婷閱讀 192評(píng)論 2 4