kube-scheduler調(diào)度擴(kuò)展

Kubernetes 自帶了一個(gè)默認(rèn)調(diào)度器kube-scheduler敢靡,其內(nèi)置了很多節(jié)點(diǎn)預(yù)選和優(yōu)選的調(diào)度算法,一般調(diào)度場(chǎng)景下可以滿足要求。但是在一些特殊場(chǎng)景下毒嫡,默認(rèn)調(diào)度器不能滿足我們復(fù)雜的調(diào)度需求。我們就需要對(duì)調(diào)度器進(jìn)行擴(kuò)展幻梯,以達(dá)到調(diào)度適合業(yè)務(wù)場(chǎng)景的目的兜畸。

背景

中間件redis容器化后,需要兩主不能在同一個(gè)節(jié)點(diǎn)上礼旅,一對(duì)主從不能在同一節(jié)點(diǎn)上膳叨;elasticsearch容器化后,兩個(gè)data實(shí)例不能在同一節(jié)點(diǎn)上痘系。在這類場(chǎng)景下菲嘴,默認(rèn)調(diào)度器內(nèi)置的預(yù)選、優(yōu)選算法不能滿足需求汰翠,我們有以下三種選擇:

  • 將新的調(diào)度算法添加到默認(rèn)調(diào)度程序中龄坪,并重新編譯鏡像,最終該鏡像運(yùn)行的實(shí)例作為kubernetes集群調(diào)度器复唤;

  • 參考kube-scheduler實(shí)現(xiàn)滿足自己業(yè)務(wù)場(chǎng)景的調(diào)度程序健田,并編譯鏡像,將該程序作為獨(dú)立的調(diào)度器運(yùn)行到kubernetes集群內(nèi)佛纫,需要用該調(diào)度器調(diào)度的pod實(shí)例妓局,在spec.schedulerName里指定該調(diào)度器总放;

    image
  • 實(shí)現(xiàn)“調(diào)度擴(kuò)展程序“:默認(rèn)調(diào)度器kube-scheduler在進(jìn)行預(yù)選時(shí)會(huì)調(diào)用該擴(kuò)展程序進(jìn)行過(guò)濾節(jié)點(diǎn);在優(yōu)選時(shí)會(huì)調(diào)用該擴(kuò)展程序進(jìn)行給節(jié)點(diǎn)打分好爬,或者在bind操作時(shí)局雄,調(diào)用該擴(kuò)展器進(jìn)行bind操作。

對(duì)上述三種方式進(jìn)行評(píng)估:

第一種:將自己的調(diào)度算法添加到默認(rèn)調(diào)度器kube-scheduler中存炮,對(duì)原生代碼侵入性較高炬搭,而且隨著kubernetes版本升級(jí),維護(hù)成本也較高穆桂;

第二種:默認(rèn)調(diào)度器里內(nèi)置了很多優(yōu)秀調(diào)度算法宫盔,如:檢查節(jié)點(diǎn)資源是否充足;端口是否占用享完;volume是否被其他pod掛載灼芭;親和性;均衡節(jié)點(diǎn)資源利用等驼侠,如果完全使用自己開發(fā)的調(diào)度器程序姿鸿,可能在達(dá)到了實(shí)際場(chǎng)景調(diào)度需求同時(shí),失去更佳的調(diào)度方案倒源,除非集成默認(rèn)調(diào)度器中的算法到自己獨(dú)立調(diào)度程序中苛预,但這無(wú)疑是不現(xiàn)實(shí)的;

第三種:通過(guò)啟動(dòng)參數(shù)的policy配置笋熬,選用某些默認(rèn)調(diào)度器中的預(yù)選热某、優(yōu)選調(diào)度算法的同時(shí),也可以調(diào)用外部擴(kuò)展調(diào)度程序的算法胳螟,計(jì)算得到最優(yōu)的調(diào)度節(jié)點(diǎn)昔馋,無(wú)需修改kube-scheduler代碼,只需要在啟動(dòng)參數(shù)中增加配置文件即可將默認(rèn)調(diào)度程序和擴(kuò)展調(diào)度程序相互關(guān)聯(lián)糖耸。

可以參考:

https://github.com/kubernetes/community/blob/master/contributors/design-proposals/scheduling/scheduler_extender.md

故采用第三種:實(shí)現(xiàn)擴(kuò)展調(diào)度程序的方案秘遏。

整體架構(gòu)

image

kube-scheduler在調(diào)度pod實(shí)例時(shí),首先獲取到Node1嘉竟、Node2邦危、Node3三個(gè)節(jié)點(diǎn)信息,進(jìn)行默認(rèn)的預(yù)選階段舍扰,篩選滿足要求的節(jié)點(diǎn)倦蚪,其次再調(diào)用擴(kuò)展程序中的預(yù)選算法,選出剩下的節(jié)點(diǎn)边苹,假設(shè)預(yù)選階段Node3上資源不足被過(guò)濾掉陵且,預(yù)選結(jié)束后只剩Node1和Node2;Node1和Node2進(jìn)入kube-scheduler默認(rèn)的優(yōu)選階段進(jìn)行節(jié)點(diǎn)打分个束,其次再調(diào)用擴(kuò)展調(diào)度程序中的優(yōu)選算法進(jìn)行打分慕购,kube-scheduler會(huì)將所有算法的打分結(jié)果進(jìn)行加權(quán)求和聊疲,獲得分?jǐn)?shù)最高的節(jié)點(diǎn)作為pod最終bind節(jié)點(diǎn),然后kube-scheduler調(diào)用apiserver進(jìn)行bind操作脓钾。

實(shí)現(xiàn)步驟

實(shí)現(xiàn)擴(kuò)展調(diào)度程序代碼

編寫擴(kuò)展調(diào)度器程序代碼售睹,根據(jù)實(shí)際業(yè)務(wù)調(diào)度場(chǎng)景編寫預(yù)選邏輯、優(yōu)選邏輯:

image

實(shí)現(xiàn)預(yù)選接口可训,入?yún)閟chedulerapi.ExtenderArgs,出參為schedulerapi.ExtenderFilterResult:

image

實(shí)現(xiàn)優(yōu)選接口捶枢,入?yún)閟chedulerapi.ExtenderArgs握截,出參為schedulerapi.HostPriorityList:

image

暴露http接口:

image

參考:

https://github.com/ll837448792/k8s-scheduler-extender-example

默認(rèn)調(diào)度器部署

由于kubernetes集群內(nèi)已經(jīng)有了一個(gè)名為default-scheduler的默認(rèn)調(diào)度器,為了不影響集群正常調(diào)度功能烂叔,下面會(huì)創(chuàng)建一個(gè)名為my-kube-scheduler的調(diào)度器谨胞,這個(gè)調(diào)度器和default-scheduler除了啟動(dòng)參數(shù)不一樣外,鏡像無(wú)差別蒜鸡。

1胯努、創(chuàng)建一個(gè)名為my-scheduler-config的configmaps,data下的config.yaml文件指定了調(diào)度器的一些參數(shù)逢防,包括leader選舉叶沛,調(diào)度算法策略的選擇(指定另一個(gè)configmaps),以及指定調(diào)度器的名稱為my-kube-scheduler忘朝。

相應(yīng)的創(chuàng)建一個(gè)my-scheduler-policy的configmaps灰署,里面指定了選擇哪些預(yù)選、優(yōu)選策略局嘁,以及外部擴(kuò)展調(diào)度程序的urlPrefix溉箕、擴(kuò)展預(yù)選URI、擴(kuò)展優(yōu)選URI悦昵、擴(kuò)展pod優(yōu)先級(jí)搶占URI肴茄、擴(kuò)展bind URI、擴(kuò)展優(yōu)選算法的權(quán)重等但指。

以保證my-kube-scheduler和擴(kuò)展調(diào)度程序的通信寡痰。

apiVersion: v1
kind: ConfigMap
metadata:
  name: my-scheduler-config
  namespace: kube-system
data:
  config.yaml: |
    apiVersion: kubescheduler.config.k8s.io/v1alpha1
    kind: KubeSchedulerConfiguration
    schedulerName: my-kube-scheduler
    algorithmSource:
      policy:
        configMap:
          namespace: kube-system
          name: my-scheduler-policy
    leaderElection:
      leaderElect: false
      lockObjectName: my-kube-scheduler
      lockObjectNamespace: kube-system
---
apiVersion: v1
kind: ConfigMap
metadata:
  name: my-scheduler-policy
  namespace: kube-system
data:
 policy.cfg : |
  {
    "kind" : "Policy",
    "apiVersion" : "v1",
    "predicates" : [
      {"name" : "PodFitsHostPorts"},
      {"name" : "PodFitsResources"},
      {"name" : "NoDiskConflict"},
      {"name" : "MatchNodeSelector"},
      {"name" : "HostName"}
    ],
    "priorities" : [
      {"name" : "LeastRequestedPriority", "weight" : 1},
      {"name" : "BalancedResourceAllocation", "weight" : 1},
      {"name" : "ServiceSpreadingPriority", "weight" : 1},
      {"name" : "EqualPriority", "weight" : 1}
    ],
    "extenders" : [{
      "urlPrefix": "http://10.168.107.12:80/scheduler",
      "filterVerb": "predicates/always_true",
      "prioritizeVerb": "priorities/zero_score",
      "preemptVerb": "preemption",
      "bindVerb": "",
      "weight": 1,
      "enableHttps": false,
      "nodeCacheCapable": false
    }],
    "hardPodAffinitySymmetricWeight" : 10
  }

2、在my-kube-scheduler yaml文件中將configmaps:my-scheduler-config以文件的形式掛載到容器內(nèi)/my-scheduler目錄下枚赡,并在啟動(dòng)參數(shù)中指定--config=/my-scheduler/config.yaml氓癌,使用和默認(rèn)調(diào)度器一樣的鏡像。

image

增加掛載:

image
image

擴(kuò)展調(diào)度器鏡像制作和部署

1贫橙、編譯擴(kuò)展調(diào)度程序my-scheduler-extender鏡像贪婉,以下為Dockerfile:

image

推送my-scheduler-extender鏡像到harbor:

image

2、創(chuàng)建外部擴(kuò)展程序my-scheduler-extender的deployment卢肃,如下為yaml描述:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: my-scheduler-extender
  namespace: kube-system
  labels:
    app: my-scheduler-extender
spec:
  replicas: 1
  selector:
    matchLabels:
      app: my-scheduler-extender
  template:
    metadata:
      labels:
        app: my-scheduler-extender
    spec:
      containers:
      - name: my-scheduler-extender
        image: 192.168.26.46/k8s-deploy/my-scheduler-extender:v1.0
        imagePullPolicy: Always
        livenessProbe:
          httpGet:
            path: /version
            port: 80
        readinessProbe:
          httpGet:
            path: /version
            port: 80
        ports:
          - containerPort: 80

驗(yàn)證

查看my-kube-scheduler pod日志疲迂,加載到了policy里的extender信息才顿,獲取到了擴(kuò)展調(diào)度器的接口地址:

image

創(chuàng)建一個(gè)nginx的pod,指定schedulerName為my-kube-scheduler:

image

查看擴(kuò)展調(diào)度器pod日志尤蒿,發(fā)現(xiàn)默認(rèn)調(diào)度器會(huì)調(diào)用extender擴(kuò)展調(diào)度器郑气,如下為extender日志打印的入?yún)ⅰ⒊鰠ⅲ?/p>

image

從而可以通過(guò)編寫擴(kuò)展調(diào)度程序腰池,對(duì)默認(rèn)調(diào)度器的預(yù)選和優(yōu)選算法進(jìn)行擴(kuò)展尾组。

參考
https://github.com/kubernetes/community/blob/master/contributors/design-proposals/scheduling/scheduler_extender.md

https://github.com/ll837448792/k8s-scheduler-extender-example


最后,csdn資源示弓,收集了海量學(xué)習(xí)資料讳侨,如果你準(zhǔn)備入IT坑,勵(lì)志成為優(yōu)秀的程序猿奏属,那么這些資源很適合你跨跨,包括java、go囱皿、python勇婴、springcloud、elk嘱腥、嵌入式 耕渴、大數(shù)據(jù)、面試資料爹橱、前端等資源萨螺。同時(shí)我們組建了一個(gè)技術(shù)交流群,里面有很多大佬愧驱,會(huì)不定時(shí)分享技術(shù)文章慰技,如果你想來(lái)一起學(xué)習(xí)提高,可以關(guān)注以下公眾號(hào)后回復(fù)【2】组砚,獲取吻商。


我是小碗湯,我們一起學(xué)習(xí)糟红,掃碼關(guān)注艾帐,精彩內(nèi)容第一時(shí)間推給你

長(zhǎng)按掃碼關(guān)注一起交流
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市盆偿,隨后出現(xiàn)的幾起案子柒爸,更是在濱河造成了極大的恐慌,老刑警劉巖事扭,帶你破解...
    沈念sama閱讀 212,383評(píng)論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件捎稚,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)今野,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,522評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門葡公,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人条霜,你說(shuō)我怎么就攤上這事催什。” “怎么了宰睡?”我有些...
    開封第一講書人閱讀 157,852評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵蒲凶,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我拆内,道長(zhǎng)豹爹,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,621評(píng)論 1 284
  • 正文 為了忘掉前任矛纹,我火速辦了婚禮,結(jié)果婚禮上光稼,老公的妹妹穿的比我還像新娘或南。我一直安慰自己,他們只是感情好艾君,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,741評(píng)論 6 386
  • 文/花漫 我一把揭開白布采够。 她就那樣靜靜地躺著,像睡著了一般冰垄。 火紅的嫁衣襯著肌膚如雪蹬癌。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,929評(píng)論 1 290
  • 那天虹茶,我揣著相機(jī)與錄音逝薪,去河邊找鬼。 笑死蝴罪,一個(gè)胖子當(dāng)著我的面吹牛董济,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播要门,決...
    沈念sama閱讀 39,076評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼虏肾,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了欢搜?” 一聲冷哼從身側(cè)響起封豪,我...
    開封第一講書人閱讀 37,803評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎炒瘟,沒(méi)想到半個(gè)月后吹埠,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,265評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,582評(píng)論 2 327
  • 正文 我和宋清朗相戀三年藻雌,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了雌续。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,716評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡胯杭,死狀恐怖驯杜,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情做个,我是刑警寧澤鸽心,帶...
    沈念sama閱讀 34,395評(píng)論 4 333
  • 正文 年R本政府宣布,位于F島的核電站居暖,受9級(jí)特大地震影響顽频,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜太闺,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,039評(píng)論 3 316
  • 文/蒙蒙 一糯景、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧省骂,春花似錦蟀淮、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,798評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至轧粟,卻和暖如春策治,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背兰吟。 一陣腳步聲響...
    開封第一講書人閱讀 32,027評(píng)論 1 266
  • 我被黑心中介騙來(lái)泰國(guó)打工通惫, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人揽祥。 一個(gè)月前我還...
    沈念sama閱讀 46,488評(píng)論 2 361
  • 正文 我出身青樓讽膏,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親拄丰。 傳聞我的和親對(duì)象是個(gè)殘疾皇子府树,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,612評(píng)論 2 350

推薦閱讀更多精彩內(nèi)容