Kubernetes 自帶了一個(gè)默認(rèn)調(diào)度器kube-scheduler敢靡,其內(nèi)置了很多節(jié)點(diǎn)預(yù)選和優(yōu)選的調(diào)度算法,一般調(diào)度場(chǎng)景下可以滿足要求。但是在一些特殊場(chǎng)景下毒嫡,默認(rèn)調(diào)度器不能滿足我們復(fù)雜的調(diào)度需求。我們就需要對(duì)調(diào)度器進(jìn)行擴(kuò)展幻梯,以達(dá)到調(diào)度適合業(yè)務(wù)場(chǎng)景的目的兜畸。
背景
中間件redis容器化后,需要兩主不能在同一個(gè)節(jié)點(diǎn)上礼旅,一對(duì)主從不能在同一節(jié)點(diǎn)上膳叨;elasticsearch容器化后,兩個(gè)data實(shí)例不能在同一節(jié)點(diǎn)上痘系。在這類場(chǎng)景下菲嘴,默認(rèn)調(diào)度器內(nèi)置的預(yù)選、優(yōu)選算法不能滿足需求汰翠,我們有以下三種選擇:
將新的調(diào)度算法添加到默認(rèn)調(diào)度程序中龄坪,并重新編譯鏡像,最終該鏡像運(yùn)行的實(shí)例作為kubernetes集群調(diào)度器复唤;
-
參考kube-scheduler實(shí)現(xiàn)滿足自己業(yè)務(wù)場(chǎng)景的調(diào)度程序健田,并編譯鏡像,將該程序作為獨(dú)立的調(diào)度器運(yùn)行到kubernetes集群內(nèi)佛纫,需要用該調(diào)度器調(diào)度的pod實(shí)例妓局,在spec.schedulerName里指定該調(diào)度器总放;
image 實(shí)現(xiàn)“調(diào)度擴(kuò)展程序“:默認(rèn)調(diào)度器kube-scheduler在進(jìn)行預(yù)選時(shí)會(huì)調(diào)用該擴(kuò)展程序進(jìn)行過(guò)濾節(jié)點(diǎn);在優(yōu)選時(shí)會(huì)調(diào)用該擴(kuò)展程序進(jìn)行給節(jié)點(diǎn)打分好爬,或者在bind操作時(shí)局雄,調(diào)用該擴(kuò)展器進(jìn)行bind操作。
對(duì)上述三種方式進(jìn)行評(píng)估:
第一種:將自己的調(diào)度算法添加到默認(rèn)調(diào)度器kube-scheduler中存炮,對(duì)原生代碼侵入性較高炬搭,而且隨著kubernetes版本升級(jí),維護(hù)成本也較高穆桂;
第二種:默認(rèn)調(diào)度器里內(nèi)置了很多優(yōu)秀調(diào)度算法宫盔,如:檢查節(jié)點(diǎn)資源是否充足;端口是否占用享完;volume是否被其他pod掛載灼芭;親和性;均衡節(jié)點(diǎn)資源利用等驼侠,如果完全使用自己開發(fā)的調(diào)度器程序姿鸿,可能在達(dá)到了實(shí)際場(chǎng)景調(diào)度需求同時(shí),失去更佳的調(diào)度方案倒源,除非集成默認(rèn)調(diào)度器中的算法到自己獨(dú)立調(diào)度程序中苛预,但這無(wú)疑是不現(xiàn)實(shí)的;
第三種:通過(guò)啟動(dòng)參數(shù)的policy配置笋熬,選用某些默認(rèn)調(diào)度器中的預(yù)選热某、優(yōu)選調(diào)度算法的同時(shí),也可以調(diào)用外部擴(kuò)展調(diào)度程序的算法胳螟,計(jì)算得到最優(yōu)的調(diào)度節(jié)點(diǎn)昔馋,無(wú)需修改kube-scheduler代碼,只需要在啟動(dòng)參數(shù)中增加配置文件即可將默認(rèn)調(diào)度程序和擴(kuò)展調(diào)度程序相互關(guān)聯(lián)糖耸。
可以參考:
故采用第三種:實(shí)現(xiàn)擴(kuò)展調(diào)度程序的方案秘遏。
整體架構(gòu)
kube-scheduler在調(diào)度pod實(shí)例時(shí),首先獲取到Node1嘉竟、Node2邦危、Node3三個(gè)節(jié)點(diǎn)信息,進(jìn)行默認(rèn)的預(yù)選階段舍扰,篩選滿足要求的節(jié)點(diǎn)倦蚪,其次再調(diào)用擴(kuò)展程序中的預(yù)選算法,選出剩下的節(jié)點(diǎn)边苹,假設(shè)預(yù)選階段Node3上資源不足被過(guò)濾掉陵且,預(yù)選結(jié)束后只剩Node1和Node2;Node1和Node2進(jìn)入kube-scheduler默認(rèn)的優(yōu)選階段進(jìn)行節(jié)點(diǎn)打分个束,其次再調(diào)用擴(kuò)展調(diào)度程序中的優(yōu)選算法進(jìn)行打分慕购,kube-scheduler會(huì)將所有算法的打分結(jié)果進(jìn)行加權(quán)求和聊疲,獲得分?jǐn)?shù)最高的節(jié)點(diǎn)作為pod最終bind節(jié)點(diǎn),然后kube-scheduler調(diào)用apiserver進(jìn)行bind操作脓钾。
實(shí)現(xiàn)步驟
實(shí)現(xiàn)擴(kuò)展調(diào)度程序代碼
編寫擴(kuò)展調(diào)度器程序代碼售睹,根據(jù)實(shí)際業(yè)務(wù)調(diào)度場(chǎng)景編寫預(yù)選邏輯、優(yōu)選邏輯:
實(shí)現(xiàn)預(yù)選接口可训,入?yún)閟chedulerapi.ExtenderArgs,出參為schedulerapi.ExtenderFilterResult:
實(shí)現(xiàn)優(yōu)選接口捶枢,入?yún)閟chedulerapi.ExtenderArgs握截,出參為schedulerapi.HostPriorityList:
暴露http接口:
參考:
https://github.com/ll837448792/k8s-scheduler-extender-example
默認(rèn)調(diào)度器部署
由于kubernetes集群內(nèi)已經(jīng)有了一個(gè)名為default-scheduler的默認(rèn)調(diào)度器,為了不影響集群正常調(diào)度功能烂叔,下面會(huì)創(chuàng)建一個(gè)名為my-kube-scheduler的調(diào)度器谨胞,這個(gè)調(diào)度器和default-scheduler除了啟動(dòng)參數(shù)不一樣外,鏡像無(wú)差別蒜鸡。
1胯努、創(chuàng)建一個(gè)名為my-scheduler-config的configmaps,data下的config.yaml文件指定了調(diào)度器的一些參數(shù)逢防,包括leader選舉叶沛,調(diào)度算法策略的選擇(指定另一個(gè)configmaps),以及指定調(diào)度器的名稱為my-kube-scheduler忘朝。
相應(yīng)的創(chuàng)建一個(gè)my-scheduler-policy的configmaps灰署,里面指定了選擇哪些預(yù)選、優(yōu)選策略局嘁,以及外部擴(kuò)展調(diào)度程序的urlPrefix溉箕、擴(kuò)展預(yù)選URI、擴(kuò)展優(yōu)選URI悦昵、擴(kuò)展pod優(yōu)先級(jí)搶占URI肴茄、擴(kuò)展bind URI、擴(kuò)展優(yōu)選算法的權(quán)重等但指。
以保證my-kube-scheduler和擴(kuò)展調(diào)度程序的通信寡痰。
apiVersion: v1
kind: ConfigMap
metadata:
name: my-scheduler-config
namespace: kube-system
data:
config.yaml: |
apiVersion: kubescheduler.config.k8s.io/v1alpha1
kind: KubeSchedulerConfiguration
schedulerName: my-kube-scheduler
algorithmSource:
policy:
configMap:
namespace: kube-system
name: my-scheduler-policy
leaderElection:
leaderElect: false
lockObjectName: my-kube-scheduler
lockObjectNamespace: kube-system
---
apiVersion: v1
kind: ConfigMap
metadata:
name: my-scheduler-policy
namespace: kube-system
data:
policy.cfg : |
{
"kind" : "Policy",
"apiVersion" : "v1",
"predicates" : [
{"name" : "PodFitsHostPorts"},
{"name" : "PodFitsResources"},
{"name" : "NoDiskConflict"},
{"name" : "MatchNodeSelector"},
{"name" : "HostName"}
],
"priorities" : [
{"name" : "LeastRequestedPriority", "weight" : 1},
{"name" : "BalancedResourceAllocation", "weight" : 1},
{"name" : "ServiceSpreadingPriority", "weight" : 1},
{"name" : "EqualPriority", "weight" : 1}
],
"extenders" : [{
"urlPrefix": "http://10.168.107.12:80/scheduler",
"filterVerb": "predicates/always_true",
"prioritizeVerb": "priorities/zero_score",
"preemptVerb": "preemption",
"bindVerb": "",
"weight": 1,
"enableHttps": false,
"nodeCacheCapable": false
}],
"hardPodAffinitySymmetricWeight" : 10
}
2、在my-kube-scheduler yaml文件中將configmaps:my-scheduler-config以文件的形式掛載到容器內(nèi)/my-scheduler目錄下枚赡,并在啟動(dòng)參數(shù)中指定--config=/my-scheduler/config.yaml氓癌,使用和默認(rèn)調(diào)度器一樣的鏡像。
增加掛載:
擴(kuò)展調(diào)度器鏡像制作和部署
1贫橙、編譯擴(kuò)展調(diào)度程序my-scheduler-extender鏡像贪婉,以下為Dockerfile:
推送my-scheduler-extender鏡像到harbor:
2、創(chuàng)建外部擴(kuò)展程序my-scheduler-extender的deployment卢肃,如下為yaml描述:
apiVersion: apps/v1
kind: Deployment
metadata:
name: my-scheduler-extender
namespace: kube-system
labels:
app: my-scheduler-extender
spec:
replicas: 1
selector:
matchLabels:
app: my-scheduler-extender
template:
metadata:
labels:
app: my-scheduler-extender
spec:
containers:
- name: my-scheduler-extender
image: 192.168.26.46/k8s-deploy/my-scheduler-extender:v1.0
imagePullPolicy: Always
livenessProbe:
httpGet:
path: /version
port: 80
readinessProbe:
httpGet:
path: /version
port: 80
ports:
- containerPort: 80
驗(yàn)證
查看my-kube-scheduler pod日志疲迂,加載到了policy里的extender信息才顿,獲取到了擴(kuò)展調(diào)度器的接口地址:
創(chuàng)建一個(gè)nginx的pod,指定schedulerName為my-kube-scheduler:
查看擴(kuò)展調(diào)度器pod日志尤蒿,發(fā)現(xiàn)默認(rèn)調(diào)度器會(huì)調(diào)用extender擴(kuò)展調(diào)度器郑气,如下為extender日志打印的入?yún)ⅰ⒊鰠ⅲ?/p>
從而可以通過(guò)編寫擴(kuò)展調(diào)度程序腰池,對(duì)默認(rèn)調(diào)度器的預(yù)選和優(yōu)選算法進(jìn)行擴(kuò)展尾组。
https://github.com/ll837448792/k8s-scheduler-extender-example
最后,csdn資源示弓,收集了海量學(xué)習(xí)資料讳侨,如果你準(zhǔn)備入IT坑,勵(lì)志成為優(yōu)秀的程序猿奏属,那么這些資源很適合你跨跨,包括java、go囱皿、python勇婴、springcloud、elk嘱腥、嵌入式 耕渴、大數(shù)據(jù)、面試資料爹橱、前端等資源萨螺。同時(shí)我們組建了一個(gè)技術(shù)交流群,里面有很多大佬愧驱,會(huì)不定時(shí)分享技術(shù)文章慰技,如果你想來(lái)一起學(xué)習(xí)提高,可以關(guān)注以下公眾號(hào)后回復(fù)【2】组砚,獲取吻商。
我是小碗湯,我們一起學(xué)習(xí)糟红,掃碼關(guān)注艾帐,精彩內(nèi)容第一時(shí)間推給你