[k8s源碼分析][kube-scheduler]scheduler之高可用及原理

1. 前言

轉(zhuǎn)載請說明原文出處, 尊重他人勞動成果!

源碼位置: https://github.com/nicktming/kubernetes
分支: tming-v1.13 (基于v1.13版本)

本文將分析kube-scheduler如何實現(xiàn)高可用.

k8skube-scheuler的高可用是通過leaderElection實現(xiàn)的, 關(guān)于leaderElection可以參考 [k8s源碼分析][client-go] k8s選舉leaderelection (分布式資源鎖實現(xiàn)). 對于同一個schedulerNamescheduler, 無論啟動了多少個實例, 只能有一個leader, 并且只有該leader在提供服務(wù), 其余的競爭者只能一直在等待.

2. 例子

關(guān)于k8s環(huán)境安裝可以參考 k8s源碼編譯以及二進制安裝(用于源碼開發(fā)調(diào)試版).

2.1 初始狀態(tài)

因為master(172.21.0.16)上的scheduler是先起來的, 所以它是leader, 雖然兩臺機器上都安裝了scheduler, 但是只有leader提供服務(wù), 另外一個(也就是worker(172.21.0.12)上面的scheduler是處于等待狀態(tài), 并沒有真正運行自己的邏輯).

另外這兩個scheduler競爭的是同一個資源kube-system/kube-scheduler, 也就是后面看到的kube-system這個namespace中的名字為kube-schedulerendpoints.

example1.png
[root@master kubectl]# ./kubectl get endpoints -n kube-system
NAME                      ENDPOINTS   AGE
kube-controller-manager   <none>      42h
kube-scheduler            <none>      42h
[root@master kubectl]# 
[root@master kubectl]# ./kubectl get endpoints kube-scheduler -o yaml -n kube-system
apiVersion: v1
kind: Endpoints
metadata:
  annotations:
    control-plane.alpha.kubernetes.io/leader: '{"holderIdentity":"master_74cc3de4-f0be-11e9-9232-525400d54f7e","leaseDurationSeconds":15,"acquireTime":"2019-10-17T09:14:19Z","renewTime":"2019-10-17T09:41:41Z","leaderTransitions":5}'
  creationTimestamp: "2019-10-15T14:56:55Z"
  name: kube-scheduler
  namespace: kube-system
  resourceVersion: "59633"
  selfLink: /api/v1/namespaces/kube-system/endpoints/kube-scheduler
  uid: 0786d7b7-ef5c-11e9-af01-525400d54f7e

2.2 關(guān)閉leader

此時關(guān)閉master(172.21.0.16)kube-scheduler, 只剩下一個scheduler, 所以worker(172.21.0.12)會成為新的leader并提供服務(wù).

example2.png

查看k8sendpoints的變化, holderIdentity已經(jīng)由master_74cc3de4-f0be-11e9-9232-525400d54f7e變成worker_f6134651-f0bf-11e9-a387-5254009b5271了.

[root@master kubectl]# ./kubectl get endpoints kube-scheduler -o yaml -n kube-system
apiVersion: v1
kind: Endpoints
metadata:
  annotations:
    control-plane.alpha.kubernetes.io/leader: '{"holderIdentity":"worker_f6134651-f0bf-11e9-a387-5254009b5271","leaseDurationSeconds":15,"acquireTime":"2019-10-17T09:42:11Z","renewTime":"2019-10-17T09:42:13Z","leaderTransitions":6}'
  creationTimestamp: "2019-10-15T14:56:55Z"
  name: kube-scheduler
  namespace: kube-system
  resourceVersion: "59667"
  selfLink: /api/v1/namespaces/kube-system/endpoints/kube-scheduler
  uid: 0786d7b7-ef5c-11e9-af01-525400d54f7e
[root@master kubectl]# 

查看處于worker(172.21.0.16)上的scheduler的日志有successfully acquired lease kube-system/kube-scheduler.

[root@worker scheduler]# cat config.txt 
./kube-scheduler --master=http://172.21.0.16:8080

[root@worker scheduler]# ./kube-scheduler --master=http://172.21.0.16:8080
...
I1017 17:24:47.941202   32277 leaderelection.go:205] attempting to acquire leader lease  kube-system/kube-scheduler...


I1017 17:42:11.815383   32277 leaderelection.go:214] successfully acquired lease kube-system/kube-scheduler

2.3 啟動一個自定義調(diào)度器

此時我在master()節(jié)點上啟動一個my-scheduler. 關(guān)于如果啟動自定義調(diào)度器可以參考 [k8s源碼分析][kube-scheduler]scheduler之自定義調(diào)度器(1)

example3.png
[root@master kubectl]# ./kubectl get endpoints -n kube-system
NAME                      ENDPOINTS   AGE
kube-controller-manager   <none>      42h
kube-scheduler            <none>      42h
my-scheduler              <none>      7s
[root@master kubectl]# ./kubectl get endpoints my-scheduler -o yaml -n kube-system
apiVersion: v1
kind: Endpoints
metadata:
  annotations:
    control-plane.alpha.kubernetes.io/leader: '{"holderIdentity":"master_1dd3cdbe-f0c3-11e9-985f-525400d54f7e","leaseDurationSeconds":15,"acquireTime":"2019-10-17T09:47:23Z","renewTime":"2019-10-17T09:47:45Z","leaderTransitions":0}'
  creationTimestamp: "2019-10-17T09:47:23Z"
  name: my-scheduler
  namespace: kube-system
  resourceVersion: "60119"
  selfLink: /api/v1/namespaces/kube-system/endpoints/my-scheduler
  uid: 1e6d5569-f0c3-11e9-b23b-525400d54f7e
[root@master kubectl]# 

可以看到在對應(yīng)的endpoints上多了一個新的my-scheduler. 然而因為這兩個scheduler競爭的資源不同, 所以各自都是其對應(yīng)資源的leader并且都會提供服務(wù). my-scheduler這個會為schedulerName=my-scheduler這樣的pods分配節(jié)點, 而default-scheduler會為使用默認(rèn)調(diào)度器的pods分配節(jié)點.

[root@master kubectl]# cat pod.yaml 
apiVersion: v1
kind: Pod
metadata:
  name: test
spec:
  containers:
  - name: podtest
    image: nginx
    ports:
    - containerPort: 80
[root@master kubectl]# cat pod-scheduler.yaml 
apiVersion: v1
kind: Pod
metadata:
  name: test-schduler
spec:
  schedulerName: my-scheduler
  containers:
  - name: podtest-scheduler
    image: nginx
    ports:
    - containerPort: 80
[root@master kubectl]# ./kubectl get pods
No resources found.
[root@master kubectl]# ./kubectl apply -f pod.yaml 
pod/test created
[root@master kubectl]# ./kubectl apply -f pod-scheduler.yaml 
pod/test-schduler created
[root@master kubectl]# ./kubectl get pods
NAME            READY   STATUS    RESTARTS   AGE
test            1/1     Running   0          3m3s
test-schduler   1/1     Running   0          2m55s
[root@master kubectl]# ./kubectl get pod test-schduler -o yaml | grep schedulerName
      {"apiVersion":"v1","kind":"Pod","metadata":{"annotations":{},"name":"test-schduler","namespace":"default"},"spec":{"containers":[{"image":"nginx","name":"podtest-scheduler","ports":[{"containerPort":80}]}],"schedulerName":"my-scheduler"}}
  schedulerName: my-scheduler
[root@master kubectl]# ./kubectl get pod test -o yaml | grep schedulerName
  schedulerName: default-scheduler
[root@master kubectl]# 

如果需要在一臺機器上起多個scheduler, 需要改一下healthmetric的端口號. 這里就不測試了, 因為上面的結(jié)果已經(jīng)很清晰了, default-schedulermy-scheduler各自調(diào)度屬于自己的pod.

3. 源碼分析

3.1 結(jié)構(gòu)體與默認(rèn)值

這里是與leaderElection相關(guān)的配置了, 其中需要注意的

LockObjectNamespace: 代表的就是namespace.
LockObjectName: 代表的就是name.
ResourceLock: 代表的是什么類型的資源, leaderElection目前就支持三種資源endpoints, configmaplease.
LeaderElect: 代表是否啟用高可用.

// pkg/scheduler/apis/config/types.go
type KubeSchedulerConfiguration struct {
...
LeaderElection KubeSchedulerLeaderElectionConfiguration
...
}

type KubeSchedulerLeaderElectionConfiguration struct {
    apiserverconfig.LeaderElectionConfiguration
    // LockObjectNamespace defines the namespace of the lock object
    LockObjectNamespace string
    // LockObjectName defines the lock object name
    LockObjectName string
}

type LeaderElectionConfiguration struct {
    LeaderElect bool
    LeaseDuration metav1.Duration
    RenewDeadline metav1.Duration
    RetryPeriod metav1.Duration
    ResourceLock string
}

當(dāng)前通過配置文件可以直接配置, 在 [k8s源碼分析][kube-scheduler]scheduler之自定義調(diào)度器(2) 中就已經(jīng)體現(xiàn)過了. 但是沒有配置這些參數(shù)的時候發(fā)現(xiàn)還是啟用了高可用, 并且從上面的例子中也可以看到默認(rèn)調(diào)度器中也生成kube-system/kube-scheduler這樣的endpoints.

所以來看一下這些配置的系統(tǒng)默認(rèn)值.

// pkg/scheduler/apis/config/v1alpha1/defaults.go

func SetDefaults_KubeSchedulerConfiguration(obj *kubescedulerconfigv1alpha1.KubeSchedulerConfiguration) {
...
    if len(obj.LeaderElection.LockObjectNamespace) == 0 {
        // obj.LeaderElection.LockObjectNamespace = kube-system
        obj.LeaderElection.LockObjectNamespace = kubescedulerconfigv1alpha1.SchedulerDefaultLockObjectNamespace
    }
    if len(obj.LeaderElection.LockObjectName) == 0 {
        // obj.LeaderElection.LockObjectName = kube-scheduler
        obj.LeaderElection.LockObjectName = kubescedulerconfigv1alpha1.SchedulerDefaultLockObjectName
    }
...
}

// k8s.io/apiserver/pkg/apis/config/v1alpha1/defaults.go
func RecommendedDefaultLeaderElectionConfiguration(obj *LeaderElectionConfiguration) {
    zero := metav1.Duration{}
    if obj.LeaseDuration == zero {
        obj.LeaseDuration = metav1.Duration{Duration: 15 * time.Second}
    }
    if obj.RenewDeadline == zero {
        obj.RenewDeadline = metav1.Duration{Duration: 10 * time.Second}
    }
    if obj.RetryPeriod == zero {
        obj.RetryPeriod = metav1.Duration{Duration: 2 * time.Second}
    }
    if obj.ResourceLock == "" {
        obj.ResourceLock = EndpointsResourceLock
    }
    if obj.LeaderElect == nil {
        obj.LeaderElect = utilpointer.BoolPtr(true)
    }
}

所以默認(rèn)設(shè)置的為

LockObjectNamespace = "kube-system"
LockObjectName = "kube-scheduler"
ResourceLock = "endpoints"
LeaderElect = true

3.2 流程

關(guān)于啟動流程在 [k8s源碼分析][kube-scheduler]scheduler之啟動run(1) 已經(jīng)分析過了, 這里就只關(guān)注跟leaderElection相關(guān)的部分.

// cmd/kube-scheduler/app/options/options.go

func (o *Options) Config() (*schedulerappconfig.Config, error) {
    ...
// Set up leader election if enabled.
    var leaderElectionConfig *leaderelection.LeaderElectionConfig
    // 默認(rèn)值就是true 只要用戶不設(shè)置為false 這一步就會執(zhí)行
    // 也就是說kube-scheduler 默認(rèn)就是支持高可用
    if c.ComponentConfig.LeaderElection.LeaderElect {
        leaderElectionConfig, err = makeLeaderElectionConfig(c.ComponentConfig.LeaderElection, leaderElectionClient, recorder)
        if err != nil {
            return nil, err
        }
    }
    ...
    c.LeaderElection = leaderElectionConfig
    ...
}

func makeLeaderElectionConfig(config kubeschedulerconfig.KubeSchedulerLeaderElectionConfiguration, client clientset.Interface, recorder record.EventRecorder) (*leaderelection.LeaderElectionConfig, error) {
    hostname, err := os.Hostname()
    if err != nil {
        return nil, fmt.Errorf("unable to get hostname: %v", err)
    }
    // add a uniquifier so that two processes on the same host don't accidentally both become active
    id := hostname + "_" + string(uuid.NewUUID())

    rl, err := resourcelock.New(config.ResourceLock,
        config.LockObjectNamespace,
        config.LockObjectName,
        client.CoreV1(),
        resourcelock.ResourceLockConfig{
            Identity:      id,
            EventRecorder: recorder,
        })
    if err != nil {
        return nil, fmt.Errorf("couldn't create resource lock: %v", err)
    }

    return &leaderelection.LeaderElectionConfig{
        Lock:          rl,
        LeaseDuration: config.LeaseDuration.Duration,
        RenewDeadline: config.RenewDeadline.Duration,
        RetryPeriod:   config.RetryPeriod.Duration,
        WatchDog:      leaderelection.NewLeaderHealthzAdaptor(time.Second * 20),
        Name:          "kube-scheduler",
    }, nil
}

這里可以看到id是由主機名與一個uuid合并的字符串. 然后生成一個LeaderElectionConfig對象. 這些在 [k8s源碼分析][client-go] k8s選舉leaderelection (分布式資源鎖實現(xiàn)) 已經(jīng)詳細(xì)分析過了.

最后看一下運行

// cmd/kube-scheduler/app/server.go

func Run(cc schedulerserverconfig.CompletedConfig, stopCh <-chan struct{}) error {
...
// Prepare a reusable runCommand function.
    run := func(ctx context.Context) {
        sched.Run()
        <-ctx.Done()
    }

    ctx, cancel := context.WithCancel(context.TODO()) // TODO once Run() accepts a context, it should be used here
    defer cancel()

    go func() {
        select {
        case <-stopCh:
            cancel()
        case <-ctx.Done():
        }
    }()

    // If leader election is enabled, runCommand via LeaderElector until done and exit.
    // 啟動高可用
    if cc.LeaderElection != nil {
        cc.LeaderElection.Callbacks = leaderelection.LeaderCallbacks{
            // 調(diào)用run方法
            OnStartedLeading: run,
            OnStoppedLeading: func() {
                utilruntime.HandleError(fmt.Errorf("lost master"))
            },
        }
        leaderElector, err := leaderelection.NewLeaderElector(*cc.LeaderElection)
        if err != nil {
            return fmt.Errorf("couldn't create leader elector: %v", err)
        }

        leaderElector.Run(ctx)

        return fmt.Errorf("lost lease")
    }

    // Leader election is disabled, so runCommand inline until done.
    run(ctx)
    return fmt.Errorf("finished without leader elect")
}

如果啟動了高可用, 實現(xiàn)配置一下該client在獲得leader之后需要回調(diào)的函數(shù)run, 然后生成一個leaderElector實例, 調(diào)用其Run去競爭leadership.

這些都已經(jīng)在 [k8s源碼分析][client-go] k8s選舉leaderelection (分布式資源鎖實現(xiàn)) 已經(jīng)詳細(xì)分析過了, 就不多說了.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末盛龄,一起剝皮案震驚了整個濱河市垦搬,隨后出現(xiàn)的幾起案子淆院,更是在濱河造成了極大的恐慌候齿,老刑警劉巖按咒,帶你破解...
    沈念sama閱讀 218,941評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件啡捶,死亡現(xiàn)場離奇詭異利凑,居然都是意外死亡卸勺,警方通過查閱死者的電腦和手機砂沛,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來曙求,“玉大人尺上,你說我怎么就攤上這事材蛛。” “怎么了怎抛?”我有些...
    開封第一講書人閱讀 165,345評論 0 356
  • 文/不壞的土叔 我叫張陵卑吭,是天一觀的道長。 經(jīng)常有香客問我马绝,道長豆赏,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,851評論 1 295
  • 正文 為了忘掉前任富稻,我火速辦了婚禮掷邦,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘椭赋。我一直安慰自己抚岗,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,868評論 6 392
  • 文/花漫 我一把揭開白布哪怔。 她就那樣靜靜地躺著宣蔚,像睡著了一般。 火紅的嫁衣襯著肌膚如雪认境。 梳的紋絲不亂的頭發(fā)上胚委,一...
    開封第一講書人閱讀 51,688評論 1 305
  • 那天,我揣著相機與錄音叉信,去河邊找鬼亩冬。 笑死,一個胖子當(dāng)著我的面吹牛硼身,可吹牛的內(nèi)容都是我干的硅急。 我是一名探鬼主播,決...
    沈念sama閱讀 40,414評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼佳遂,長吁一口氣:“原來是場噩夢啊……” “哼铜秆!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起讶迁,我...
    開封第一講書人閱讀 39,319評論 0 276
  • 序言:老撾萬榮一對情侶失蹤连茧,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后巍糯,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體啸驯,經(jīng)...
    沈念sama閱讀 45,775評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年祟峦,在試婚紗的時候發(fā)現(xiàn)自己被綠了罚斗。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,096評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡宅楞,死狀恐怖针姿,靈堂內(nèi)的尸體忽然破棺而出袱吆,到底是詐尸還是另有隱情,我是刑警寧澤距淫,帶...
    沈念sama閱讀 35,789評論 5 346
  • 正文 年R本政府宣布绞绒,位于F島的核電站,受9級特大地震影響榕暇,放射性物質(zhì)發(fā)生泄漏蓬衡。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,437評論 3 331
  • 文/蒙蒙 一彤枢、第九天 我趴在偏房一處隱蔽的房頂上張望狰晚。 院中可真熱鬧,春花似錦缴啡、人聲如沸壁晒。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽秒咐。三九已至,卻和暖如春式镐,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背固蚤。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評論 1 271
  • 我被黑心中介騙來泰國打工娘汞, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留伟墙,地道東北人钓辆。 一個月前我還...
    沈念sama閱讀 48,308評論 3 372
  • 正文 我出身青樓,卻偏偏與公主長得像呀非,于是被迫代替她去往敵國和親燎孟。 傳聞我的和親對象是個殘疾皇子禽作,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,037評論 2 355