作者簡(jiǎn)介
王海龍吆寨, SUSE Rancher 中國(guó)社區(qū)技術(shù)經(jīng)理赏淌,負(fù)責(zé) Rancher 中國(guó)技術(shù)社區(qū)的維護(hù)和運(yùn)營(yíng)踩寇。擁有 8 年的云計(jì)算領(lǐng)域經(jīng)驗(yàn),經(jīng)歷了 OpenStack 到 Kubernetes 的技術(shù)變革六水,無(wú)論底層操作系統(tǒng) Linux俺孙,還是虛擬化 KVM 或是 Docker 容器技術(shù)都有豐富的運(yùn)維和實(shí)踐經(jīng)驗(yàn)。
注意:
- 本指南適用于 v2.5 及 v2.5 以下的 Rancher 版本掷贾,不適用 v2.6
- 操作前請(qǐng)務(wù)必做好備份
前 言
Rancher 管理的每個(gè)下游用戶集群都有一個(gè) cluster agent睛榄,它建立了一個(gè) tunnel,并通過(guò)這個(gè) tunnel 連接到 Rancher server 中相應(yīng)的集群控制器(Cluster controller)想帅。
Cluster agent场靴,也稱為 cattle-cluster-agent,是在下游用戶集群中運(yùn)行的組件,其重要的作用之一是在下游用戶集群和 Rancher server 之間(通過(guò)到集群控制器的 tunnel)就事件旨剥、統(tǒng)計(jì)信息咧欣、節(jié)點(diǎn)信息和健康狀況進(jìn)行通信并上報(bào)。
當(dāng) Rancher server 的 IP 發(fā)生變化轨帜,cattle-cluster-agent 無(wú)法通過(guò) tunnel 連接到 Rancher server 時(shí)魄咕,你可以在下游集群的 cattle-cluster-agent 容器中查看到如下日志:
time="2022-04-06T03:42:22Z" level=info msg="Connecting to wss://35.183.183.66/v3/connect with token jhh9rx4zmgkrw2mz8mkvsmlnnx6q5jllnqb8jnr2vdxcgglglqbdjz"
time="2022-04-06T03:42:22Z" level=info msg="Connecting to proxy" url="wss://35.183.183.66/v3/connect"
time="2022-04-06T03:42:32Z" level=error msg="Failed to connect to proxy. Empty dialer response" error="dial tcp 35.183.183.66:443: i/o timeout"
time="2022-04-06T03:42:32Z" level=error msg="Remotedialer proxy error" error="dial tcp 35.183.183.66:443: i/o timeout"
35.183.183.66 為原 Rancher server IP
Rancher UI 顯示集群狀態(tài)為 Unavailable :
可以看出,Rancher server 的主機(jī) IP 發(fā)生變化后蚌父,Rancher agent 無(wú)法通過(guò)原來(lái)的 Rancher server IP 去連接哮兰,所以我們需要更新 Rancher agent 連接 Rancher server 的 IP 地址。
重建 Rancher agent
使 Rancher agent 連接到新 Rancher server IP
更新 server-url
因?yàn)?Rancher server 節(jié)點(diǎn)的 IP 地址發(fā)生變化苟弛,所以需要將 Rancher server 的 server-url 更新為正確的主機(jī) IP喝滞。我們可以從 Settings 中找到 server-url 的選項(xiàng)。
獲取下游集群的 kubeconfig
重新創(chuàng)建 Rancher agent 需要通過(guò) kubectl 連接下游集群膏秫,所以在操作前囤躁,首先獲取下游集群的 kubeconfig 文件。
可以從以下三種方式中任選其一:
- 如果已經(jīng)從 Rancher UI 上下載了下游集群的 kubeconfig荔睹。Rancher 已經(jīng)和下游集群失聯(lián)狸演,所以無(wú)法繼續(xù)使用 rancher api 連接下游集群。但可以通過(guò)切換 context 直接連接到下游集群 kube-apiserver僻他,繼續(xù)操作下游集群宵距,參考: 直接使用下游集群進(jìn)行身份驗(yàn)證(https://rancher.com/docs/rancher/v2.6/en/cluster-admin/cluster-access/kubectl/)
- 在 Rancher server 容器的 secret 中獲取,參考:https://gist.github.com/superseb/f6cd637a7ad556124132ca39961789a4
- 在具有控制平面角色的節(jié)點(diǎn)上生成 kubeconfig:
docker run --rm --net=host -v $(docker inspect kubelet --format '{{ range .Mounts }}{{ if eq .Destination "/etc/kubernetes" }}{{ .Source }}{{ end }}{{ end }}')/ssl:/etc/kubernetes/ssl:ro --entrypoint bash $(docker inspect $(docker images -q --filter=label=io.cattle.agent=true) --format='{{index .RepoTags 0}}' | tail -1) -c 'kubectl --kubeconfig /etc/kubernetes/ssl/kubecfg-kube-node.yaml get configmap -n kube-system full-cluster-state -o json | jq -r .data.\"full-cluster-state\" | jq -r .currentState.certificatesBundle.\"kube-admin\".config | sed -e "/^[[:space:]]*server:/ s_:.*_: \"https://127.0.0.1:6443\"_"' > kubeconfig_admin.yaml
重新生成 Rancher agent 定義
在 UI 中生成 API 令牌(User -> API & Keys)并保存 Bearer Token吨拗;
本例為: token-rfv84:86v2wxpzh8mtgvzxpsnwnvrx5nlc424tf8tvrnpzckdxdpt2vfltqq
在 Rancher UI 中找到 clusterid(格式為 c-xxxxx)满哪。如果不知道如何查找 clusterid,可以導(dǎo)航到首頁(yè)劝篷,點(diǎn)擊對(duì)應(yīng)的集群名稱哨鸭,此時(shí),瀏覽器地址欄將會(huì)顯示一個(gè) c-xxxxx 的 clusterid娇妓。
本例為: c-s8t7s
生成 agent定義(需要 curl, jq)
# Rancher URL
RANCHERURL="https://35.183.24.89"
# Cluster ID
CLUSTERID="c-s8t7s"
# Token
TOKEN="token-rfv84:86v2wxpzh8mtgvzxpsnwnvrx5nlc424tf8tvrnpzckdxdpt2vfltqq"
# Valid certificates
curl -s -H "Authorization: Bearer ${TOKEN}" "${RANCHERURL}/v3/clusterregistrationtokens?clusterId=${CLUSTERID}" | jq -r '.data[] | select(.name != "system") | .command'
# Self signed certificates
curl -s -k -H "Authorization: Bearer ${TOKEN}" "${RANCHERURL}/v3/clusterregistrationtokens?clusterId=${CLUSTERID}" | jq -r '.data[] | select(.name != "system") | .insecureCommand'
成功執(zhí)行后故慈,將生成一個(gè)執(zhí)行定義的命令,例如:
root@ip-172-31-6-210:~# curl -s -k -H "Authorization: Bearer ${TOKEN}" "${RANCHERURL}/v3/clusterregistrationtokens?clusterId=${CLUSTERID}" | jq -r '.data[] | select(.name != "system") | .insecureCommand'
curl --insecure -sfL https://35.183.24.89/v3/import/98bvp7cpc7m7xqccxqwsghbnb6pvm9b2lcz7jz4xlfdlsc9lh5tmv8_c-s8t7s.yaml | kubectl apply -f -
應(yīng)用定義
在具有 kubectl 和 kubeconfig 的主機(jī)上執(zhí)行上一步生成的重新配置 Rancher agent 的命令:
root@ip-172-31-6-210:~# curl --insecure -sfL https://35.183.24.89/v3/import/98bvp7cpc7m7xqccxqwsghbnb6pvm9b2lcz7jz4xlfdlsc9lh5tmv8_c-s8t7s.yaml | kubectl apply -f -
clusterrole.rbac.authorization.k8s.io/proxy-clusterrole-kubeapiserver unchanged
clusterrolebinding.rbac.authorization.k8s.io/proxy-role-binding-kubernetes-master unchanged
namespace/cattle-system unchanged
serviceaccount/cattle unchanged
clusterrolebinding.rbac.authorization.k8s.io/cattle-admin-binding unchanged
secret/cattle-credentials-6f51cbe created
clusterrole.rbac.authorization.k8s.io/cattle-admin unchanged
deployment.apps/cattle-cluster-agent configured
daemonset.apps/cattle-node-agent configured
驗(yàn)證
稍等片刻胁镐,cattle-cluster-agent 和 cattle-node-agent 將會(huì)重新運(yùn)行:
root@ip-172-31-6-210:~# kubectl -n cattle-system get pods
NAME READY STATUS RESTARTS AGE
cattle-cluster-agent-77f864c76f-qrjs2 1/1 Running 0 38s
cattle-node-agent-znrv5 1/1 Running 0 4s
業(yè)務(wù)集群狀態(tài)重新變?yōu)?Active:
后 記
非常不建議修改 Rancher server 的 IP 地址臼氨,甚至修改 server-url 也可能帶來(lái)隱患。
即使是單節(jié)點(diǎn)安裝的 Rancher server着绷,也建議通過(guò)域名注冊(cè)下游集群蛔钙,這樣后續(xù)可以從單節(jié)點(diǎn)遷移到高可用;或者在 Rancher server 節(jié)點(diǎn) IP 變動(dòng)后荠医,只需要修改對(duì)應(yīng)的 IP 映射即可吁脱。