尝试排错

起因是拉起某个pod的时候持续不断的错误边拉边寄,显示的不是image问题。

image-20240724104653156

尝试describe一下,发现调度,拉取,创建,启动似乎都正常

image-20240724104802500

这个时候就得去看日志kubectl log一下,

image-20240724104835975

???timeout???kubectl 正常能get不至于访问不到api,api是包正常的。

image-20240724104918625

那就是网络问题,先看一下插件,插件也正常。

image-20240724105000612

再看DNS,似乎有点问题,丢了master3的conredns???

image-20240724105033529

image-20240724105351232

image-20240724105355465

但是查询后这个pod的是属于master1的pod所以不是dns的问题,缺一个的问题后面再解决。
按着尝试手动再吃连接api服务器,草pod fail了,所以用不了,先标记

kubectl exec -it kcollie-pre-hook-install-crds-bdb4g -n kcollie-system -- /bin/sh
curl -k https://10.233.0.1:433

再check一下kube-system的pod

image-20240724110135451

md草了,有屎啊,节点二怎么就timeout了,相继的节点一三也爆屎了。

image-20240724111053894

image-20240724111922571

image-20240724112010432

看一下节点情况,感觉可以rollout整个kube-system,完蛋,怎么查个pod状态,查到整个kube崩了

image-20240724112656575

直接rollout所有

# 重启所有 Deployments
for deployment in $(kubectl get deployments -n kube-system -o jsonpath='{.items[*].metadata.name}'); do
kubectl rollout restart deployment $deployment -n kube-system
done

# 重启所有 StatefulSets
for statefulset in $(kubectl get statefulsets -n kube-system -o jsonpath='{.items[*].metadata.name}'); do
kubectl rollout restart statefulset $statefulset -n kube-system
done

# 重启所有 DaemonSets
for daemonset in $(kubectl get daemonsets -n kube-system -o jsonpath='{.items[*].metadata.name}'); do
kubectl rollout restart daemonset $daemonset -n kube-system
done

总算是起来了,然后有一个node还是not ready,估计是node3的某些pod还没好,但是报错还是

image-20240724125055556

不懂,node1的apiserver明明好好的,coredns也没问题。

image-20240724130355768

又死了,草啊啊啊啊啊啊啊啊啊啊。节点不知道为什么十分的不稳定,似乎不断崩溃重启,直接停机加内存。

估计上面的Error是不怎么影响的。。。。。。。。重启然后就没事了。