【故障公告】k8s集群2台32核64G节点服务器被释放造成全站故障

技术分享 6个月前 (11-08) 0 999+

非常抱歉，今天下午16:30-17:30左右，我们用阿里云ECS自己搭建的 k8s 集群，由于2台高配的抢占式实例被同时释放，造成全站故障，由此给您带来很大的麻烦，请您谅解。

16:33 左右，接到阿里云的短信通知，k8s集群中两台32核64G的节点服务器（抢占式实例）被释放。

【阿里云】尊敬的用户，您好！您的抢占式实例: i-bp1habzb9w4vokdzwhwt(kube-temp10-32c64g) 因库存变化, 即将进入释放状态

【阿里云】尊敬的用户，您好！您的抢占式实例: i-bp1e81o773w3yewsjtzh(kube-temp11-32c64g) 因库存变化, 即将进入释放状态

2台高配节点被同时释放，我们知道坏事了，因为高配节点上部署了很多 pod，突然释放根本来不及重新调度部署。

收到这个短信通知，预示着这两台服务器将在5分钟内被释放。

我们一边赶紧 drain 即将被释放的节点以触发这个节点上的 pod 被调度部署到其他节点部署，一边赶紧加服务器。

kubectl drain kube-temp10-32c64g --ignore-daemonsets --delete-emptydir-data

但是由于节点上部署的 pod 太多，根本来不及，当2台32核64G节点服务器被释放并且新服务器已经加入集群后，依然有大量 pod 没有成功部署到新的节点。

于是我们赶紧去恢复这些没能成功部署的 pod，在处理中我们犯了一个错误，没有优先恢复 dapr 的 pod，很多应用 pod 无法启动是因为 dapr 不能正常工作造成 pod 中的 dapr sidecar 容器无法启动。

在发现这个错误后，我们才去优先恢复 dapr 的 pod。

dapr 的 pod 中，有些没能正常启动，是因为个别节点的镜像加速有问题，有些是因为 pod 处于 Terminating 状态，但没有被调度重新部署。

我们一边解决镜像加速问题，一边强制结束这些处于 Terminating 状态的 pod，等 dapr pod 都恢复正常后，其他应用 pod 随后也很快恢复了正常。

到这时，园子才从故障中恢复正常，而时间已经到了17:30左右，故障已经1小时左右。

非常抱歉，这次故障给大家带来了很大的麻烦，我们会调整 k8s 集群的节点部署。

发表评论

评论已关闭。

痞子衡嵌入式：聊聊i.MXRT1024/1064片内4MB Flash的SFDP表易丢失导致的烧录异常

如何搭建基于surging的分布式直播流媒体

Wan2.1 t2v模型Lora Fine-Tune

K8s进阶之Deployment的更新&回滚

为React组件库引入自动化测试：从零到完善的实践之路

CatBoost算法原理及Python实现

当前内容话题

上一页： dotnet core微服务框架Jimu ~ 会员注册微服务

下一页：别再被多线程搞晕了！一篇文章轻松搞懂 Linux 多线程同步!

微

- 资讯
- 技术

【故障公告】k8s集群2台32核64G节点服务器被释放造成全站故障

相关文章