游乐游手机版
首页/科技数码/文章详情

K8S运维避坑:解决Calico频繁重启的3个关键步骤

时间:2025-11-19 17:53
今天分享一个 Kubernetes 部署时很基础又很容易踩的坑:网段规划。 今天分享一个Kubernetes部署时很基础又很容易踩的坑:网段规划。1 故障现象昨天在给社群的运维同行答疑时,一个运维

今天要聊一个Kubernetes部署过程中看似基础却极易踩坑的问题:网段规划。

这个看似简单的配置项,往往会让很多刚上手的朋友栽跟头。

1. 故障现象

昨天在帮社区运维同行答疑时,有位工程师说他刚部署的Kubernetes集群中,Calico组件一直处于CrashLoopBackOff状态,不断重启。

2. 解决问题

我首先让他用describe命令查看Pod的详细状态。

从截图来看,就绪检测失败了,无法连接到API Server。

为了尽快定位问题,我通过远程工具连接他的电脑进行操作。

我先查看了失败Pod的日志。执行下面命令:

kubectl logs -n kube-system calico-kube-controllers-775fd85945-bx8fk

查看到日志里的关键报错。

Get "https://10.224.0.1:443/apis/crd.projectcalico.org/v1/clusterinformations/default": dial tcp 10.224.0.1:443: i/o timeout

也就是说Calico控制器(calico-kube-controllers)在启动时无法访问Kubernetes API Server(10.224.0.1:443)。

Calico连接不上API Server。这基本上等同于网络"断了主干线"。

这时我已经初步判断可能是网络原因,检查了防火墙,结果都是关闭的,那很可能是Kubernetes网络问题。

在群友提供的截图中还有一个pod没有完全起来,那就是CoreDNS处于Running但未就绪(Ready=False)状态。

于是我顺手看了下CoreDNS的信息:

kubectl describe po coredns-757cc6c8f8-4t6qt -n kube-system

果然,熟悉的错误出现了:

Readiness probe failed: HTTP probe failed with statuscode: 503

这时候可以断定,问题不在镜像,也不在探针。整个Pod网络已经失联。出现503状态

接着我检查了主机IP,找到了最根本的原因:Pod网络和宿主机网络冲突了

群友初始化时将Pod网段设置为192.168.0.0/16,而他的宿主机网卡就在192.168.169.0/24,宿主机网段在Pod网段里。

这俩网段就重叠了!

3. 根本原因

最根本原因是网段冲突了,Pod流量被错误地送进了"虚拟网卡"

因为这次网段冲突,Pod想访问API Server时,路由表判断:"192.168?那是我Calico管的",于是流量被错误地送进虚拟网卡caliXXX,然后直接丢包。

最后让群友修改网段重新初始化后,Kubernetes集群所有的Pod都已正常运行。

4. 后续正确做法

为了避免这种坑,记住一个原则:Pod网段、Service网段、宿主机网段,绝对不能重叠。

Kubernetes的网络设计,本质上有三层独立的网段:每一层都要相互隔离、不重叠、不冲突。

5. 其他启示

本次排查过程,还可以得出下面三个启示:

Calico不停重启≠镜像问题,很多时候是底层网络冲突。先看CoreDNS、再查Calico路由表,能快速定位问题。网段规划要在集群初始化前定好,别用宿主机的同一段。
来源:https://www.51cto.com/article/829084.html
上一篇宝洁进博会对话:创新驱动中国日化全球化新蓝图 下一篇骁龙8Gen5跑分出炉:单核比肩Elite,多核性能更卓越
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
优必选CEO周剑:家庭机器人生态核心投入过半精力
科技数码 · 2026-07-01

优必选CEO周剑:家庭机器人生态核心投入过半精力

先说几个核心判断:优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上,直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进,现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景,另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛
科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛

6月30日,申银万国在光连接系列研报中重点指出,MPO光连接器领域的投资机会值得高度关注。通俗来说,随着AI算力集群持续扩张,光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件,如今它直接决定着链路插损、可

龙岗AR实景剧本游内测体验短板有效破解之道
科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上,区级部门一次性推出了7个AI“龙搭子”。其中,名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解,依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”,已在今年五一假期发布了内测版本。经过一个月市场验证后,该项目正式启动面向全社会的

南下资金6月30日净买入中芯国际与建滔积层板
科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日,南下资金持续大举买入港股,单日净流入金额高达58 95亿港元。接下来,我们直接盘点哪些个股获得资金青睐、哪些遭到减持: 净买入方面,中芯国际领跑全场,单日吸金19 33亿港元;建滔积层板紧随其后,净买入10 59亿港元;腾讯控股获得7 65亿港元净流入;智谱(02513 HK)也有6 5

电动汽车电池新国标7月实施热失控不起火不爆炸
科技数码 · 2026-07-01

电动汽车电池新国标7月实施热失控不起火不爆炸

自2026年7月1日起,两项关乎电动汽车安全的核心强制性国家标准将正式实施,为行业加装“安全锁”——《电动汽车安全要求》(GB 18384-2025)与《电动汽车用动力蓄电池安全要求》(GB 38031-2025)同步落地。此次标准升级,从整车架构与电池系统两大维度,精准填补了近年来多起事故暴露出的