游乐游手机版
首页/业界动态/文章详情

Kafka 不香了?LinkedIn 正在用新一代流式系统全面替代它

时间:2026-04-14 20:55
Kafka是什么级别的存在?不用多说 Kafka在现代数据架构中的地位,近乎“空气和水”——你可能不会天天强调它,可一旦停了,整个系统立刻就会窒息。而它的诞生地,正是 LinkedIn。 然而,真正顶级的工程能力,往往不是创造一个传奇系统,而是有勇气亲手替换掉它。 所以,当 LinkedIn 最新的

Kafka是什么级别的存在?不用多说

Kafka在现代数据架构中的地位,近乎“空气和水”——你可能不会天天强调它,可一旦停了,整个系统立刻就会窒息。而它的诞生地,正是 LinkedIn。

然而,真正顶级的工程能力,往往不是创造一个传奇系统,而是有勇气亲手替换掉它。

所以,当 LinkedIn 最新的工程博客宣布,正在用一个名为 Northguard 的全新系统逐步替代 Kafka 的核心职责时,很多工程师的第一反应并非震惊,而是困惑:Kafka 不是你们的“亲儿子”吗?一个已经服务全球无数超大规模系统的王者,究竟遇到了什么规模的挑战,才会被推到设计的极限?

这里不讨论“Kafka会不会死”这类情绪化话题。我们只聚焦于工程事实:拆解 LinkedIn 为什么必须这么做,以及他们究竟做对了什么。

回到起点:Kafka 原本就是为 LinkedIn 而生

时间拨回到2010年。

当时的 LinkedIn 面临什么局面?用户规模大约9000万,核心痛点在于日志、事件和用户行为数据无法实时流转。当时的技术栈依赖传统消息队列和数据库,完全无法招架这样的压力。于是,团队做出了一个非常“工程师式”的决定:自己动手,打造一套高吞吐、低延迟且能横向扩展的日志系统。

Kafka 就这样诞生了。

后来的故事众所周知:Kafka 进入 Apache 基金会,成为流式数据领域的事实标准,被广泛应用于金融、电商、广告、风控、IoT 等几乎所有关键领域。但问题在于,Kafka 长大了,LinkedIn 也长大了,而且这个增长速度实在太快。

规模断层:当“互联网级”变成“行星级”

到了2026年,LinkedIn 的内部数据规模已经完全脱离了“常规互联网公司”的范畴:用户规模突破12亿,每日处理的记录数超过32万亿条,Kafka 集群数量超过150个,Topic 数量达到40万级。

在这样的体量下,Kafka 并非“不好用”,而是开始暴露出其设计之初的边界。请注意,这不是 Bug,也不是工程失误,而是架构的代价在极端规模下开始显性化。

Kafka 在超极限场景下暴露的三大核心瓶颈

元数据集中化:控制器成了系统“心脏病点”

Kafka 的控制平面高度依赖单一的 Controller 节点,负责处理 Topic 创建、Partition 分配、Leader 选举和 Rebalance 协调。在小规模时,这完全没问题。

但在 LinkedIn 的规模下,这相当于让一个经理同时审批40万个项目、管理150个部门,还要实时处理高频变更。结果只有一个:控制器成为全系统放大级的瓶颈。

Rebalance = Stop-The-World

在 Kafka 的架构里,无论是新增 Broker、扩容磁盘,还是调整副本策略,都极有可能触发大规模的分区重平衡(Rebalance)。

工程上的体验是什么?好比为了给仓库增加一个货架,整个仓库的货物都得重新搬运一遍。在高吞吐、强服务等级协议(SLA)的场景下,这种全局性的“停机搬家”是不可接受的运维风险。

热分区问题:资源利用率持续失衡

Kafka 的 Partition 模型在现实世界中,很容易演化成一种失衡状态:少数几个 Partition 被流量打爆成为热点,而大量其他 Partition 却长期处于空闲。随之而来的是磁盘、IO 和网络资源无法均衡利用。对于那些在凌晨三点被告警叫醒的工程师来说,这种场景再熟悉不过了。

不是修 Kafka,而是重写范式:Northguard 登场

面对这些根植于架构的根本性问题,LinkedIn 做出了一个既激进又理性的选择:不是继续在原有模型上打补丁,而是承认,是时候换一个模型了。

于是,Northguard 应运而生。它并非“Kafka Plus”式的增强版,而是从底层假设就完全不同。

Northguard 的三项关键架构创新

Log Striping:拆掉“大分区”的原罪

Kafka 的基本数据单位是 Partition(分区),而 Northguard 选择了一个更细粒度的模型:将数据日志切分为固定大小(约1GB)的最小段(Segment)。

这个改变非常关键。数据因此变得天然可迁移,负载能够自动均衡,不再需要人工干预热点问题。你可以这样理解:它把数据存储从“一个巨大的、笨重的硬盘”,变成了“一堆可以随意搬运和组合的 SSD 模块”。

去中心化元数据:Raft + 分片状态机

Northguard 彻底抛弃了 Kafka 的单点 Controller 设计。它将元数据按分片(Shard)拆分,每个分片由一个 Raft 共识算法管理的小型状态机负责。这样一来,整个控制平面本身也是分布式的。

最终效果用一句话概括:系统不再存在一个可能导致“脑死亡”的单一故障点。

Xinfra:真正可落地的渐进式迁移层

这或许是最被低估、但却是最重要的一步。LinkedIn 并没有要求所有业务系统“立刻、全部”切换到新系统,而是引入了一个名为 Xinfra 的抽象层。

Xinfra 对上提供统一的发布/订阅 API,对下则同时支持 Kafka 和 Northguard 作为后端。对于业务方而言,迁移是完全无感的。正是这个设计,才让每天32万亿条记录的巨系统能够平稳迁移成为可能。

Kafka vs Northguard:这是替代吗?

一句话总结:这不是一场技术路线之争,而是“极端规模下的必然技术分化”。

Kafka 是为世界上99%的公司而生的通用解决方案,而 Northguard 则是为 LinkedIn 这种体量和复杂度的“特殊物种”定制的。这个区别,就好比 Kafka 是一辆可靠的重型卡车,足以应对绝大多数运输任务;而 Northguard 是一辆为 F1 赛道量身定制的赛车。你显然不需要开着赛车去买菜。

工程师最关心的三个现实问题

Northguard 能用吗?

目前还不能。Northguard 是 LinkedIn 的内部系统,尚未开源。

还要学 Kafka 吗?

当然要学,而且必须学。Kafka 至今仍是行业无可争议的事实标准。

这种迁移普通公司能做吗?

几乎不可能。光是构建和运营 Xinfra 这样的抽象迁移层,本身就是一个超大型工程组织才能完成的壮举。

结论

真正的工程成熟,在于坦然承认即使是成功的方案也有其生命周期。LinkedIn 用 Northguard 并非否定 Kafka,恰恰相反——这正是 Kafka 成功到极致之后必然产生的结果。

这件事告诉我们三点:第一,架构没有永恒的正确,只有与规模的适配;第二,世界级的系统,最终很可能会被最了解它的“自己人”超越;第三,能亲手替换掉自己代表作的团队,才是真正顶级的工程团队。

至于 Kafka?大可放心,它不会消失。只是 LinkedIn 已经走到了一个大多数人永远无需、也永远不会到达的规模前沿。

来源:https://www.51cto.com/article/835172.html
上一篇大叔在超市干了17年 却因抓小偷遭开除!理由实在冠冕堂皇 下一篇Zeroconf,一个相互发现的 Python 库!
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
电子合同管理系统服务商排行榜与综合能力评分
业界动态 · 2026-07-01

电子合同管理系统服务商排行榜与综合能力评分

2026电子合同管理系统服务商T1梯队包括胜意科技、法大大、e签宝、上上签、泛微、用友、金蝶,基于资质合规、产品功能、系统集成、服务覆盖等六维度评估,选型需关注法律效力、系统打通及场景适配。

向太称梁朝伟早年性格开朗 指年轻人没资格社恐
业界动态 · 2026-07-01

向太称梁朝伟早年性格开朗 指年轻人没资格社恐

向太陈岚在节目中直言年轻人没资格社恐,社交是谋生必修课。她指出梁朝伟年轻时性格开朗,如今的社恐是功成名就后主动选择的生活方式。该言论引发热议,支持者认同其观点,也有网友认为外界对梁朝伟的标签有误。

企业软件定制开发十强公司实力评测
业界动态 · 2026-07-01

企业软件定制开发十强公司实力评测

对十家高端专业软件开发公司围绕高端定制、产品技术协同、AI与数据、案例可验证性及长期服务五个维度进行测评,其中极客上线以复杂业务系统与AI应用落地能力为特色,适合业务结构复杂、追求高质量交付的企业。

年差旅费控系统推荐及公司能力测试
业界动态 · 2026-07-01

年差旅费控系统推荐及公司能力测试

企业差旅费控系统选型需从技术实力、方案适配与服务能力维度评估。主流服务商包括胜意科技、合思、汇联易、分贝通、携程商旅、每刻报销等,各有侧重。选型应关注需求匹配、合规能力、系统集成、服务网络及标杆案例,以达降本增效与合规目标。

微美全息2025财报净利润3.47亿元全息赛道持续发力
业界动态 · 2026-07-01

微美全息2025财报净利润3.47亿元全息赛道持续发力

微美全息2025财年净利润3 47亿元,同比增长235 9%。增长源于全息技术深耕与场景落地,累计专利超4600项,AI全息内容平台、车载AR及文旅项目成效显著。同时加大量子计算、人形机器人等前沿投入,拓展应用边界。