游乐游手机版
首页/AI热点日报/热点详情

火花思维离线标签与实时数仓的轻量级算法服务方案

类型:热点整理2026-07-01
在“双减”政策落地后,教育行业的竞争格局发生了根本性转变。过去依靠规模扩张和巨额营销投入的增长模式已难以为继,精细化运营成为生存与发展的关键。以火花思维为例,这家用户规模突破70万、业务覆盖全球100多个国家和地区的在线教育企业,必须在降本增效的压力下,持续高效地服务用户。这对技术团队提出了前所未有

在“双减”政策落地后,教育行业的竞争格局发生了根本性转变。过去依靠规模扩张和巨额营销投入的增长模式已难以为继,精细化运营成为生存与发展的关键。以火花思维为例,这家用户规模突破70万、业务覆盖全球100多个国家和地区的在线教育企业,必须在降本增效的压力下,持续高效地服务用户。这对技术团队提出了前所未有的挑战——如何在资源有限的前提下,保持高质量的用户体验。

火花思维的授课主要采用直播和真人互动AI模式,融合了老师的启发式引导与动画、游戏、教具等多元化教学手段。随着业务进入精耕细作阶段,基于用户分层、分群的算法服务需求日益增长。然而,开发周期不断拉长,模型线上发布的成本持续攀升——需求与供给之间的缺口越来越明显。

解决之道是什么?答案是摒弃传统复杂的MLOps大模型部署路径,选择一条“轻量级”的技术路线。具体而言,火花思维基于自研数据开发平台Athena,设计了一套以“离线预计算+实时特征组合匹配”为核心的算法服务方案。其目标非常明确:将开发周期控制在4个工作周以内,实现模型迭代与线上环境的解耦,使用成熟技术栈降低门槛,支持分析师自主开发,同时具备自动化定期重新训练的能力,确保模型能持续适应数据变化。

火花思维:基于离线标签知识库和实时数仓实现轻量级算法服务的技术方案

技术框架:离线和实时各司其职

这套方案的设计理念非常巧妙,可以概括为八个字:离线算好,在线查表。

离线模块承担“体力活”。它利用训练好的模型穷举所有可能的特征组合,提前计算出预测结果,生成一张“标签知识库”二维表(即哈希表),然后同步到Doris数据库中。这样一来,线上服务无需实时运行模型推理,只需从表中直接查询即可。

实时模块方面,链路为:Flink接入生产库数据,Doris计算用户实时标签,然后对同步进来的哈希表执行查询匹配,最终通过Flink将预测结果写回生产库,或者通过Doris的API接口直接输出,形成完整的闭环。

整套技术栈全部是“熟面孔”:Hive SQL、Python、Flink、Doris。没有复杂的框架,没有高门槛的部署环境,分析师也能轻松上手。这套方案之所以被称为“轻量级”,核心优势在于:绕开了模型线上部署的环境要求,规避了实时推理的计算压力;Doris的列式存储和压缩技术使哈希表存储成本极低;离线和实时解耦实现了故障隔离和敏捷迭代;依托Athena数据工厂的周期调度功能,可实现日、周、月级别的自动化模型重新训练,即使出现数据漂移也无需担忧。

当然,任何技术方案都有其代价。这套方案最大的挑战在于:哈希表的大小与模型性能之间存在着矛盾。表过大时,读写的技术难度和成本激增,方案的实际价值大打折扣;表过小时,能承载的特征和标签数量受限,模型表现又会受到影响。因此,如何在两者之间找到平衡点,成为整个方案成败的关键。

关键技术节点:四个核心动作,压缩表、保效果

为了在有效压缩哈希表规模的同时,保持模型性能,火花团队实施了四项关键措施。

第一,特征离散化。由于哈希表是存储载体,所有特征必须是分类变量。连续数值型特征需要通过分箱方法(如等频、等宽、聚类、决策树等)进行离散化处理。这一步的关键在于:在本地实验确定分箱阈值后,必须同时封装到离线的Hive SQL和实时的Doris中,确保两端处理逻辑一致,否则查表时会出现不匹配。

第二,标签筛选。并非所有特征和标签都具有高价值。低价值的特征在本地实验阶段可通过RFE、SHAP值等方法剔除;样本量过少或信息价值低的标签,则归入对应特征的“其他”标签中。这套逻辑已实现自动化:先用Hive SQL统计训练集中各特征下标签的样本量(对于集成树模型,单个标签最小样本量一般要求≥30),再结合SHAP值或树模型特征贡献度,进一步筛选出真正有价值的标签,将剩余部分合并到“其他”中。每次模型自动化重新训练时,标签筛选和合并逻辑都会同步更新,线上线下执行一致。

哈希表方案的核心矛盾就在这里——表的大小与模型性能无法同时达到最优。标签“剪枝”正是对抗这一矛盾的手段,在有限信息损失的前提下压缩哈希表体积。

第三,逐层“打印”哈希表。即使标签筛选做到极致,一旦特征数量超过6个,哈希表的规模仍然难以承受。为此,火花设计了一套类似Stacking思路的方案:将一个大模型拆解为若干子模型,将一个大哈希表拆分为若干子表。每一层使用5到6个特征进行训练,训练完成后预测对应的子哈希表;同时对训练集也进行预测,将预测结果与下一层的特征拼接起来,构建新的训练集,进入下一层模型训练,循环往复,直到所有特征用完。

本质上,这是将每一层(5~6个特征)的信息降维为离散标签,传递给下一层继续训练。在信息损失有限的情况下,完成整个模型的工程化部署。理论上可以无限延伸,但综合考虑工程复杂度和使用价值,火花建议控制在5~6层左右,覆盖20~30个特征,基本能保证不错的模型效果。

当然,拆表也有代价。集成树模型的一大优势是能够学习特征间的非线性关系,但分层打印的方式会导致跨层特征的非线性关系学习不充分。因此,前期对标签筛选越充分,每一层能容纳的特征量就越多;通过SHAP值分析特征间的交互作用,尽量将交互作用明显的特征放在同一层中,就能将这部分损失降到最低。

第四,采用历史“字典”代替哈希“字典”。离线标签知识库本质上就是一个“字典”,提前计算好所有特征组合的预测值,线上接收实时查询。但穷举哈希字典必然包含大量永远不会被查到的组合,造成资源浪费。对于某些业务场景,可以改用“历史字典”——只记录过去真实出现过的特征组合。

历史字典比哈希字典小得多,通常无需逐层打印,工程链路更短,可以一次性完成所有特征的模型训练和预计算,充分发挥树模型学习非线性关系的优势。但其局限性也很明显:如果某个特征组合中每个标签在训练集中都出现过,但该具体组合从未出现,那么历史字典就无法查到,而哈希字典可以查到。此外,历史字典的特征承载量存在上限,根据火花的经验,一般在40个特征左右,超过这一阈值,查询成功率会降至70%以下。因此,需要根据具体业务场景,回测历史查询成功率,动态选择方案。

实现案例:年化千万GMV,ROI超10

火花思维已基于这套方案在新签获客侧搭建了多套算法服务,效果十分显著。

分析师团队构建了标签集市层和宽表层,沉淀了各生产环节的用户特征,尤其是一批重业务逻辑的标签,为后续模型提供了100多个有价值特征。在此基础上,联合数仓为业务方提供了多个轻量级算法服务,例如试听课出席用户与老师匹配策略中的用户分层和老师评分算法、公海推荐系统中历史未成交用户的电销外呼排序等。分类模型的线上AUC稳定在0.7~0.8之间。

经过AB检验,这些算法服务共为公司带来年化近千万的GMV收益。而成本方面:模型开发部署成本约20万,全年服务器成本约40万(实时32万+离线8万),全年总成本约60万。ROI远高于10,这笔账非常划算。更重要的是,整套系统多个算法服务全年BUG次数不超过5次,维护成本极低。

总结与展望

回顾来看,这套方案的含金量在于:通过“离线预计算”规避了实时推理的压力,利用成熟技术栈降低了门槛,借助离线和实时解耦实现了敏捷迭代和系统鲁棒性,依靠周期性任务调度实现了模型的自动进化。同时,它充分发挥了分析师在日常分析中积累的业务理解,挖掘了用户画像资产的价值。模型“降维打印”从另一个角度看也是一种另类的“可视化方案”,能够向业务方展示各种标签组合在模型中的排序位次,提高了可解释性,降低了落地应用的门槛。

当然,其天花板也十分明确:哈希字典能承载的特征量在20~30个左右,历史字典最多约40个。这一上限决定了它无法支撑更大规模的特征工程,模型效果的上限是确定的。但从另一个角度看,对于大型企业而言,它能支持分析师为中短期运营策略提供敏捷的算法服务;对于中小企业来说,它提供了一条低门槛、可落地的技术路线,让千人千面不再只是大厂的专利。

来源:https://www.53ai.com/news/finetuning/2025030241758.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。