推动AI智能化演进的数据底座构建进程,正在以前所未有的速度加快演进。
1月16日,腾讯云正式发布全新AI数据湖解决方案,深度整合多模态数据湖与异构计算弹性能力,实现了从多模态数据处理到上层应用调用的全流程闭环。借助该方案中的产品能力,能够显著降低从数据处理到模型训练过程中跨平台协同的复杂度,为大数据与算法团队提供一体化、高效率的技术底座。

随着大模型技术从技术探索迈向与业务的深度融合,企业数据处理的重心已从传统的结构化数据,全面转向海量的图片与音视频、物联网信号,乃至巨量的智能交互数据。企业需要处理的数据不仅在类型和体量上都发生了显著变化,对数据的管理精细度、质量可靠性和流转敏捷性也都提出了全面升级的需求。
腾讯云发布的AI数据湖解决方案,以多模态数据湖 TCLake 与开源大数据平台 EMR 为核心,具备结构化与非结构化数据统一管理、CPU与GPU资源混合调度能力,能够轻松应对AI场景下数据管理复杂性和算力需求激增的双重挑战,力图为客户提供一站式的数智一体化底座,加速企业AI转型的落地进程。
TCLake 通过构建统一的数据表格格式,完美兼容视频、音频、文档及模型文件等全量多模态数据。这一特性实现了业务分析、数据工程与AI训练在同一套数据体系下的协同工作,从源头上消除了重复存储,显著降低了运维开支。在扩展性方面,TCLake 结合智能管理算子,通过自动化执行碎片文件合并与无效数据清理,确保数据高并发访问性能的同时,极大简化了数据治理流程与系统运维的复杂性。
EMR 承担着资源与作业统一调度的枢纽角色,随着业务边界的扩展,EMR 从传统大数据平台升级为数据智能计算平台,一方面需要加强对 Python 生态及各类工作负载的原生调度能力,特别是要能适配和支撑主流机器学习框架的分布式训练需求;另一方面必须改变CPU、GPU等资源独立管理、利用率不高的现状。其核心在于构建一个统一的资源调度层,能够智能地混合编排数据预处理与模型训练任务,让两类任务共享资源池,形成高效协同。
在此基础上,腾讯云还针对AI场景引入向量引擎进行数据加速,自研高性能引擎 Meson 在标准测试中实现了显著性能提升,降低了计算与I/O过程中的资源消耗。
目前,这套AI数据湖方案已在多个行业落地应用。在消费终端领域,客户通过平台处理店铺的实时管理数据,成功跑通了货架补货预警、店员操作规范修正等业务逻辑,使应用开发效率提升了20%。在具身智能场景中,客户将大量的第三方数据导入对象存储,通过 Spark 与 Ray 的协同架构完成图片模拟信号提取、处理、修正补偿、后处理等环节,有效过滤了无效噪声带来的资源损耗,直接为相关企业节省了约30%的算力消耗。
市场表现方面,腾讯云正持续发力Data与AI融合赛道。根据IDC 2025年发布的多项报告显示,腾讯云在AI大数据领域的市场份额及增速等指标上,已在多个细分领域处于领先位置。
