游乐游手机版
首页/科技数码/文章详情

模型之变引发数据质变,2025 外滩大会探讨数据处理新范式

时间:2025-09-14 14:41
9 月 12 日,在 2025 Inclusion・外滩大会“Data meets AI:智能时代的双引擎”见解论坛上,产学界的多位权威专家给出了新解法:数据驱动了 AI 发展,AI 也让数据迎来了

9 月 12 日,在 2025 Inclusion・外滩大会“Data meets AI:智能时代的双引擎”见解论坛上,产学界的多位权威专家给出了新解法:数据驱动了 AI 发展,AI 也让数据迎来了新一轮的进化,双引擎融合驱动才是演进方向。

论坛由中国人工智能学会、上海交通大学与蚂蚁集团联合主办。

高质量数据构建成为大模型发展的新突破口

数据作为智能时代的第一引擎,正从辅助角色转变为核心驱动力。

复旦大学教授肖仰华指出,当前大模型发展正面临严峻的 " 数据墙 " 困境,无标签语料对模型性能提升的贡献日益减弱,更大规模数据带来的性能提升与所需的训练开销相比性价比显著降低。他认为,大模型数据科学需要从专家经验阶段发展到量化科学、直至自进化阶段。“大模型的数据实践需要屠呦呦式的研究,从海量杂乱的数据中提取出决定模型能力的关键成分”。

模型之变引发数据质变,2025 外滩大会探讨数据处理新范式

复旦大学教授肖仰华

肖仰华分享了通过语法复杂度指标和累积分布采样方法筛选高质量语料的实践,实验表明,从 100 亿个 token 的财经语料中仅筛选 20% 的高质量数据进行训练,对模型进行持续预训练,相比于全量数据持续预训练,在领域问答任务上的准确率提升 1.7%。

上海交通大学特聘教授翟广涛强调无论是精炼数据还是合成数据,都需要质量优先,而数据质量分析要从“体验质量”入手,考虑人的体验,也考虑机器的体验,进而在数据为中心的范式下进一步提升大模型性能。

海天瑞声 CEO 李科从产业实践角度分享了全球 AI 数据行业的发展趋势。他认为,数据产业正在经历从劳动密集型向技术密集型和知识密集型的重大转型。通过动捕数据、自动驾驶标注、思维链数据集等多个实际案例,李科展示了高质量数据如何服务千行百业。

上海库帕思科技有限公司董事长山栋明说,模型之变引领“数据质变”,他表示高质量数据集应满足 VALID²(鲜活度、真实性、大样本、完整性、多样性、高知识密度)要求,并详细介绍了语料数据在方法论、基础设施和行业生态三个方面的体系化重构探索。

技术创新推动数据价值释放

作为第二引擎,AI 技术正在深刻改变数据处理和利用的方式。

光轮智能总裁杨海波表示,具身智能对数据的需求量是大语言模型和自动驾驶的上千倍。合成数据是实现具身智能 Scaling Law 的重要基础,他强调,合成数据必须满足四个必备条件:真实的物理交互、人在环的示范、场景足够丰富和数据闭环验证。杨海波认为,“站在岸上学不会游泳”,机器人需要进入物理可交互的环境去获取物理世界反馈来优化模型。

蚂蚁技术研究院数据智能实验室负责人赵俊博认为,下一代 RL 训练法则应该从“对与错”转向“好与更好”。" 他探索的 "Rubric 即 Reward" 新机制,只需使用 5k 数据和 1 万条评分标准构建高效 RL 回路,就能摆脱对海量 SFT 数据的依赖,实现 " 品味对齐 "。他说,这种方法可以在人文、创意、情感等领域实现风格化生成,去除 " 机器味道 "。

LanceDB CTO 徐磊分享了开源多模态数据湖的创新实践。他介绍,与传统的 Parquet、ORC 等格式不同,新设计的 Lance 格式既是文件格式又是表格式,具备零拷贝数据演化和高效点查两大核心特性。徐磊举了 Runway ML 的案例,该公司将 PB 级视频数据导入 Lance 后,能够像使用 SQL 一样简单管理,实现 30 多位 AI 工程师在同一个主表上并行进行特征工程迭代。

NVIDIA 互联网解决方案架构高级总监陈川介绍了驱动生成式 AI 的高效数据处理创新,分享了从文本到多模态的 GPU 加速解决方案。

在圆桌讨论环节,专家围绕展开 Data Infra 的重构与机遇深入讨论。专家一致认为,随着计算范式的变化,数据处理技术无论主动还是被动,都需要重构与再定义。重构是为了解决已经面临的问题,再定义则是着眼于未来,解决可能面临的问题。

模型之变引发数据质变,2025 外滩大会探讨数据处理新范式

本次论坛展示了数据与 AI 双引擎协同发展的最新成果,为智能时代数据基础设施建设提供了参考和实践路径。与会专家表示,只有实现数据与 AI 的深度融合,建立完善的数据标准体系和质量评估框架,才能真正释放智能技术的巨大潜力,推动智能时代向更高层次发展。

来源:https://www.ithome.com/0/882/742.htm
上一篇2025 外滩大会顺利闭幕:6 万余人现场参会,50 余项科技新成果首发亮相 下一篇富士推出 GF32-90mmT3.5 PZ OIS WR 中画幅电动变焦镜头新品
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
宇树验证具身智能新趋势核心战场不止于模型
科技数码 · 2026-07-01

宇树验证具身智能新趋势核心战场不止于模型

具身智能领域的竞争,正步入一个全新的发展阶段。近日,宇树科技正式发布了其WVLA2 0具身大模型,并公开展示了无需远程遥操的实机演示。这一举动向业界释放了一个明确信号:当前这场竞赛的核心壁垒,或许已不再是谁拥有更大的模型参数,而是谁的架构设计更为精巧、谁能更深度地实现软硬件一体化、谁能积累更海量的实

智元精灵G2机器人产线直播完成64828件成功率99.99%
科技数码 · 2026-07-01

智元精灵G2机器人产线直播完成64828件成功率99.99%

99 99%的任务成功率——这是智元机器人在6月23日至28日期间,将精灵G2机器人直接部署到真实的平板量产质检产线,并全程公开直播后,交出的最具说服力的答案。 让我们关注这场直播的硬核数据:连续64小时不间断作业,产线累计完成17625件产品检测,机器人累计执行64828次操作,任务成功率精确达到

纯电动Cayenne首秀保时捷驾驶中心全国路演
科技数码 · 2026-07-01

纯电动Cayenne首秀保时捷驾驶中心全国路演

保时捷正在加速推进其电动化转型战略。继纯电动Cayenne与Gen 3 Evo赛车在三亚街道赛共同亮相后,仅过了一周时间,这款全新纯电SUV便驶入中国专业赛道场景——这一次,地点换成了永久性专业赛道。 回顾2026年北京车展,保时捷首款纯电动Cayenne Turbo正式首发并公布了售价。新车提供两

AI工具能否成为高价志愿咨询纠纷的破局之道
科技数码 · 2026-07-01

AI工具能否成为高价志愿咨询纠纷的破局之道

广东高考成绩公布后,志愿填报这场“第二次大考”随即全面开启。对众多家庭而言,这或许比高考本身更令人心力交瘁——时间紧迫、信息庞杂、选项繁多,每一步都如履薄冰。教育部近日发布预警,严厉批评那些漫天要价的“志愿规划师”,直言其本质上就是忽悠。然而每年踩坑的案例仍屡见不鲜,网上信息真假混杂,不同机构给出的

头部企业全产业链布局锂电池回收循环
科技数码 · 2026-07-01

头部企业全产业链布局锂电池回收循环

近年来,伴随新能源汽车产业的爆发式增长,早期投入使用的动力电池正迎来集中退役高峰,锂电池回收行业因此进入一个至关重要的“窗口期”。这些退役电池中富含锂、钴等珍贵金属资源——尤其是被誉为“白色石油”的锂,正从地下矿藏逐渐转向我们身边的“城市矿山”,从“一次性使用”的线性消耗模式,迈向“循环再生”的可持