首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
模型之变引发数据质变,2025 外滩大会探讨数据处理新范式

模型之变引发数据质变,2025 外滩大会探讨数据处理新范式

热心网友
82
转载
2025-09-14

9 月 12 日,在 2025 Inclusion・外滩大会“Data meets AI:智能时代的双引擎”见解论坛上,产学界的多位权威专家给出了新解法:数据驱动了 AI 发展,AI 也让数据迎来了新一轮的进化,双引擎融合驱动才是演进方向。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

论坛由中国人工智能学会、上海交通大学与蚂蚁集团联合主办。

高质量数据构建成为大模型发展的新突破口

数据作为智能时代的第一引擎,正从辅助角色转变为核心驱动力。

复旦大学教授肖仰华指出,当前大模型发展正面临严峻的 " 数据墙 " 困境,无标签语料对模型性能提升的贡献日益减弱,更大规模数据带来的性能提升与所需的训练开销相比性价比显著降低。他认为,大模型数据科学需要从专家经验阶段发展到量化科学、直至自进化阶段。“大模型的数据实践需要屠呦呦式的研究,从海量杂乱的数据中提取出决定模型能力的关键成分”。

模型之变引发数据质变,2025 外滩大会探讨数据处理新范式

复旦大学教授肖仰华

肖仰华分享了通过语法复杂度指标和累积分布采样方法筛选高质量语料的实践,实验表明,从 100 亿个 token 的财经语料中仅筛选 20% 的高质量数据进行训练,对模型进行持续预训练,相比于全量数据持续预训练,在领域问答任务上的准确率提升 1.7%。

上海交通大学特聘教授翟广涛强调无论是精炼数据还是合成数据,都需要质量优先,而数据质量分析要从“体验质量”入手,考虑人的体验,也考虑机器的体验,进而在数据为中心的范式下进一步提升大模型性能。

海天瑞声 CEO 李科从产业实践角度分享了全球 AI 数据行业的发展趋势。他认为,数据产业正在经历从劳动密集型向技术密集型和知识密集型的重大转型。通过动捕数据、自动驾驶标注、思维链数据集等多个实际案例,李科展示了高质量数据如何服务千行百业。

上海库帕思科技有限公司董事长山栋明说,模型之变引领“数据质变”,他表示高质量数据集应满足 VALID²(鲜活度、真实性、大样本、完整性、多样性、高知识密度)要求,并详细介绍了语料数据在方法论、基础设施和行业生态三个方面的体系化重构探索。

技术创新推动数据价值释放

作为第二引擎,AI 技术正在深刻改变数据处理和利用的方式。

光轮智能总裁杨海波表示,具身智能对数据的需求量是大语言模型和自动驾驶的上千倍。合成数据是实现具身智能 Scaling Law 的重要基础,他强调,合成数据必须满足四个必备条件:真实的物理交互、人在环的示范、场景足够丰富和数据闭环验证。杨海波认为,“站在岸上学不会游泳”,机器人需要进入物理可交互的环境去获取物理世界反馈来优化模型。

蚂蚁技术研究院数据智能实验室负责人赵俊博认为,下一代 RL 训练法则应该从“对与错”转向“好与更好”。" 他探索的 "Rubric 即 Reward" 新机制,只需使用 5k 数据和 1 万条评分标准构建高效 RL 回路,就能摆脱对海量 SFT 数据的依赖,实现 " 品味对齐 "。他说,这种方法可以在人文、创意、情感等领域实现风格化生成,去除 " 机器味道 "。

LanceDB CTO 徐磊分享了开源多模态数据湖的创新实践。他介绍,与传统的 Parquet、ORC 等格式不同,新设计的 Lance 格式既是文件格式又是表格式,具备零拷贝数据演化和高效点查两大核心特性。徐磊举了 Runway ML 的案例,该公司将 PB 级视频数据导入 Lance 后,能够像使用 SQL 一样简单管理,实现 30 多位 AI 工程师在同一个主表上并行进行特征工程迭代。

NVIDIA 互联网解决方案架构高级总监陈川介绍了驱动生成式 AI 的高效数据处理创新,分享了从文本到多模态的 GPU 加速解决方案。

在圆桌讨论环节,专家围绕展开 Data Infra 的重构与机遇深入讨论。专家一致认为,随着计算范式的变化,数据处理技术无论主动还是被动,都需要重构与再定义。重构是为了解决已经面临的问题,再定义则是着眼于未来,解决可能面临的问题。

模型之变引发数据质变,2025 外滩大会探讨数据处理新范式

本次论坛展示了数据与 AI 双引擎协同发展的最新成果,为智能时代数据基础设施建设提供了参考和实践路径。与会专家表示,只有实现数据与 AI 的深度融合,建立完善的数据标准体系和质量评估框架,才能真正释放智能技术的巨大潜力,推动智能时代向更高层次发展。

来源:https://www.ithome.com/0/882/742.htm
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

鸿蒙版全民K歌焕新上线,客厅秒变专业K歌房
科技数码
鸿蒙版全民K歌焕新上线,客厅秒变专业K歌房

当在线 K 歌成为大众日常娱乐的重要方式,用户对音质、曲库、交互体验的要求也在不断提升。近日,鸿蒙版云视听全民 K 歌全新升级,登陆华为智慧屏 Mate TV,依托腾讯音乐娱乐集团强大的版权储备与

热心网友
12.08
穗好办鸿蒙版上线,政务服务掌上办更便捷
科技数码
穗好办鸿蒙版上线,政务服务掌上办更便捷

家人们看过来!穗好办 App HarmonyOS 5 版正式上线啦!鸿蒙 5 0 及以上系统可流畅使用,指尖办事体验直接跃升新维度!此外还有四大穗好办专属亮点等你来探索!鸿蒙级安全防护,为您的个人信

热心网友
12.08
vivo新品首发芝麻信用试用平台,800分以上用户优先体验
科技数码
vivo新品首发芝麻信用试用平台,800分以上用户优先体验

继芝麻信用牵手高德地图,打造全新线下信用服务体系后,芝麻信用信任生态再迎一位重磅伙伴。10 月 13 日,在 vivo X300 系列新品发布会上,双方正式宣布达成联合创新合作:芝麻信用正式成为 v

热心网友
12.08
2000元平板推荐:联想小新Pro GT全场景适配体验评测
科技数码
2000元平板推荐:联想小新Pro GT全场景适配体验评测

在当下竞争激烈的平板市场中,2000 左右的平板往往因成本限制难以在性能、便携、续航与智能体验上做到全面兼顾,而联想小新平板 Pro GT 却以“越级配置”打破常规 —— 搭载第三代骁龙 8 旗舰平

热心网友
12.07
荣耀MagicPad3 Pro发布:性能领先的安卓平板标杆
科技数码
荣耀MagicPad3 Pro发布:性能领先的安卓平板标杆

10 日 14 日,荣耀正式释放 MagicPad3 Pro 产品卖点,涵盖性能、生产力、互联、电量四大维度,全方位定义最强安卓平板。作为全球首款搭载第五代骁龙 8 至尊版芯片的平板,荣耀 Magi

热心网友
12.07

最新APP

史莱姆农场
史莱姆农场
休闲益智 03-31
凡人传说
凡人传说
角色扮演 03-30
恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29
暗黑之地
暗黑之地
角色扮演 03-28

热门推荐

OPPO Find X9 Ultra联名哈苏影像 4月21日重磅发布
网络安全
OPPO Find X9 Ultra联名哈苏影像 4月21日重磅发布

PChome 3月31日消息,OPPO官微官宣,OPPOx哈苏影像新品联合发布会将于4月21日晚19:00在成都举办,Find X9s Pro、Find X9 Ultra等新品将至。据了解,OPPO

热心网友
03.31
2026最新小红书官网登录入口与PC端访问地址
电脑教程
2026最新小红书官网登录入口与PC端访问地址

小红书网页版登录入口为https: www xiaohongshu com explore,支持扫码、手机号验证码及微信三种登录方式,首页默认瀑布流展示热门笔记,具备多维度内容检

热心网友
03.31
举证难与盗声困境:AI模仿维权路径指南
科技数码
举证难与盗声困境:AI模仿维权路径指南

两年前,谢添天发现自己的声音被一款APP“盗”走——用户输入文本,即可用他的音色生成以假乱真的AI声音。维权半年,因举证难度太高,最终以和解和对方致歉了结。两年后,一场大规模的联合发声,将AI盗声侵

热心网友
03.31
数字智能赋能正能量:网络媒体论坛探讨三个治理方向
科技数码
数字智能赋能正能量:网络媒体论坛探讨三个治理方向

来源:央广网3月28日至29日,以“发挥主流媒体引领力 激发多元主体创造力——共创繁荣网络内容生态”为主题的2026中国网络媒体论坛在河南郑州举行。网络媒体因技术而诞生,凭创新而繁荣。面对新一轮科技

热心网友
03.31
AI驱动CRM升级:企业级智能解决方案重塑付费模式
科技数码
AI驱动CRM升级:企业级智能解决方案重塑付费模式

当大语言模型与AgenticAI(智能体)从试验场进入企业级生产环境,SaaS行业的底层价值逻辑正面临系统性重估。这一轮变革的核心,正指向“AI CRM 2 0”的全面到来——它不再是传统CRM的功

热心网友
03.31