首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
模塑申城语料普惠计划2.0:转向“拼数据”,规模将超10PB

模塑申城语料普惠计划2.0:转向“拼数据”,规模将超10PB

热心网友
24
转载
2026-03-29

“语料数据正成为人工智能发展的重要胜负手。”

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

3月28日,在2026全球开发者先锋大会(GDPS)“语料筑基、智生时代”主题论坛上,上海市经济和信息化委员会副主任潘焱指出,当前人工智能发展正在加快进入应用落地阶段,特别是随着大模型、智能体等技术的持续演进,产业竞争正在从“拼算法”向“拼数据”转变,模型能力要提升,行业应用要落地,智能体要真正走进真实场景,越来越离不开高质量的语料。

本次论坛由全球开发者先锋大会组委会指导,全球开发者先锋大会组委会办公室、上海库帕思科技有限公司、上海人工智能实验室主办。

会上,由库帕思牵头推进的模塑申城语料普惠计划2.0正式发布,在原有基础上,将进一步聚焦“普惠、创新、链接”的总体要求,在原有的基础上,重点围绕科学智能重点提供“高真值、多模态、过程化”语料数据供给服务,并面向OPC(一人公司)群体提供更加轻量化、低成本的语料服务支撑。

据介绍,语料普惠计划2.0将为中小企业、高校师生、创新创业者提供低成本高质量的可持续语料供给,计划到2027年底链接服务500个创新主体,打造300个稀缺数据集,普惠提供语料价值不少于1.5亿,语料规模超过10PB(拍字节,数据存储量单位,1PB=1024TB)。


澎湃新闻记者 秦盛 摄

上海人工智能实验室青年科学家何聪辉指出,从通用数据走向科学数据,面临着数据封闭、标准缺失、模态复杂等多重挑战。

他表示,与互联网上公开传播的通用数据不同,大量科学数据属于私域数据,封闭程度极高。同时,科学数据模态丰富、专业性强、格式多样,且不同模态之间缺乏对齐,导致AI难以理解。此外,大量暗数据尚未形成有效的语料化,基础设施的不完备也使得数据和模型更多服务于人类科学家,而非AI智能体。

为破解这一问题,何聪辉提出打造科学数据基座“Sciverse”。该体系分为三层:最底层是通识层,包含书籍、文献、教材、代码等共识数据;中间是对齐层,通过人类可理解的方式将不同模态的数据(如序列与结构、注释等)进行对齐;最上层是演化层,包含轨迹数据、推理数据等Agent友好的数据,旨在让AI超越简单的问答,真正成为具备自主发现能力的“AI科学家”。

“如果说过去我们是在‘找油厂’开采原油,那么今天我们的任务是如何把已找到的‘油’精炼出来,这就像一场精细的数据加工工艺,炼数为力。”上海创智学院教授刘鹏飞用比喻解释了当前数据利用的新趋势。

刘鹏飞强调,数据供需矛盾日益凸显,能满足当前AI训练需求的高质量数据越来越少,获取成本也水涨船高。“不夸张地说,现在一条高质量数据的成本可能高达上千美元。”

面对这一挑战,刘鹏飞提出“优化法”的解决思路:“用算力去换数据,本质上就是随着技术能力的提高,变废为宝,把之前被忽略的数据‘捞’起来。这不是简单的数量收集,而是让数据真正可用。”他认为,数据决定了智能的上限和模型的最终能力,未来将是模型与数据“共进化”(co-evolve)的过程,每一代模型的成长都将挖掘出新一代的数据智能。

据介绍,围绕语料数据,上海已形成多层次的语料供给能力、建成了语料运营服务平台、营造了开放协同的产业生态。下阶段,上海将从三方面加强高质量语料供给,培育完善创新生态。

一是聚焦技术发展的新需求,加快数据合成算法、动态价值观知识库的构建、数据投毒过滤算法等语料关键技术的攻关,打造语料全生命周期工具链;二是聚焦行业新应用,借鉴FDE模式(前沿部署工程师模式),深化实施语料专项治理行动,加快构建行业高价值语料,打造服务垂类模型训练的行业语料基座;三是聚焦OPC等新产业形态,打造标准化、轻量化的语料创新产品,打造适配多场景、兼具多专业性的语料服务模式。

来源:https://www.163.com/dy/article/KP709JEB0514R9P4.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

具身智能研发框架Dexbotic重塑机器人开发流程
AI
具身智能研发框架Dexbotic重塑机器人开发流程

近日,开源具身智能原生框架Dexbotic宣布正式支持以RLinf作为其分布式强化学习后端。对具身智能开发者而言,这不仅是一次普通的工程适配,更意味着VLA模型研发中长期存在的「SFT与RL割裂」问题,正在被真正打通。 这是一种典型的「乐高式协作」:双方不强行Fork、不粗暴揉合代码,而是保持清晰边

热心网友
05.13
RMS-MoE模型通过检索记忆优化专家路由调度效率
AI
RMS-MoE模型通过检索记忆优化专家路由调度效率

随着大模型参数规模不断增长,混合专家(Mixture-of-Experts, MoE)架构因其稀疏激活特性,成为平衡模型性能与计算开销的主流方案。然而,在实际的Web级应用部署中,一个关键挑战日益凸显:传统MoE的路由机制通常是“无记忆”的。 试想,在搜索引擎、智能问答或多轮对话等高并发场景下,用户

热心网友
05.12
编程入门指南从零基础到理解核心概念
编程语言
编程入门指南从零基础到理解核心概念

编程十年的一点分享 在软件开发的路上走过十几年,从一个爱好者到以此为业,有些体会或许值得聊聊,就当是抛砖引玉吧。 最早接触编程,是从BASIC和C语言开始的。工作后,随着需要,陆续学习了dBase、Access这类桌面数据库的开发。真正以开发为职业,可以说始于FoxPro 5 0,之后技术栈随着项目

热心网友
05.07
编程初学者入门指南与核心思维解析
编程语言
编程初学者入门指南与核心思维解析

引言 编程,是一门实践科学。这意味着,学习它的最佳方式就是动手去敲代码。但这是否意味着,我们可以因此轻视理论的学习呢? 入门编程 如果你去各大技术社区提问“该如何入门编程”,五花八门的答案会瞬间涌来。 不过,仔细梳理一下,无外乎以下几种流派: 学院派 他们推荐从C语言入手,并辅以数据结构、操作系统等

热心网友
05.07
Agent 需要“油表”和“刹车”:一篇论文,扒光了 Agent 的“糊涂账”
科技数码
Agent 需要“油表”和“刹车”:一篇论文,扒光了 Agent 的“糊涂账”

想象一下这个场景: 你让 AI Agent 帮你修一个代码 Bug。它打开项目,读了 20 个文件,改了改,跑了一下测试,没过,又改,又跑,还是没过……来回折腾了十几轮,终于——还是没修好。 你关掉电脑,松了口气。然后收到了 API 账单。 上面的数字可能让你倒吸一口凉气——AI Agent 自主修

热心网友
05.06

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

深度学习与生成式AI为人工智能工程师带来新机遇
AI
深度学习与生成式AI为人工智能工程师带来新机遇

短期课程 开发人员的ChatGPT提示工程 你将在本课程中学到什么 想用大型语言模型(LLM)快速构建强大的应用吗?《开发人员的ChatGPT提示工程》这门课,正是为你准备的。通过OpenAI API,你将能解锁那些在过去成本高昂、技术门槛高甚至无法实现的能力,快速将创新想法转化为价值。 这门短期课

热心网友
05.14
AI绘画工具志设:在线生成图片的智能平台
AI
AI绘画工具志设:在线生成图片的智能平台

志设是什么 在创意设计领域,灵感与效率往往难以平衡。是否存在一个工具,既能深度理解您的创意构思,又能迅速将其转化为高品质视觉作品?这正是专业级AI图像生成平台“志设”致力于解决的核心问题。 简而言之,志设是一个融合了前沿人工智能技术的综合性设计解决方案平台。它全面覆盖从平面广告、海报设计到网页UI、

热心网友
05.14
AI口语练习软件TalkMe帮你克服社交恐惧
AI
AI口语练习软件TalkMe帮你克服社交恐惧

对于渴望提升外语口语与听力水平的学习者而言,如何找到一个高效、便捷且能轻松练习的环境,常常是首要难题。今天我们要深入解析的这款产品——TalkMe,正是精准切入这一需求,试图通过前沿的AI技术,提供一种全新的语言练习解决方案。 简而言之,TalkMe是一款专注于跨语言学习的AI应用,其核心功能设计紧

热心网友
05.14
王牌机甲现代战争手游上班挂机下班称霸全攻略
游戏资讯
王牌机甲现代战争手游上班挂机下班称霸全攻略

当冰冷的钢铁巨兽被注入炽热的战斗意志,会碰撞出怎样的战略火花?《王牌机甲》这款游戏,将宏大的科幻叙事深度融入现代战争战术框架,为玩家开启了一段关于征服、策略与深厚羁绊的未来纪元。 在这里,你绝非孤军奋战。每一位通过招募加入的精英机师,都拥有独立的背景故事、专属技能树与独特的成长路线。游戏核心的“羁绊

热心网友
05.14
暗黑大天使技能分支系统解析 从基础技能树到高阶分支指南
游戏资讯
暗黑大天使技能分支系统解析 从基础技能树到高阶分支指南

《暗黑大天使》的技能分支系统提供元素、物理和辅助三大专精方向,玩家需根据角色属性与战斗需求选择分支。技能可投入资源升级并可能触发连锁效果,实战中需结合装备、敌人及团队配合灵活运用。该系统丰富了玩法,但需大量资源与多系统联动,选择需谨慎规划。

热心网友
05.14