游乐游手机版
首页/科技数码/文章详情

AI赋能科学发现:如何突破数据壁垒攻克研究难关

时间:2026-01-06 11:01
人工智能与科学研究正在深度融合,深刻塑造科学的未来。去年11月,美国总统特朗普签署行政命令,启动全新国家计划“创世纪计划”,旨在整合美国超级计算机和独特数据资产,利用人工智能变革科学研究方式、加速科

人工智能正在与科学研究实现深度交融,重塑着科学未来的面貌。

去年11月,美国启动了一项名为“创世纪计划”的国家级战略,旨在整合其顶尖的超算资源与独特的数据资产,利用人工智能变革科研范式,加速科学发现进程。无独有偶,英国同期也发布了其AI for Science战略,规划了15项具体行动,以巩固其在人工智能驱动科学突破领域的全球领导地位。

近日,多位青年科学家在上海的一场AI for Science座谈会上不约而同地指出,数据壁垒已成为该领域发展的核心痛点之一。人工智能不仅需要海量数据,更需要多样化的高质量数据。缺少足够的数据“原料”,就如同巧妇难为无米之炊,难以训练出有效的模型。AI for Science的征程亦不应止步于科研发现,而应选择那些兼具产业基础、技术优势和数据积累的领域先行先试,探索从研究到应用的市场闭环。

没有数据“下锅”,就难以炼出好模型。

新能源汽车已成为我国经济发展的重要引擎,而锂电池是当前的主流技术路线。固态电池作为下一代电池技术的突破方向之一,采用固体电解质替代传统液态或凝胶电解液,具有高能量密度和高安全性的显著优势。

上海交通大学副教授、未来电池研究中心执行主任万佳雨长期从事固态电解质研发。他坦言,尽管当前新材料层出不穷,但在固态电池领域,真正有应用前景的材料不过十余种,若按大类划分仅有寥寥几类。“在模型训练中,如果没有足够的数据‘下锅’,就难以训练出一个好模型。”

在生物领域,蛋白质是生物制造的底层材料。过去,开发一款成功的蛋白质产品高度依赖科学家经验,过程漫长且试错成本高昂,成功率偏低。由于蛋白质研发设计技术门槛高,导致优质供给不足,国际垄断现象严重,我国尤其面临着工业酶70%依赖进口的困境。利用AI高效设计蛋白质,关键在于攻克蛋白质功能预测难题,而数据则是重中之重。

“人工智能需要数据,不仅要求数据量大,而且要求数据的差异化程度高。上海交通大学特聘教授、天鹜科技首席科学家洪亮团队开发了AI蛋白质设计平台Venus。他们让大模型学习极端工况下的蛋白质功能,并以此辅助蛋白质设计,进而开发出全球首款由大模型设计且实现工业化生产的蛋白质。”洪亮解释道,这一策略的成功,完全依赖于底层数据的规模与质量。

为了解决数据问题,洪亮团队组建了全球最大的蛋白质数据库,收录了150亿条蛋白质序列,其中包含67亿条私有数据,既有来自马里亚纳海沟的深海蛋白质数据,也有中国大西北盐湖的蛋白质数据。

“我们在数据层面遇到的核心痛点并非数据获取难,而在于数据高度非标准化。”洪亮表示,各方提供的数据格式各异,缺乏统一规范。为了清洗每一条序列并进行标准化标注,团队为65亿条蛋白质数据打上环境标签,才将原始的“杂乱”数据转化为可用的研究数据。

协同合作打破数据壁垒,探索市场闭环

数据采集、专业的标注与数据共享,是推进AI for Science不可或缺的关键要素。

“许多科学领域的专业数据并不公开,也缺少团队投入资源去完成那些繁琐的数据加工工作,但AI for Science的数据必须共享。”上海科学智能研究院副院长程远介绍,该院旗下的星河启智科学智能开放平台的数据广场已建成超过4万个高质量科学数据集,数据总量达12PB。

上海科学智能研究院的经验是构建多层次的人才体系:20多位专职数据工程师从事数据加工和批量化处理,200多位在校学生和聘用人员专职从事数据标注,1000多位众包人员承担数据校验和初级标注。除了丰富的科学语料资源和海量数据储备,平台的数据加工工具确保了数据质量和科研可用性,明晰的数据权属机制则推动了数据合规生产和开放共享。“我们与高校、企业合作,加工和开放了16个领域的专业数据。他们既是平台使用者,也是建设者,贡献了数据和模型。”程远说。

去年9月,上海人工智能实验室联合合肥实验室、临港实验室等12家国家实验室成立了上海科学智能战略科技力量联盟,同时吸引众多高校和科研机构加入,共同梳理联盟体系内的各学科数据,以打破数据壁垒。

上海人工智能实验室青年科学家、科学智能中心负责人白磊认为,要推动AI for Science取得实质进展,首先必须清晰界定人工智能,特别是通用人工智能(AGI)在科学领域的能力表现,系统解析不同学科和科研流程对AI能力的差异化需求,摒弃“胡子眉毛一把抓”的做法。与此同时,AI for Science在模型训练阶段投入巨大,海量数据整合与算力支撑必然要求集结更广泛的力量协同攻关,加强合作。

人工智能的赋能也不应止步于科学发现。上海大学材料基因组工程研究院副教授高兆和表示,AI for Science要从科学研究落地工程,实现从研究到产业的贯通,否则任何技术突破都只是昙花一现。

在洪亮看来,AI for Science的发展有其客观规律,不同学科的商业化程度、数据积累和技术能力各不相同,应当选择兼具产业基础、技术优势和数据积累的领域先行先试,建立以智能体为核心的科研生态,探索从研究到应用的市场闭环。AI for Science的可持续发展必然依托于强大的生态系统,要通过生态链接,有效承接技术与需求,释放AI设计能力。在这一过程中,政府的角色应是引导、搭台、共建,待模式成熟后逐步有序退出。

来源:https://www.163.com/dy/article/KIJ554LO0514R9P4.html
上一篇英伟达Alpamayo系列AI模型发布,专注推理与自动驾驶辅助研发 下一篇现代汽车发布人形机器人新版本,拟2028年投入竞赛应用
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
津产氢能自行车亮相智博会:零排放续航80公里1分钟快速补能
科技数码 · 2026-05-30

津产氢能自行车亮相智博会:零排放续航80公里1分钟快速补能

在正在举行的世界智能产业博览会上,一款墨绿色的氢能源自行车成为了荣程集团展台最吸睛的存在——不少参观者路过时都忍不住停下来,仔细端详,甚至亲自上去试一把。说实话,在满场智能科技产品中,这个既低调又带着未来感的家伙,确实让人眼前一亮。 据现场工作人员介绍,这款氢能自行车一次充能就能跑大约80公里,日常

张维为:Manus并购被叫停 硬核管控守AI根基
科技数码 · 2026-05-30

张维为:Manus并购被叫停 硬核管控守AI根基

我国叫停Meta收购AI企业Manus的交易。张维为指出,该企业依托中国数据、算力成长后迁至新加坡变外企,依据进出口技术管理规定审核是守护核心资产的必要举措,硬核管控守住AI根基。

电投绿能拟投10万千瓦风电项目 合锻智能不涉及AI算力
科技数码 · 2026-05-30

电投绿能拟投10万千瓦风电项目 合锻智能不涉及AI算力

多家上市公司发布公告:利通电子与合锻智能澄清不涉及AI算力业务;电投绿能拟投建两个风电项目;獐子岛拟建设深海筏式养殖项目;精测电子控股子公司签订5 16亿元销售合同;中国建筑联合体中标高速公路项目;万隆光电拟收购中控信息100%股份。

英伟达三个月密集投资光子技术至少65亿美元
科技数码 · 2026-05-30

英伟达三个月密集投资光子技术至少65亿美元

英伟达正斥巨资布局光子技术,力求从底层突破AI大规模部署的能耗瓶颈。自今年3月以来,英伟达已向多家光子技术企业累计承诺投入至少65亿美元,成为这一新兴领域出手最为果断的战略买家之一。光子技术以光信号替代电信号传输数据,被业界视为打破AI基础设施扩张瓶颈的核心路径——这已不再是概念,而是正在落地的现实

2026年3000元预算手机推荐 荣耀600续航影像双突破
科技数码 · 2026-05-30

2026年3000元预算手机推荐 荣耀600续航影像双突破

2026年5月登场,荣耀600直接给3000元预算段的手机市场扔了一颗“重磅冲击波”——8600mAh超大电池、2亿像素全焦段4K Live影像、IP69K全维防护、0 98mm极窄四等边屏幕,四项核心配置几乎都做到了同档位顶格。国补后到手价仅2804元起,这在一众竞品中显得格外扎眼。以往这个价位,