智源研究院1500天坚持原始创新与大模型深度对话

首页

热心网友

转载

2026-05-16

2024年上半年，OpenAI继续引领全球人工智能发展浪潮。从震撼业界的视频生成模型Sora，到首个实现多模态输入输出的GPT-4o，其迈向通用人工智能（AGI）的步伐坚实有力。面对显著的技术代差，“追赶OpenAI”似乎仍是这场AI竞赛中，许多参与者不言而喻的目标。

然而，AI技术本身仍处于高速演进阶段，尚存诸多关键性挑战亟待攻克。技术的前沿探索与研究范式，从来不止一条路径。对于中国的人工智能研究而言，简单跟随并非上策，视野也不应仅局限于海外巨头的动向。

事实上，国内从不缺乏具备前瞻视野的开拓者。几乎与OpenAI同期洞察到大模型的历史性机遇，成立于2018年的北京智源人工智能研究院，便推出了中国首个超大规模预训练模型“悟道”，并始终扮演着中国AI原始创新策源地的关键角色。一位悟道项目的早期核心成员曾透露，在这场浪潮中，智源最可贵之处在于其“前瞻性的战略眼光与果断的投入魄力”，在起步阶段便敢于倾注宝贵的经费与稀缺的算力资源。

历经六年发展，智源在近期举办的第六届北京智源大会上，清晰地展示了其全新的战略布局。与以往集中发布单一“悟道”系列模型不同，本次大会亮相的是一个覆盖多技术方向的“大模型产品矩阵”，包括大语言模型、多模态大模型、具身智能大模型和生物计算大模型。这一战略转变的背后，是今年2月新任院长王仲远带领团队，基于对AGI技术发展路径的深刻研判，对未来三到五年战略进行的系统性梳理与重构。

“智源不会去做各商业公司已在推进的、重复性的事情，”王仲远明确阐述了研究院的定位，“我们的核心使命是聚焦原始性创新，攻克产业界的关键技术痛点或前沿探索热点，真正为中国实现从0到1的技术突破。”

基于这一核心理念，在具身智能、生物计算等前景广阔但尚处早期的基础研究领域，智源选择了前瞻布局，打出“人无我有”的战略先手。例如，其推出的具身智能大模型，在机器人泛化操作与智能决策方面取得了世界级的研究突破。而在生物计算领域，则成功研发了全原子生物分子模型OpenComplex 2。

在竞争已趋白热化的主流技术赛道，智源则追求“人有我优”的差异化优势。当国内厂商竞相冲击万亿参数规模时，智源研发了全球首个高效低碳的单体稠密万亿参数模型Tele-FLM-1T。在多模态赛道，它并未跟风采用当前主流的扩散Transformer架构，而是坚定押注自回归技术路线，推出了原生多模态世界模型Emu 3，并配套发布了轻量高效的Bunny系列模型。

正如智谱AI CEO张鹏在大会上所言，智源已从最初的新型研发机构，成长为国内乃至国际AI基础研究领域的一面旗帜。它不仅为中国AI学术界和产业界奠定了重要的研究基础设施，更培养和输出了大批顶尖研发人才。而如今的智源，依然坚守其创立初心。“令人惊艳的技术突破不能只出现在大洋彼岸。”王仲远的这句话，或许正是智源当下所有行动的最佳注脚。

一、聚焦0-1的原始性创新

“大模型的许多核心思想与技术路径，正是从智源孕育和发展起来的。”百川智能创始人王小川的评价，精准点出了智源的独特价值。其非营利性科研机构的定位，使其兼具技术高度与行业智库角色，能够更纯粹、更专注地进行从0到1的原始创新。

攻克万亿参数大模型的收敛难题

训练万亿参数级别的大模型，无疑是今年各大厂商技术竞赛的焦点。模型规模的提升带来能力跃迁的同时，也带来了前所未有的训练挑战：内存需求暴涨、通信开销激增、系统性能瓶颈凸显，而最核心的难题在于——模型常常难以稳定收敛。因此，市面上已发布的万亿模型多为稀疏混合专家架构，真正实现单体稠密万亿参数的模型凤毛麟角。

当前的AI开源生态中，恰恰缺少一个稳定、可复现、性能优异的单体稠密万亿模型“基础底座”。王仲远指出，智源要解决的核心痛点正在于此。当业界需要训练更大规模模型时，无需再从零开始攻克收敛难题，开源社区中已有一个经过验证的良好初始化版本，后续只需基于更强的算力和更优质的数据进行迭代优化即可，从而避免整个行业重复“造轮子”。

面对巨大算力消耗这一核心挑战，智源联合中国电信人工智能研究院，创新性地利用模型生长与损失预测等关键技术，成功推出了全球首个低碳高效的单体稠密万亿语言模型Tele-FLM-1T，旨在显著提升训练效率、降低能源消耗。该模型与百亿级、千亿级版本共同构成了完整的Tele-FLM系列。

尤为值得称道的是其卓越的训练效率：仅以业界常规方案9%的算力资源，基于112台A800服务器集群，在4个月内高效完成了三个模型总计2.3万亿token的训练任务，全程实现了零调整、零重试，在算力能效与模型训练稳定性方面表现极为出色。

目前，Tele-FLM系列中的520亿参数版本及其核心技术已全面开源，万亿参数版本也即将面向社区开放。这套创新的模型生长策略未来还可能应用于异构芯片计算集群，并用于训练更复杂的混合专家模型，展现出广阔的应用前景。

探索不同于DiT架构的多模态新路径

如果说万亿参数是今年的技术热点之一，那么多模态无疑是最大的焦点。尤其在文生视频领域，以Sora为代表的扩散Transformer架构已成为主流技术路径。但智源选择了另一条更具挑战性的道路。

“DiT架构当然能做出可用的、产品级的模型，”王仲远坦言，“但如果我们的终极目标是打造真正服务于AGI的、统一的多模态大模型，我们认为自回归技术路线才是更优、更根本的技术选择。”

基于这一战略判断，智源研发了原生多模态世界模型Emu 3。该模型从设计之初就为统一的多模态生成与理解任务而生，采用自主研发的自回归技术路径，统一了视频、图像、文本等多种模态数据的处理方式。“这条路确实充满挑战，但这恰恰适合智源这样的国家级研究机构去探索。做原始创新必须尊重科学规律，同时也要接受失败的可能，即便探索失败，其过程也极具价值。”王仲远补充道。目前Emu 3仍在持续进行大规模训练与全面的安全性评估，未来将逐步向学术界和产业界开源。

同时，为满足端侧智能设备对轻量级模型的需求，智源推出了轻量级图文多模态模型系列Bunny。该系列模型参数量分别为30亿、40亿和80亿，采用灵活的模块化架构，支持多种主流视觉编码器与语言基座模型的灵活组合。综合多项国际权威基准测试结果，Bunny-8B模型的多模态综合能力可达GPT-4o性能的87%。该系列模型目前已全面开源，供开发者使用。

FlagOpen：构建大模型时代的“Linux”生态

智源的开源实践一直沿着两条清晰的主线推进：一是悟道系列模型本身的开源开放；二是将整个大模型技术栈体系开源，即建立FlagOpen大模型开源开放体系。

随着AI计算需求呈指数级增长，FlagOpen体系需要应对超大规模AI系统在异构计算、高速互联、弹性稳定等方面的严峻挑战。为此，智源推出了面向大模型训练与推理、支持多种异构算力的智能计算集群软件栈——FlagOS。

你可以将FlagOS理解为大模型时代的“基础操作系统”。它深度融合了智源在多元AI芯片关键使能技术上的长期积累，包括异构算力统一调度平台“九鼎”、大规模并行训练与推理框架FlagScale、高性能算子库FlagAttention/FlagGems等核心组件。向上，它无缝支撑各类大模型的训练、推理与自动化评测；向下，它高效管理底层的异构算力、高速网络与分布式存储资源。

目前，FlagOS已稳定支持超过50个顶尖团队的大模型研发项目，高效管理超过4600张各类AI加速卡，系统稳定运行超20个月，服务可用性超过99.5%。它的出现，旨在为新一代智算中心建设提供关键软件支撑，全面提升集群算力利用效率，加速中国大模型产业的整体发展。

二、布局“人无我有”的前沿领域

“大模型技术迭代速度极快，其中确实存在一些商业公司因投入回报不确定或资源所限而缺乏动力推进的前沿工作。”面壁智能CEO李大海的观察，揭示了AI前沿探索的另一面。在诸如具身智能、生物计算这些技术确定性较低但潜力巨大的“无人区”，并非所有玩家都具备入场条件和长期投入的决心。智源在此选择果断落子，抢占战略先机。

展望未来，作为数字世界基石的AI智能体，将向两个关键的物理维度延伸：一是进入实体硬件设备，成为能够感知和操作物理世界的“具身智能”；二是进入微观生命科学世界，与蛋白质、DNA等生物分子深度结合，即“生物计算”。

具身智能大模型的突破性进展

智源研究院具身智能创新中心已在机器人泛化操作与智能决策方面取得多项世界级突破：

在通用物体抓取能力上，其自主研发的ASGrasp技术成功攻克了跨形状、跨材质的泛化抓取难题，真机实验抓取成功率突破95%，已达到商业应用水平。即使面对透明、高反光、柔软等复杂特性的物体，机器人也能精准感知并成功稳定抓取。

在分级决策系统上，研发了SAGE智能决策系统。它能巧妙结合三维视觉小模型的几何感知能力与通用图文大模型的物体操作常识知识，使机器人在任务执行失败后能够自主“重新思考”，尝试新的交互策略以完成任务。

此外，团队还推出了Open6DOR物体位姿控制系统，不仅能像谷歌RT系列一样根据简单指令放置物体，更能对物体的6自由度空间姿态进行精细化控制。在端到端技术路径上，则发布了全球首个基于视频输入的多模态具身导航大模型NaVid，可直接根据环境视频和自然语言指令输出机器人控制信号。

面对新一轮的具身智能投资与研究热潮，王仲远也提出了“冷思考”：需以客观理性的态度看待前沿技术，接受其存在必然的技术成熟度曲线与发展周期，并保持战略定力持续投入，直至跨越周期迎来爆发。

生物计算大模型的领先探索

在微观生命科学领域，智源创新地将生成式AI应用于分子生物学，研发了全原子精度生物分子结构预测模型OpenComplex 2。该模型在预测蛋白质、RNA、DNA及其复合物三维结构方面处于世界领先地位，连续两年在国际权威蛋白质结构预测竞赛CAMEO中位居榜首，并获得了蛋白质结构预测顶级赛事CASP 15的RNA自动化赛道冠军。

科研人员进一步发现，OpenComplex 2不仅能够高精度预测生物分子的稳定静态结构，还初步具备了预测分子动态多构象及折叠过程的能力。这为生命科学家深入探索蛋白质功能、研究疾病发生机理提供了前所未有的强大计算工具。目前，智源已与多家顶尖医疗研究机构在多项重要疾病的基础研究上展开深度合作。

更为前沿的是，智源构建了全球首个实时孪生心脏计算模型，实现了高精度仿真下生物时间与仿真时间比小于1的重大突破。这是构建虚拟数字心脏研究的开创性开端。基于“物理机理-数据驱动”双驱动模型，未来有望根据患者的临床影像与生理数据，构建出高度个性化的“数字孪生心脏”，用于新型药物筛选、个性化治疗方案优化与外科手术术前规划，具有巨大的临床转化潜力与社会价值。

三、迎接AI研究的新范式变革

“如果三年前问我AGI还需多久实现，我可能会说需要50年。但亲眼目睹大模型技术近几年的爆炸式进展，我认为这个时间可以大幅缩短，或许20年左右就能看到曙光。”中国工程院院士、清华大学智能产业研究院院长张亚勤在智源大会上的这番分享，折射出业界对AGI加速到来的普遍乐观预期。

他进一步勾勒出AGI发展的阶段性蓝图：信息智能（涵盖语言、图像、视频的理解与生成）可能在0-5年内通过高级别的图灵测试；物理智能（在复杂物理环境中的理解、推理与操作）可能在0-10年内取得实质性突破；生物智能（与生命科学、精准制药等领域深度结合）则可能在0-20年内迎来重大进展。

AGI的临近，也在深刻倒逼AI研究范式的根本性变革。单纯依赖数据与算力堆砌的Scaling Law（缩放定律）恐怕无法最终抵达AGI的彼岸。从技术底层演进看，行业正从依赖海量手工标注的深度学习范式，转向通过自然语言重建视觉世界的生成式模型范式。Sora团队负责人与学术界的多次交流，也暗示着这种根本性技术路线的变迁正在发生。

技术在快速流变的同时，其可能带来的失控与安全风险也必须被提升到前所未有的高度予以重视。零一万物创始人李开复博士指出，如果过度依赖奖励模型进行对齐优化，完全让AI在复杂目标下自我博弈寻优，其失控风险可能会显著增加。从中长期看，可能需要“以AI之矛，攻AI之盾”——即用更先进、更可控的AI技术来解决AI自身带来的伦理、安全与社会挑战。

尽管前路充满无限可能性与严峻挑战，但回望2020年智源毅然启动“悟道”大模型研发的历史性时刻，它无疑是亚洲地区最早全力投入大模型基础研究的机构之一。“最初成立智源、决策启动悟道项目的战略眼光非常难得和领先，”王仲远总结道，“未来AI研究的视野必将更加宽广，而智源将继续作为促进中国AI基础研究生态繁荣的关键平台与推动者。”

通往AGI的道路依然漫长而曲折。王仲远预判，GPT-4之后的技术突破难度将呈指数级增加，对算力规模、核心算法创新、以及跨学科融合的要求会达到前所未有的高度。那将不再是一个简单的“技术追赶”过程，而是一场真正的“前沿突破”之战，需要全球研究者的共同智慧与不懈努力。

来源:https://www.leiphone.com/category/ai/LqUMGN3BTN3sZLyQ.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：魔形智能创始人徐凌杰获国际GPU高管加盟下一篇：AI行业动态：百图生科智子引擎获投Anthropic发布Claude3.5