Anthropic这次可谓是重拳出击,在深夜接连发布了两款重磅新品:Claude Sonnet 5,以及专为科研人员打造的AI科研工作台Claude Science。此外,Claude桌面版现已适配Linux系统,值得关注。
Sonnet 5的这次更新诚意十足,其性能直逼Opus 4.8,但最显著的提升其实体现在智能体(Agent)能力上。官方发布内容中包含了大量关于安全的讨论,此处暂不赘述,我们重点聚焦于其实用价值。

至于Claude Science这款工具,多少还是透露了Anthropic的战略布局。毕竟目前A厂(Anthropic)内部模型的迭代速度极为惊人,倘若模型真的接近通用人工智能(AGI),那么将其应用于科研领域自然就成为了水到渠成的事情。
一、Claude Sonnet 5 深度解析
Sonnet 5直接从4.6版本跃升至5,跳过了中间诸多版本号。它能够自主制定计划、调用浏览器和终端等各类工具,并可在更长的时间跨度内独立运行。要知道,在几个月前,这种能力还只有体量更大、价格更昂贵的模型才具备。
过去,智能体(Agent)能力的飞跃大多体现在Opus系列上,Sonnet系列往往慢半拍。此次Sonnet 5显著缩小了这一差距,其整体性能已接近Opus 4.8,但价格却便宜不少。相比上一代产品Sonnet 4.6,它在推理、工具调用、编程和知识工作等关键领域,都实现了实质性的提升。

Sonnet 5即日起在所有付费套餐中全面开放:免费版和Pro版默认使用该模型,而Max、Team、Enterprise用户也能直接使用。开发者同样可以通过Claude API进行调用,模型代号为claude-sonnet-5。在上线初期,输入Token价格为每百万2美元,输出为每百万10美元,该优惠价格将持续到8月31日。此后将恢复常规价格,即每百万输入3美元、输出15美元。
有一点需要特别留意:Sonnet 5采用了新的分词器,处理文本的方式有所变化。相同的内容可能会被切分成更多Token,大致是原来的1到1.35倍,具体取决于你处理的内容类型。Anthropic表示,优惠价格已经将这一因素考虑在内,整体迁移成本基本持平。
Sonnet 5的实际性能如何?
Anthropic通过两项测试进行了对比:一项是考察智能体(Agent)搜索能力的BrowseComp,另一项是考察电脑操作能力的OSWorld-Verified。在不同的算力投入水平下,Sonnet 5相比Sonnet 4.6都有稳定的提升。在这两项测试中,Opus 4.8依然是精度最高的选择,但Sonnet 5以更低的价格提供了相当能打的性能水平。用户完全可以根据实际需求,在两者之间以及不同的算力配置之间做出权衡。


多家早期测试合作伙伴反馈,Sonnet 5在处理复杂任务时明显更有始有终。以往一些容易半途而废的场景,现在新模型能够完整跑完整个流程,并且经常还会主动检查输出结果,即便用户没有特意要求它这么做。
二、Claude Science:专为科学家打造的AI工作台
Anthropic还发布了Claude Science,这是一款面向科研人员的AI工作台应用。目前仍处于Beta阶段,但值得深入了解A厂是如何规划这款面向科研的AI工具的,下文将详细介绍。
科研工作本身其实相当繁琐:研究人员需要在数十个数据库之间频繁切换,每个数据库的结构和查询方式都各不相同;还要应对各种仅能通过专业工具才能打开的文件格式;日常工作流也常常在PubMed、Jupyter、R、集群终端这些工具之间来回切换,效率可想而知。
Claude Science将这些分散的工具整合进一个统一的研究环境,覆盖了科研工作的各个阶段:分析文献、执行多步骤研究、生成详细的成果,并能反复打磨图表和论文手稿直至达到可发表的水平。每一项产出都附带了完整的制作过程记录,方便研究者进行验证和结果复现。与Jupyter笔记本类似,用户可以在自己已有的工作环境中使用它,包括本地的macOS或Linux系统,也可以通过SSH连接远程机器,或者直接登录高性能计算(HPC)集群节点。
用户面对的是一个统筹型主Agent,其后端接入了超过60个针对基因组学、单细胞分析、蛋白质组学、结构生物学、化学信息学等领域预先配置的技能和连接器。这个主Agent还能调用其他Agent,也能与用户自己创建的专业Agent协同工作。同时,还有一个审核Agent专门负责检查引用和计算过程,发现错误时会进行标注并修正。
Claude Science目前已向Pro、Max、Team和Enterprise用户开放公开测试。
下载地址:
https://claude.com/product/claude-science

具体使用方法

生成可复现的科研产出物。 科研工作高度依赖可视化呈现,因此Claude Science在生成图表和论文手稿的同时,也会保留生成它们所用的代码。它能够原生展示3D蛋白质结构、基因组浏览器轨道、化学结构式等多种科学内容形式。用户可以直接与Agent讨论图表或手稿的具体细节,在图上添加批注,Agent据此理解需要修改的地方,直至内容达到可发表的水平。
每次生成图表,Claude Science都会附带生成所用的具体代码和运行环境、一段用通俗语言描述的生成过程说明,以及完整的对话记录。这样一来,即便过了几个月,科研人员也能清楚知道使用了哪些输入数据,方便验证和复现。用户可以用自然语言要求修改图表,例如去掉网格线,或者将坐标轴改成对数刻度,Agent会自动修改对应的代码。
自动管理算力,按需扩展。 折叠一个蛋白质结构,或者在海量数据集上运行一套基因组学流程——这类大型分析以往需要科研人员自己花费时间搭建计算任务、等待任务排队进入集群、检查任务是否成功、再将结果取回。Claude Science将这一整套流程接管过来:首先提供一份计划,在动用新的计算资源前会先征求用户同意,并允许用户在任务提交给计算资源前随时查看或撤销任何一项决定。之后,它会将任务编写好并提交到实验室现有的计算资源上——可以是经过SSH连接的自有HPC集群,也可以是Modal账户提供的按需算力,分析规模能够从单个GPU扩展到上百个。
由于Agent是在一个保持上下文记忆的运行会话中工作的,即使是体量巨大的数据集也只需加载一次。它运行在实验室自己的基础设施上,无论是笔记本电脑、Linux主机还是HPC登录节点,这意味着大型或敏感的数据集无需离开它们原本所在的系统,每一步分析只会将必要的上下文发送给Claude。在流程运行过程中,审核Agent会持续检查产出,标记出引用错误、无法追溯来源的数字,以及与底层代码对不上的图表,并随时进行自我纠正。用户还可以在任意节点将会话分叉,对比两种不同的分析方案,而不会丢失原来的工作线程。

预置各学科领域,开箱即用。 科学知识分散在成百上千个专门的数据源中。以生物学为例,相关数据可能分散在UniProt、PDB、Ensembl、Reactome、ClinVar、ChEMBL、GEO等资源中,每一个都有自己独特的数据结构和查询语言。此外,还有大量信息散落在期刊、预印本平台以及各个领域专用的开放模型中。用户只需用自然语言提出问题,专用Agent便会自动查询并整合这些来源的信息,无需用户逐一去摸索每个数据库的用法。Claude Science使用了NVIDIA BioNeMo Agent Toolkit中的技能,原生连接到BioNeMo生命科学模型库和工具集,包括Evo 2、Boltz-2和OpenFold3。

许多科学家本身就有自己信赖的模型、数据集和分析流程,Claude Science也能接入这些资源:可以将任意一套分析流程保存为可复用的技能,或者通过连接器接入实验室常用的工具,未来的会话会自动继承这些设置。这种可定制性让研究者能够在同一个对话中,同时使用Claude、自己的私有数据,以及一直使用且经过验证的工具。
内测案例
在过去几个月中,已有科研人员在公开测试阶段利用Claude Science完成了一系列富有成效的工作:单细胞RNA测序分析、CRISPR筛选设计、蛋白质结构预测、化学信息学分析等。
专注于设计组织靶向药物的公司Manifold Bio,使用Claude Science为最新一批实验筛选靶点。这类药物需要精确地找到特定器官或细胞类型,确保药效集中在目标区域、减少对全身其他部位的影响。团队需要同时观察数百万候选结合分子在数百个靶点上、在活体中的分布情况。针对每一种组织和靶点,Claude Science会评估候选分子的表面表达、转运特性和安全性,并按照Manifold从其自身私有数据中总结出的标准对候选分子进行排序。Manifold方面指出,与一般的代码助手相比,Claude Science最大的优势在于能够端到端地完成整个流程,自主收集合适的数据,并结合过往项目积累的经验做出恰当的判断。
艾伦研究所(Allen Institute)的神经科学家Jérôme Lecoq,利用Claude Science搭建了一套多Agent的计算综述写作模板,其中包含大约20个为撰写长篇综述而专门定制的技能。子Agent负责通读成千上万篇论文,提取核心论点和关键的量化结论,存入一个证据数据库中。随后,整套流程会构建出叙事框架,逐节撰写综述内容,每一节都交给专门的子Agent处理;每一节内部还会有专门的Agent直接从证据数据库生成跨研究的量化对比图表。这套流程的一个关键设计是采用了生成方和评审方相互配合的模式:一个Agent负责生成内容,另一个独立的评审Agent负责核查内容的准确性和引用的可靠性。
在采用Claude Science之前,Lecoq团队撰写这样一篇综述可能需要花费两年时间。而现在,他已经完成了大约10篇综述,许多篇都超过100页,引用也都经过了评审Agent的核查。团队目前正与领域专家合作,进一步打磨这套基于AI的评审Agent。
加州大学旧金山分校(UCSF)脑肿瘤中心的副教授兼流行病学家Stephen Francis,使用Claude Science支持胶质瘤分子流行病学相关的研究。胶质瘤是一种起源于脑部胶质细胞的原发性肿瘤。他的实验室正在研究数千个小效应种系变异是如何共同作用、影响个体患病易感性的。这项研究在Claude Science出现之前就已经在进行,但Francis提到,这款应用极大地加快了分析速度,使得团队能够以此前大约十分之一的时间,完成跨多种方法的全面种系分析。团队对Claude Science的结果进行了独立验证,确认它既能快速完成分析,又能确保结果的可靠性。
使用方式
Claude Science目前在macOS和Linux系统上向Pro、Max、Team、Enterprise用户开放公开测试。Team和Enterprise用户需要由管理员开通才能使用。Anthropic还面向学术机构和非营利科研组织的活跃实验室,推出了折扣版的Team套餐。
