DeepSWE— Together.ai联合Agentica开源的AI Agent框架
deepswe是由together.ai与agentica联合推出的ai agent框架,基于qwen3-32b模型并通过强化学习训练构建。该框架在swe-bench-verified基准测试中表现优异,启用测试时扩展(tts)后准确率达到59.0%,未使用tts时pass@1准确率为42.2%,位居开源agent框架首位。该项目全面开源了模型训练数据、代码及评估日志,有助于开发者学习和优化agent技术,推动强化学习在软件工程领域的应用发展。
DeepSWE的核心功能代码理解与修改:能够解析并编辑现有代码,解决特定的软件问题或实现新功能。复杂问题处理:通过与环境的交互,解决如GitHub上的缺陷修复、新增功能实现以及调试等复杂的软件工程任务。自动化测试与验证:运行shell命令进行代码构建和测试,确保所提出的解决方案有效,并防止修改破坏原有功能。多阶段推理能力:在执行任务过程中具备多步骤推理和决策能力,逐步优化方案直至任务完成。DeepSWE的技术机制纯强化学习训练:完全采用强化学习(RL)从零开始训练,不依赖于监督微调(SFT)或更强的专有教师模型蒸馏。rLLM系统支持:利用rLLM框架进行后期训练,提供高效的数据管理与训练流程,支持大规模RL训练。稀疏奖励机制:仅当生成的代码补丁通过所有测试时才给予正向奖励,否则无奖励,促使模型追求高质量输出。测试时扩展策略(TTS):在测试阶段生成多个解决路径,并选择成功解决问题的路径,显著提升准确率。结合执行验证器与非执行验证器的优势,大幅提升性能表现。Kubernetes集成:为应对训练过程中的扩展挑战,集成了Kubernetes支持,实现容器的弹性调度与自动缩放,保障训练的高效与稳定。DeepSWE的项目链接HuggingFace模型库:https://www.php.cn/link/e04bc8909bb7969ae5488620e00f8c57DeepSWE的应用领域代码理解与重构:DeepSWE可自动分析并修改代码,快速定位漏洞、优化性能瓶颈及重构代码结构,从而显著提升代码质量。软件问题解决:能够高效处理GitHub上的各类问题、实现新功能并将复杂任务拆解为可执行的子任务,快速攻克各种软件难题。自动化测试与验证:DeepSWE可自动生成测试用例,执行代码构建与自动化测试,进行回归测试以确保软件稳定性,降低人工测试工作量。多阶段推理与方案优化:通过多步骤推理解决复杂问题,并不断迭代优化解决方案,在实践中积累经验,更好地应对未来挑战。开发辅助与团队协作:DeepSWE能为开发者提供实时代码建议与补全提示,协助项目管理和任务分配,促进团队合作与交流,提升整体开发效率。 相关攻略
FDUSD脱锚惊魂夜:币安生态稳定币的信任危机与系统性风险 2025年4月2日夜间,加密货币市场经历了一场突如其来的“压力测试”。由香港First Digital Trust Limited发行的美元稳定币FDUSD,在市场上演了惊心动魄的脱锚跳水,其兑USDT价格一度暴跌至0 8726美元。这场震
最近又折腾了下 Obsidian 的 Git 插件,虽然也有点麻烦,但它是适合我的。下面介绍下怎么配置和使用。 第一次使用 Obsidian 是在 2024 年,这是翻阅之前的文章 《Obsidia
这项由华为技术有限公司、南洋理工大学、香港大学和香港中文大学联合完成的突破性研究发表于2026年1月,论文编号为arXiv:2601 01426v1。研究团队通过一种名为SWE-Lego的创新训练方
12 月 27 日消息,科技媒体 NeoWin 今天(12 月 27 日)发布博文,报道称 AI 代码编辑器 Windsurf 本周发布 Wave 13 版,通过大幅升级多智能体工作流、性能可访问
NEO(小蚁区块链)旨在构建智能经济网络。NEO通过资产数字化和智能合约实现自动化管理,用户需在支持NEO交易的平台注册账户并获取数字货币,选择合适的交易对后,即可下单交易并确认。交易完成后,可在账户中查看NEO资产,或转移至个人数字储存中安全保管NEO。
热门专题
热门推荐
加密货币行业翘首以盼的监管里程碑,终于有了实质性进展。美国证券交易委员会(SEC)主席保罗·阿特金斯(Paul Atkins)近日证实,那份允许加密项目在早期获得注册豁免权的“安全港”框架提案,已经正式送抵白宫,进入了最终审查阶段。 在范德堡大学与区块链协会联合举办的数字资产峰会上,阿特金斯透露了这
微策略Strategy报告:第一季录得144 6亿美元浮亏 再斥资约3 3亿美元买进4871枚比特币 市场震荡的威力有多大?看看Strategy的最新季报就明白了。根据其最新向美国证管会(SEC)提交的8-K报告,受市场剧烈波动影响,这家公司所持的比特币在第一季度录得了一笔惊人的数字——144 6亿
稳定币巨头Tether的动向,向来是加密世界的风向标。这不,它向Web3基础设施的版图扩张,又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露,其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出,立刻引发了行业的广泛猜想。 采用D
基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol,日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议,在运营不到三年后,终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets(ILMs)——一
PAAL代币揭秘:深度解析Web3社区治理的核心钥匙 在去中心化自治组织的浪潮中,谁真正掌握了项目的话语权?PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介,更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币,用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票





