首页 游戏 软件 资讯 排行榜 专题
首页
AI
火山引擎发布豆包大模型1.8:多模态Agent能力跻身全球第一梯队

火山引擎发布豆包大模型1.8:多模态Agent能力跻身全球第一梯队

热心网友
83
转载
2025-12-18


智东西
作者 ZeR0
编辑 漠影

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

智东西12月18日报道,今日,火山引擎在FORCE原动力大会上正式发布豆包大模型1.8及音视频创作模型Seedance 1.5 pro。评测数据显示,豆包大模型在多模态理解、生成能力及Agent能力上,已跻身全球第一梯队。

火山引擎总裁谭待称,截至今年12月,豆包大模型日均token使用量突破50万亿,较去年同期增长超过10倍。


目前其已有超过100家企业客户累计token使用量超过1万亿。


Seedance 1.5 pro音视频创作模型则实现了毫秒级的音画同步输出,支持多人多语言对话,口型对齐精准,而且生成的视频可展现出影视级叙事张力。

会后,谭待在接受媒体采访时进一步分享了Seedance 1.5 pro的优势,音画同步要不仅是声音和画面同步,还要做到与语义的同步,这需要很好的视频模型、大语言模型、语义模型作为基础,而豆包在这些领域均表现领先。

他透露,Seedance系列很快将上线“Draft样片”功能,通让预览视频更快,成本也更低。

一、豆包大模型1.8:更强Agent能力、升级多模态理解、更灵活上下文管理

作为豆包家族的最新旗舰模型,豆包大模型1.8(Doubao-Seed-1.8)面向多模态Agent场景进行了定向优化。


其工具调用能力、复杂指令遵循能力及OS Agent能力均得到增强,提升了模型在处理复杂任务时的规划与执行水平。


在视觉理解方面,豆包1.8的单次视频理解帧数从640帧倍增至1280帧。模型支持以低帧率理解超长视频,并能调用工具对关键片段进行高帧率理解。该能力可广泛用于在线教育、产品质检等场景中。


豆包1.8支持256K上下文,拥有更灵活的上下文管理,擅长复杂多步任务。


二、多模态理解、GUI Agent、数学与推理评测分数领先

在多项公开评测中,豆包1.8展现出具有竞争力的全面表现:在视觉推理、通用视觉问答、空间理解及视频理解等任务中,均获得最佳或接近最佳成绩;在通用智能体测评集BrowserComp上表现全球领先;在数学与推理等基础能力维度上,整体水平已接近全球顶尖的通用模型。


具体来看,在数学、推理和知识理解等核心基础能力维度上,豆包1.8的整体水平接近业界顶级通用模型。


该模型在多项复杂指令基准中保持了与业界领先模型接近的表现。


它还将能力验证扩展至由真实专家定义、具有明确经济价值的应用场景,包括教育辅导、客服问答、信息处理、意图识别、信息抽取以及多步骤复杂工作流等任务类型,验证了模型在真实使用环境中的适用性。


评测结果显示,豆包1.8具备业界领先的GUI Agent能力,在电脑、网页、移动端三类环境中,均展现出在不同系统和界面中执行多步任务的可靠性。


其搜索任务中表现同样突出,在多组公开Agent搜索评测基准中保持业界第一梯队水平,比如在BrowseComp-en基准测试中得分高达67.6,超过Gemini-3-Pro等其他顶级模型。


在Agentic Coding相关基准测试中,豆包1.8展现出了面向真实软件工程场景的稳定能力,表明其具备在真实开发环境中持续推进任务的Agent编程能力。


FinSearchComp和XpertBench的测评显示,该模型在处理金融商业相关任务时相对稳定和高效。该模型在WorldTravel多模态应用任务中得分达47.2,表明它在处理旅行规划、用户需求分析等真实场景需求时具有可靠性。


此外,豆包1.8在多模态推理任务中超越了前代模型Seed1.5-VL,在大部分任务中接近目前最先进的Gemini-3-Pro。

在被认为难度极高的视觉推理测试ZeroBench中,豆包1.8获得11.0的最高得分。


在通用视觉问答任务中,该模型在VLMsAreBiased基准测试中取得了62.0的分数,大幅领先其他模型。


豆包1.8在2D及3D空间理解的多个基准测试中表现优秀,在处理3D空间理解和复杂任务时,特别是在动态和复杂数据集上,表现出较好的适应性和推理能力。


在视频理解领域,该模型表现出色,尤其在视频推理、运动与感知、长视频理解等任务中展现出较强的适应性。它在动态场景和实时感知任务中也分数领先,展现了模型在复杂感知任务中的能力,尤其是在处理实时信息时的高效性。


豆包1.8在长视频理解任务中同样表现突出。


在视频处理中,它还实现了Token Efficiency的显著提升,既带来了更强的理解能力,又将提供更低延迟的实时视频处理体验。


豆包1.8通过引入多种Thinking Modes,嵌入了动态调节思考深度的能力。用户可根据任务的不同需求,灵活调整模型的推理深度和计算负载。


项目主页:https://seed.bytedance.com/seed1_8

部分为该模型研发构建的评测数据集已开源,或将在未来开源。

三、Seedance 1.5 pro:音画高精同步,支持多人多语言对话

针对日益增长的视频创作需求,火山引擎推出了Seedance 1.5 pro音视频创作模型。该模型不仅具备影视级的叙事张力,能够精准捕捉运动细节并细腻呈现人物情绪,更是展现出在音画高精同步方面的技术实力。


Seedance 1.5 pro采用创新的原生音视频联合生成架构,支持环境音、背景音乐、人声等多种元素,实现了毫秒级的音画同步输出。


在对白处理上,模型支持多人多语言对话,口型对齐精准,覆盖中文方言、英文及小语种,提升了视频内容的真实感与全球化创作潜力。


该模型可生成具有影视级叙事张力的视频效果。


为进一步降低创作门槛与成本,Seedance系列即将上线“Draft样片”功能。创作者可先生成低分辨率样片进行预览,其关键要素与最终成片高度一致,真正做到“预览即所得”。

数据显示,该功能可帮助创作者提升65%的整体效率,并减少60%的无效创作成本。


目前,个人用户已可在豆包、即梦AI等平台体验该模型。企业用户则可从12月23日起,通过火山引擎API接入Seedance 1.5 pro模型服务。


四、升级AI云原生架构,构建Agent规模化落地基座

谭待认为,传统的IT架构已无法满足Agent时代的需求,以模型为中心的AI云原生架构正在形成,并围绕Agent的开发与运营进行重构。


在Agent开发层面,火山引擎全面升级了企业级AI Agent平台——AgentKit。该平台覆盖了Agent从开发、部署到管控的全生命周期,旨在解决企业在Agent落地中面临的身份权限管理、模型确定性及系统集成等核心挑战。


在Agent运营层面,火山引擎推出了HiAgent智能体工作站。该工作站通过构建统一的企业AI任务调度中心、提供一系列开箱即用的通用智能体,以及支持个性化定制智能体应用,帮助企业实现Agent的规模化管理与应用。


此外,为降低企业使用门槛,火山引擎推出了业内首个“AI节省计划”。该计划覆盖所有按量后付费的大模型产品,通过阶梯式折扣,帮助企业最高节省47%的成本。


结语:从模型到基础设施升级,推动AI应用向复杂Agent生态演进

面向AI,火山引擎的AI云原生基础设施持续进化。


谭待谈道,通过从模型能力到基础设施的全面革新,火山引擎正在推动AI应用从单一的模型调用向复杂的Agent智能体生态演进,加速AI能力在各行各业的深度落地。

来源:https://www.163.com/dy/article/KH2RBVDD051180F7.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

真人级TTS语音合成系统:字级控制与毫秒级停顿技术
AI
真人级TTS语音合成系统:字级控制与毫秒级停顿技术

语音合成技术(TTS)近年来发展迅猛。如今,让AI流畅地朗读一段文字已非难事;真正的技术挑战在于,它能否像真人一样,精准掌控语句内部的节奏——该放缓时放缓,该停顿时停顿,该强调时能真正凸显出重点。 这正是当前语音合成技术发展的关键分水岭。在整体自然度和声音克隆方面,我们已经看到了显著进步。然而,当要

热心网友
05.13
对正义、责任与信念的追寻从未停止
娱乐
对正义、责任与信念的追寻从未停止

对正义、责任与信念的追寻从未停止 《寒战1994》海报。 出品方供图 历史的长河里,总有一些年份看似波澜不惊,却在无声处,悄然转动了命运的齿轮。 回望二十世纪九十年代上半叶的香港,表面秩序井然,但人心的流向与城市的未来,已然开始微妙的偏移。那些被反复试探的边界,共同编织成一种隐而不发的张力,弥漫在空

热心网友
05.01
《亢奋》婚礼戏:一把指甲剪的紧张45秒
娱乐
《亢奋》婚礼戏:一把指甲剪的紧张45秒

导读:Jacob Elordi的脚趾离锋利刀刃只有几厘米——这场戏的演员亲述现场有多悬。 【现场】刀刃贴肤的实拍 《亢奋》第三季那场令人屏息的婚礼戏里,有个细节你可能没注意到:演员需要手持一把真实的指甲剪,无限逼近Jacob Elordi的脚趾来完成特写。事后回忆起来,操作者依然心有余悸——道具组提

热心网友
04.27
CBS急救剧宇宙再扩张:医疗衍生剧开发中
娱乐
CBS急救剧宇宙再扩张:医疗衍生剧开发中

CBS拓展「消防+警长」双剧宇宙,正式布局医疗赛道 看来,CBS的“应急响应宇宙”版图正迎来新一轮扩张。一个暂未命名的全新医疗剧项目,目前已进入早期筹备阶段。其最大亮点在于,它将与已获得稳定收视的《烈焰国度》(Fire Country)以及今年3月首播即夺得当晚收视冠军的《警长国度》(Sheriff

热心网友
04.26
《匹兹堡医护队》S2E15:一场9点档的医疗剧实验
娱乐
《匹兹堡医护队》S2E15:一场9点档的医疗剧实验

HBO Max服务器负载飙升23%:一部医疗剧如何用单集引爆观众热情 9点档的叙事革命 《匹兹堡医护队》(The Pitt)第二季第15集“9:00 P M ”,选择了一个颠覆传统医疗剧套路的独特视角。它没有聚焦于急诊室常见的生死急救,而是将镜头对准了医院日常中极易被忽略的环节——医护交接班时刻,深

热心网友
04.26

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

2026年USDT交易软件排行榜:安全可靠的平台推荐与选择指南
web3.0
2026年USDT交易软件排行榜:安全可靠的平台推荐与选择指南

本文介绍了2026年主流的USDT交易软件,重点分析了币安、欧易和火币三大平台的特点与优势。内容涵盖平台安全性、交易功能、用户体验及费用结构,旨在为不同需求的用户提供选择参考。文中强调选择平台时应综合考虑资产安全、操作便捷性和交易成本,并提醒注意风险管理与合规操作。

热心网友
05.14
2026年USDT交易软件推荐:十大安全靠谱平台深度评测
web3.0
2026年USDT交易软件推荐:十大安全靠谱平台深度评测

本文介绍了USDT交易的基本概念与主流平台选择。USDT作为稳定币,其交易主要通过加密货币交易所进行。选择平台时需综合考虑安全性、流动性、手续费和用户体验。文中列举了当前市场认可度较高的几类交易平台,并提醒用户注意资产安全与合规操作,建议根据自身需求谨慎选择。

热心网友
05.14
哥本哈根大学新研究探索AI推荐系统如何消除偏见实现公平
AI
哥本哈根大学新研究探索AI推荐系统如何消除偏见实现公平

哥本哈根大学计算机科学系于2026年3月发布了一项具有里程碑意义的研究(论文编号arXiv:2603 12935v1),揭示了当前主流AI推荐系统可能潜藏的社会偏见风险。这项研究同时指出,一种高效且低成本的解决方案——提示工程,或许能成为破解这一难题的关键。 当您使用求职平台或新闻资讯应用时,背后的

热心网友
05.14
港科大团队创新图像修复技术:仅需千张训练图,视频生成模型效果媲美百万数据
AI
港科大团队创新图像修复技术:仅需千张训练图,视频生成模型效果媲美百万数据

照片模糊了、雨滴遮挡了画面、夜晚拍摄噪点过多……这些常见的图像质量问题,往往让人束手无策。传统的解决方案,就像请来一群专科医生:去模糊、去噪点、去雨滴,各有各的专长,但每个“医生”都需要海量的“临床经验”——动辄数百万张训练图片,才能达到可用的修复水平。 然而,一项由香港科技大学、哈尔滨工业大学深圳

热心网友
05.14
UBC与Vector研究院攻克AI资源管理难题 机器人低成本高效运行指南
AI
UBC与Vector研究院攻克AI资源管理难题 机器人低成本高效运行指南

这项由英属哥伦比亚大学(UBC)与Vector人工智能研究院联合主导的前沿研究,于2026年3月以预印本论文(arXiv:2603 12634v1)形式发布。研究团队创新性地提出了“预算感知价值树搜索”(Budget-Aware Value Tree Search,简称BA VT)框架,旨在攻克一个

热心网友
05.14