豆包1.6-vision上线:首款支持工具调用的视觉思考大模型
10月1日最新消息,火山引擎日前发布重磅产品——豆包大模型1.6-vision。作为豆包大模型系列首款支持工具调用的视觉深度思考模型,它在通用多模态理解和推理能力上实现显著突破,并创新性地引入Responses API接口,为客户提供更具性价比的高精度视觉理解解决方案。
技术资料显示,这款新产品独具特色地将图像处理能力融入模型思维链架构,可实现精准的图片定位、剪裁、点选、绘制线条、缩放及旋转等高级视觉操作。更引人注目的是,它创新性地模拟人类"先全局后局部"的视觉认知方式,不仅大幅提升了推理过程的可解释性,更能快速准确地完成各类图像操作任务。

值得关注的是,相比前代产品Doubao-1.5-thinking-vision-pro,1.6-vision版本在性能提升的同时实现了成本的大幅优化。以典型的32K输入输出场景为例,使用成本从原先的5.25元直降至2.6元,降幅高达50%。

回溯今年6月,火山引擎首次发布豆包大模型1.6版本时,就已凭借卓越的多模态思考能力在复杂场景理解方面崭露头角。如今1.6-vision版本的推出,标志着该系列产品在多模态AI领域的技术探索更进一步。
相关攻略
3月25日消息,《晚点 LatePost》独家获悉,自今年春节以来,字节跳动云计算业务火山引擎的豆包大模型日均调用量已超过 100 万亿 Tokens(词元),不到两个月上涨了超 60%。来自个人用
3月5日消息,字节火山引擎正式日前公布了 Doubao-Seedance-2 0 模型的定价标准,包含视频输入(视频编辑)是 28 元 百万 tokens,不含视频输入(纯视频生成)的价格是 4
2月13日消息,据36氪旗下《智能涌现》报道,字节跳动正持续推进自研芯片战略,其芯片研发团队规模已悄悄扩充至千人以上,仅 AI 芯片方向的研发人员就超过 500 人,CPU 团队约 200 人。报道
12 月 26 日消息,据火山引擎最新,在近日举行的 FORCE 原动力大会上,比亚迪与火山引擎宣布已在智能座舱领域达成深度合作。双方合作将豆包大模型深度融入比亚迪 DiLink 系统,实现了语音
12 月 18 日消息,据《科创板日报》今日报道,豆包大模型正与润欣科技、老凤祥联合开发 AI 眼镜,价格约在 2000 元以内,预计明年初上市。该 AI 眼镜由火山引擎提供 RTC 实时音视频和
热门专题
热门推荐
SophNet是什么 在人工智能应用竞争日趋激烈的今天,模型推理速度已成为衡量平台性能的核心指标,直接影响用户体验与商业效率。SophNet作为算能科技旗下的高性能云算力平台,正式推出其旗舰产品——DeepSeek满血极速版,为开发者提供行业领先的推理加速解决方案。 该版本最突出的优势在于其卓越的性
东风汽车召回近7万辆N6、N7车型。因油门踏板设计缺陷,长期使用后磨损可能导致踏板回位不畅,存在安全隐患。厂商将为召回车辆免费更换改进后的油门踏板总成,部分车型需同时更换制动踏板。
在《极限竞速:地平线6》的开放世界中,遍布全球的摄影地标不仅是玩家记录壮丽风景的绝佳地点,更是解锁游戏内丰厚奖励与成就的关键所在。游戏内总计设置了26个独特的摄影地标,将它们全部发现并拍摄下来,即可获得一份专属的惊喜奖励。如果你正在为寻找这些地标的具体位置而烦恼,这份详尽的摄影地标全收集攻略将为你提
最近,腾讯在桌面AI智能体(Agent)领域动作频频,接连推出了两款引人注目的产品:WorkBuddy和QClaw。它们都瞄准了同一个核心痛点——用AI视觉模型识别并替代那些繁琐、重复的键鼠操作。但仔细一看,两者的定位和实现路径却截然不同,一个像是为企业量身定制的“协同中枢”,另一个则像是面向大众的
当企业数字化转型步入深水区,对效率的追求已从单点自动化迈向构建全天候、全链路的智能化办公体系。7*24小时无人值守,不再是技术构想,而是全球数千家领先企业正在践行的业务常态。其核心引擎,是被称为“智能体(Agent)”的技术范式。它深度融合大语言模型与自动化能力,将传统数字员工从被动执行的工具,升级





