9月30日,火山引擎官方微信公众号宣布豆包大模型1.6-vision版本正式上线。作为豆包大模型系列首个集成工具调用功能的视觉深度思考模型,该版本在多模态理解和逻辑推理方面实现显著突破,同时全面兼容Responses API接口。

这款创新模型通过独特的工具调用机制,能够将图像数据嵌入思维链条,实现对图片的精准定位、智能裁剪、点选标注、线条绘制、缩放调节及旋转调整等精细化操作。其采用仿生视觉推理路径,模拟人类"由面到点"的观察模式,在提升推理过程透明度的同时,确保图像处理的高效性和精确度。

豆包大模型1.6-vision的Responses API支持智能工具自主调用,有效简化智能体开发流程,可使代码量显著缩减,为开发者提供更高效的方案实现路径。相较于前代视觉理解模型Doubao-1.5-thinking-vision-pro,新版在综合使用成本上实现约50%的降幅,以更经济的投入获得更出色的性能表现。

