
豆包大模型1.6-vision于近日正式发布,这是该系列首款具备工具调用能力的视觉深度思考模型。新版本在通用多模态理解与推理能力方面实现显著提升,并已支持Responses API。
该模型引入工具调用机制,能够将图像内容深度整合至其推理链条中,实现对图像的精准操作,包括定位、剪裁、点选、画线、缩放及旋转等精细化处理。通过模拟人类“从整体扫描到局部聚焦”的视觉认知过程,模型在提升推理透明度的同时,进一步增强了图像分析与操作的准确性和效率。
在开发适配方面,豆包大模型1.6-vision支持Responses API,可自主决策并调用所需工具,有效减少智能体开发中的编码工作量,显著提升应用构建的灵活性与开发速度,为开发者提供更高效的集成体验。
相较于前代视觉模型Doubao-1.5-thinking-vision-pro,新模型在综合运行成本上降低约50%,在实现性能跃升的同时,大幅优化了资源利用效率,为多场景应用提供了更具性价比的技术支持。
