游乐游手机版
首页/AI教程/文章详情

Claude Code视觉桥接方案:全程Agent自动化执行

时间:2026-06-19 13:59
在ClaudeCode中接入DeepSeek时,模型缺乏视觉能力。通过KimiVisionAPI桥接,调用脚本将图片转为文字描述,实现图片识别。成本约0 012元 张。部署包括编写脚本、配置环境变量、更新CLAUDE md并授权免确认,使Agent自动处理图片。
在 Claude Code 中集成 DeepSeek 时,您会发现该模型并不具备图像识别能力。一旦遇到图片内容,它便会“失明”——无法解读错误截图,也无法分析设计稿。这在日常开发工作中无疑是一大痛点。 解决方案其实非常直接:利用 Kimi Vision API 作为“翻译官”搭建桥梁。当 DeepSeek 遇到图片时,它会触发一个脚本,将图片转化为文字描述,随后即可继续处理任务。成本方面,我使用的是 Kimi 的视觉模型,每张图片大约只需 0.012 元,性价比极高。 ## 背景 在 Claude Code 中接入 DeepSeek 模型时,该模型缺乏视觉识别功能。 一旦面对图片,它便无法理解报错界面或设计稿件,形成“视觉盲区”。 ## 解决思路 通过 Kimi Vision API 进行桥接,DeepSeek 在处理图片时按如下流程运作:触发脚本 → 获取文字描述 → 继续任务。 成本估算:使用 Kimi 视觉模型,每张图片约 0.012 元,经济实惠。 ## 第一步:部署脚本 将以下提示词提供给任意 AI Agent,由其自动生成脚本。请注意确认您使用的视觉模型厂商——本例以 Kimi 为例(提示词中已指定“查询 Kimi 的视觉模型”),若您选用其他厂商,请相应修改厂商名称。 ### 提示词 ``` 帮我写一个 Python 脚本:describe_image.py 功能: - 接收两个参数:图片路径、描述要求(文本) - 返回图片的文字描述 - 查询 Kimi 的视觉模型,调用它 API 来处理这个图片识别功能 要求: - 使用 uv run 执行,自动安装依赖 - API 调 OpenAI 兼容格式,base_url 是 https://api.moonshot.cn/v1 - 环境变量 MOONSHOT_API_KEY 读取 Key - 图片转 base64 嵌入请求 - 返回模型的回复内容 脚本保存到 ~/.claude/describe_image.py,并添加好执行权限 ``` ### 配置环境变量 在 `~/.zshrc` 文件中添加以下行: ``` export MOONSHOT_API_KEY="你的Kimi Key" ``` 执行 `source ~/.zshrc` 使配置立即生效。 ### 验证 执行以下命令进行测试: ``` ~/.claude/describe_image.py /tmp/screenshot.png "描述这张图" ``` ## 第二步:配置 CLAUDE.md 接着,将以下配置内容发送给 AI Agent: ``` 请在全局 `~/.claude/CLAUDE.md` 配置补充如下内容: ## 图片识别 如果你无法识别图片,立即调用: $ uv run ~/.claude/describe_image.py <图片路径> "描述要求" 例如:uv run ~/.claude/describe_image.py /tmp/image.png "描述一下这张图片,关注里面报错信息内容" 拿到描述后直接带入上下文继续工作,不需要告诉用户"我无法看图" ``` ## 第三步:授权该脚本免确认执行 最后,向 Agent 发送指令: ``` 请全局配置,后续调用该图片识别脚本时无需确认 ``` 完成上述配置后,DeepSeek 便具备了“看图”能力——当遇到视觉信息时,它会自动调用脚本将图片转换为文字描述,并继续执行任务,全程无需用户干预。该方案部署迅速、成本低廉,是目前非常实用的桥接解决方案。
来源:https://juejin.cn/post/7634074950072533011
上一篇AI Skill的查找安装与管理方法 下一篇AI应用开发:AI编程、大模型调用与智能体实践
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Windows Docker Desktop RabbitMQ生产级部署完整指南
AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言 在 Windows 本地开发环境中,直接安装 RabbitMQ 确实颇为周折:需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是,版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。 相比之下,借助 Do

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践
AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年,我们与福建制造企业合作较为频繁,发现一个非常突出的现象:超过80%的企业官网,产品参数仍然存放在PDF或图片中。AI爬虫?根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富,但在AI搜索这一全新战场上,它们几乎处于隐身状态。 一、一个正在发生的行业变化 A

阿里云Token Plan团队版功能价格与省钱购买指南
AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务,这一服务专为企业与开发者量身打造,定位为AI大模型订阅平台。通过引入Credits作为统一计量单位,将文本生成、图像生成等多模态AI能力纳入单一计费体系,同时无缝兼容主流AI编程工具及智能体(Agent)生态系统。其核心亮点包括:全

阿里云物联网.NET Core客户端位置信息上报
AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标,而位置数据的来源本质上是借助设备属性进行上传。换言之,若要让设备上报位置,您需先将其视为一个普通属性进行处理。 1)添加二维位置数据 操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据,点击添加,将

年阿里云服务器选型配置与网站部署全攻略
AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年,阿里云服务器生态已高度成熟,形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网,还是运营电商平台、进行应用开发,基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维,系统梳理2026年最实用的操作要点,帮助你少走弯路,让网