游乐游手机版
首页/AI热点日报/热点详情

k星!DeepSeek实现AI自动化操作浏览器

类型:热点整理2026-07-03
基于DeepSeek与browser-use工具,可实现AI自动化浏览器操作,替代传统xpath、正则等脚本编写。通过任务描述驱动,模型自动完成页面解析、交互与数据提取。示例中,DeepSeek-V2 5成功访问财联社并获取前十条资讯,结果自动输出为JSON格式,提升了网页抓取与数据收集效率。

利用DeepSeek实现AI自动化浏览器操作,正在成为提升网页抓取、自动化测试和数据收集效率的新路径。相比传统编写xpath、正则、CSS选择器脚本的方式,这种做法省去了大量繁琐的脚本维护工作。

今天要介绍的是一个在开发者社区中颇有影响力的工具——browser-use,并结合DeepSeek模型,来看看AI袋里是如何直接操作浏览器的。

star 34.6k!通过DeepSeek实现AI自动化操作浏览器!

先来说说为什么这个方向值得关注。试想一下,如果能通过大模型直接操作浏览器,是不是就省心多了?不需要再为每一个网页元素写精确的定位规则,只需告诉AI“去做什么”,它就能自己完成页面解析、交互和数据提取。这正是browser-use这类工具的核心价值所在。

开始使用

下面把整个流程拆解开来,从环境准备到实际运行,一步步梳理清楚。

1. 安装依赖

先确认一下你的Python环境,版本需要大于3.11。然后执行两行命令:

pip install browser-use
playwright install

第一行安装browser-use核心库,第二行安装它依赖的浏览器驱动程序。整个过程没什么特殊之处,按部就班即可。

2. 编写测试脚本

官方推荐搭配GPT-4使用,但如果考虑到实际成本,换成DeepSeek是完全可行的。说白了,模型只是做决策,只要它能理解任务、输出正确的操作指令,底层哪个模型差别不大。

这里选用硅基流动平台提供的deepseek-ai/DeepSeek-V2.5,API调用方式和OpenAI兼容,代码写起来很顺手。下面是一个实际可跑的示例脚本,目标是自动访问财联社电报,获取前十条资讯:

from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio

if __name__ == '__main__':
    llm = ChatOpenAI(model="deepseek-ai/DeepSeek-V2.5", api_key="api-key", base_url="https://api.siliconflow.cn")
    async def main():
        agent = Agent(
            task="打开财联社https://www.cls.cn/telegraph,获取前十条资讯",
            llm=llm,
            use_vision=False,
        )
        result = await agent.run()
        print(result)

    asyncio.run(main())

代码逻辑很直接:定义一个大模型客户端,然后创建一个Agent对象,把任务描述丢给它,最后运行并打印结果。这里use_vision=False表示不依赖视觉能力,完全靠模型理解网页HTML内容来完成任务——对纯文本信息抓取来说,这样成本更低且效果足够。

3. 运行脚本并查看结果

执行脚本后,browser-use会自动打开浏览器窗口,你能看到页面被依次访问、内容被提取的全过程。最终结果直接打印在控制台里。

从实际运行来看,返回的数据已经被自动整理成了JSON格式。这一点对后续的数据处理非常友好,不需要再额外解析html或做正则匹配。获取到的新闻标题、发布时间、内容摘要等字段一目了然。

注意: 本文中的示例代码和配置仅供参考,实际使用时请根据你的需求进行调整。

最后说一句,这种通过AI袋里操作浏览器的方式,真正解放的是那些重复性的、需要频繁改动定位规则的抓取任务。只要任务描述清晰,DeepSeek配合browser-use就能可靠地完成从页面打开到数据提取的完整链路。未来这类工具的应用场景只会越来越多。

来源:https://www.53ai.com/news/zhinengyingjian/2025030592701.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。