智谱开源 GLM-PC 基座模型 CogAgent-9B,让 AI 智能体“看懂”屏幕
智谱开源全新智能体基座:CogAgent-9B 让AI真正“看懂”屏幕
昨天(12月26日),智谱技术团队在其公众号上扔出了一条重磅消息:他们开源了GLM-PC的基座模型——CogAgent-9B-20241220。这个模型基于GLM-4V-9B训练,专攻一件事:成为执行智能体任务的专家。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
先划个重点:这个模型有多特别?它只需要一张屏幕截图,就能开始工作。用户下达任意任务指令,它就能结合之前的操作历史,精准预测下一步应该在图形用户界面(GUI)上做什么。什么HTML源码、文本表征,统统不需要,真正实现了“所见即所得”。
这种仅依赖截图和普适性GUI操作的能力,一下子就把应用场景打开了。从你面前的个人电脑、手机,到未来的智能汽车中控,凡是带屏幕、能交互的设备,它都有用武之地。

话说回来,这可不是智谱第一次推出CogAgent。比起去年12月的初代版本,这次的CogAgent-9B-20241220可以说是全方位的升级。它在GUI感知能力、推理预测的准确性、动作指令的完善度,以及任务泛化性上,都有肉眼可见的显著提升。而且,现在它完美支持中英文双语的屏幕截图和交互,适用性更广了。
那么,它的工作原理到底是怎样的?模型的输入非常简洁,只有三样东西:用户的自然语言指令、已经执行过的动作记录,以及当下的GUI截图。输出则要丰富和精细得多,主要涵盖四个方面:
- 思考过程(Status & Plan):这是CogAgent的“思维可见化”。它会明确输出自己是如何理解当前屏幕状态,以及如何规划下一步的,包含状态分析和行动计划两部分。有趣的是,这部分输出的详细程度还可以通过参数来调节。
- 下一步动作的自然语言描述(Action):模型会用人类能看懂的自然语言,描述它打算做什么。这个描述会被加入到历史记录里,帮助模型建立起连贯的任务执行记忆。
- 下一步动作的结构化描述(Grounded Operation):这才是给机器“执行”的指令。CogAgent会用类似函数调用的结构化格式,明确指出操作类型和参数,方便应用程序解析并执行。它的动作库很全面,既包括点击、输入这类基础GUI操作,也涵盖了启动应用、调用大模型这类更高级的“拟人行为”。
- 下一步动作的敏感性判断:这相当于一个安全阀。模型会将动作分为“一般操作”和“敏感操作”。对于像在发邮件任务中点击“发送”按钮这种可能产生不可逆后果的操作,它会特别标注出来,提醒系统需要格外谨慎。
模型好不好,最终还得看实测表现。CogAgent-9B-20241220在Screenspot、OmniAct、CogAgentBench-basic-cn和OSWorld等多个专业数据集上接受了严格测试,对手也都是GPT-4o、Claude-3.5-Sonnet、Qwen2-VL等行业内的一流模型。

测试结果颇具说服力:CogAgent在多个关键数据集上都取得了领先的成绩。这无疑证明了,在让AI智能体“看懂”并“操作”屏幕这个新兴且关键的赛道上,它已经具备了相当强大的竞争力。
热门专题
热门推荐
你一直认为自己是个无与伦比的职工 不迟到、不早退、准时完成工作,对单位里的大小文具从不顺手牵羊——这当然是职业素养的基石。不过,衡量工作成绩的优劣,有时并不仅仅看个人表现,与周围环境的协调能力同样是重要的考察维度。一味地严于律己固然好,但若与同事龃龉过多,这些不经意间埋下的“暗礁”,很可能成为阻碍你
Pharos Network公共主网正式上线:一条聚焦合规与互操作性的新公链启航 Web3市场的发展一日千里,用户对既高效又合规的金融基础设施的渴求,从未像今天这样迫切。正是在这样的背景下,基于权益证明机制、兼容EVM的第一层区块链——Pharos Network,于今日正式向公众敞开了大门。通过一
基本原则 职业女性的着装,从来不是一件小事。它像一张无声的名片,必须精准地传达出你的个性、体态特征、职位角色,更要与你所处的企业文化、办公环境乃至个人志趣相契合。 这里有个常见的误区:认为展现权威就得向男同事的着装看齐。其实恰恰相反,真正的“女强人”魅力,源于“做女人真好”的自信心态。充分发挥女性特
现代社会中,智慧与才华成为职业生涯的决定因素 工业化和高科技的浪潮,正悄然改变着职场的力量格局。一个显著的趋势是,男性的体力优势在众多领域逐渐变得不那么关键,这为女性更广泛、更深入地参与社会财富创造打开了大门。如今在工作中,“人”的属性越来越超越性别属性。那句广为流传的宣言——“没有专门只给男人或者
在办公室里,同事每天见面的时间最长,谈话可能涉及到工作以外的各种事情,讲错话常常会给你带来不必要的麻烦。同事与同事间的谈话,如何掌握分寸就成了人际沟通中不可忽视的一环。 办公室里最好不要辩论 职场里总有些人,似乎天生就喜欢争论,凡事都要争个高低对错才肯罢休。如果你恰好也具备这种“才华”,那么真心建议





