首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
豆包“包图”互联网设计生态解析与应用指南

豆包“包图”互联网设计生态解析与应用指南

热心网友
43
转载
2025-12-18



豆包手机才发布半个多月,字节就发布了通用agent模型豆包 1.8。这是一个能在真实世界中“做事”的多模态大模型。

豆包 1.8可以直接操作你的手机、电脑和浏览器。它能看懂屏幕上的按钮和界面,然后像人一样点击、滑动,帮你完成各种任务。

这是字节一次非常大胆的尝试。要知道,在12月1号的时候,字节才发布了豆包手机。通用agent大模型的推出,让豆包的领地从手机一下就扩张到了PC端,再加上智能硬件以及未来可以预期的智能座舱,豆包算是把互联网从入口层面“一网打尽”了。

此前,曾因为豆包手机,字节已然成为了移动互联网的敌人,微信、淘宝等超级流量APP明确表示拒绝豆包调用。

而现在,随着豆包 1.8的发布,字节的敌人只增不减。

A

先来说说豆包 1.8的评分,更直观的感受它作为agent是否合格。



在多模态理解方面,豆包 1.8的表现具有竞争力。模型能够处理图像和视频内容,单次视频理解的帧数从前代的640帧提升至1280帧。该项提升并非仅体现在数值层面,在实际应用场景中,模型能够以低帧率理解长视频的整体内容,在遇到关键片段时调用工具进行高帧率分析。

比如最新演示中,豆包 1.8就对篮球视频进行分析,最终浓缩出正常比赛的内容。



在公开评测中,豆包 1.8在ZeroBench主集上获得了11.0分,超越Gemini-3-Pro的10.0分,位居业界首位。ZeroBench是极限视觉推理基准测试中的核心部分,评分越高,代表模型越能理解复杂的视频。

在视觉推理任务上,模型在MathVista得分87.7,MathVision得分81.3,LogicVista得分78.3,虽然整体略逊于Gemini-3-Pro,但是仍处于第一梯队。

视频理解方面,模型在VideoHolmes测试中得分65.5,EgoTempo得分67.0,MotionBench得分70.6,在长视频和流式视频处理上同样保持了竞争力。



更为关键的是模型的agent能力。

豆包 1.8能够执行代码、操作图形界面、使用各类工具,这些能力使其能够完成多步骤的复杂任务。在BrowserComp-en搜索任务基准测试中,模型得分为67.6,在智能编程和经济价值领域的相关测试中也表现稳定。

字节在技术报告中提及,模型支持search、code execution、GUI interaction三种核心交互方式,这些能力通过统一的agentic接口实现。

在基础能力方面,豆包 1.8在数学推理、代码能力、复杂指令遵循、知识覆盖等维度均保持了主流水平。在AIME-25测试中得分94.3,BeyondAIME得分77.0,AMO-Bench得分60.0,LiveCodeBench得分79.5。

这些数据表明豆包 1.8的底层能力扎实,字节并未因agent能力而忽视基础建设。



字节专门构建了一些内部评测基准,覆盖教育、客服问答、复杂工作流等高价值场景。

在教育场景的测试中,豆包 1.8得分60.8,在客服问答中得分69.0,均为参与测试模型中的最高分。该结果验证了模型在实际业务场景中的表现。

豆包 1.8提供了四种thinking模式:no_think、think-low、think-medium、think-high。

该设计旨在平衡延迟、计算成本和解决方案质量之间的关系。用户可根据任务的复杂程度选择不同的模式,在需要快速响应的场景使用低算力模式,处理复杂任务时切换至高算力模式。

而且豆包 1.8在视觉编码上进行了优化,减少了图像和视频输入的token消耗。在长上下文处理方面,模型支持256K的上下文长度,并提供了原生API级别的上下文管理。

直白来说,字节已经提前规划好了豆包 1.8有哪些实际用途,以及部署上该如何优化。

B

有意思的是,豆包 1.8的能力范围不限于手机助手,浏览器以及PC端都可以使用。也就是说,字节正在用AI包圆整个互联网。

其实这两年浏览器市场的变化是非常显著的。传统浏览器,比如谷歌的Chrome和微软的Edge,都在加入AI能力。也诞生了许多基于大模型的AI浏览器。

Atlas是OpenAI在2025年10月推出的产品,本质上是Chrome与ChatGPT的结合,将对话助手嵌入传统浏览器。Disco是Google Labs的实验项目,拥有名为GenTabs的机制,能够将用户浏览的标签页直接生成可交互的Web应用。

AI浏览器是一个非常大的市场。Market.us数据显示,2024年全球AI浏览器市场规模约45亿美元,预计2034年将达到768亿美元,年复合增长率达32.8%。



然而豆包 1.8其实可以让设备拥有更神奇的玩法。

该模型的云端架构使其能够实现跨设备协同,也就是说,理论上用户可在手机上向豆包 1.8下达命令,由电脑上的浏览器执行。

比如在手机上浏览抖音时发现感兴趣的内容,想要切换至大屏观看。那么就可以向豆包 1.8发出“在网页上打开该页面”的指令,电脑浏览器便能打开手机上的视频。

这种跨平台能力是传统浏览器AI化难以实现的,也是Atlas、Disco等独立浏览器产品目前尚未拥有类似的能力。

实际上,字节也在效仿微软。微软曾在Ignite 2025大会上宣布Windows正在成为“AI agent操作系统”。

然而字节的想法和微软是不相同的。

微软需要从底层改造Windows系统架构,将agent能力深度集成到内核和API层面。而豆包 1.8的做法更轻量,它是一个系统外部的代行者,就像是外骨骼一样简化用户的操作。

为了实现这个目标,首先就是要理解文字和图表。豆包1.8在这个领域有专门优化。

它不仅能阅读文字,还能理解复杂的学术图表、数据可视化、技术文档中的示意图。在处理包含大量公式、图表和专业符号的学术论文时,模型能够提取关键信息、理解图表含义、建立文字与图示之间的对应关系。

而且PC端的任务往往比移动端要复杂。于是豆包1.8在复杂推理任务中,加入了并行思考机制。通过分配额外的计算资源,它可以同时探索多个解决方案路径,评估不同方案的可行性,最终选择最优解。

实际应用测试显示,豆包能够处理综合性的规划任务。在旅行规划场景中,它可以同时处理多模态信息,从地图、图片、文字描述中收集信息,综合考虑预算、时间、偏好等约束条件,生成详细可行的行程安排。

C

字节想要把AI的蛋糕做大,但是豆包手机已然让字节成为众矢之的,继续升级agent,只会为自己引来更多的敌人。

互联网行业当前的商业逻辑是,用户在应用中停留的时间越长,观看的广告越多,平台获得的收益越高。应用开发商投入大量精力优化界面、设计转化路径、增加用户黏性,目的是让用户尽可能多地接触商业化内容。在该逻辑下,应用是流量的关口,掌握应用即掌握用户。

agent模型的出现,对该逻辑形成了颠覆。在字节的演示中,豆包 1.8能够调用十余个工具完成电商平台的全网比价和下单。

用户无需打开淘宝、京东、拼多多,无需在各应用之间切换,只需告诉大模型“购买性价比最高的某产品”,agent便会自动搜索、比价、筛选、下单。在整个过程中,用户完全不接触应用界面,自然也无法看到任何广告。



实测显示,豆包 1.8可通过playwright MCP工具,按指令在淘宝筛选500-1000元区间销量第一的半入耳式蓝牙耳机,再到唯品会、京东比价并完成加购。

该能力对用户而言是效率的提升,但对应用开发商而言则构成威胁。

广告展示失去了核心场景,原有的流量价值被大幅压缩。更为关键的是,用户对应用的认知可能发生改变。

过去用户的认知是“购物使用淘宝,打车使用滴滴”,现在转变为“向agent说明需求,由其决定使用何种服务”。应用从流量的关口转变为agent可选的工具,互联网的统治权从应用层转向模型层。

豆包手机遭遇的封禁和限制,本质上是应用开发商的防御反应。但该防御能够持续的时间,取决于用户的选择。

但是,规矩是人定的。如果足够多的用户认为agent的使用体验明显优于传统的应用操作,APP开发商将不得不调整策略。

开发商可能开放API接口使agent更好地调用,也可能在agent调用时保留部分广告展示,或者改变商业模式,从流量变现转向服务收费。

况且,AI agent的玩家越来越多。

12月9日,智谱就宣布开源其核心AI agent模型AutoGLM。与豆包手机助手的能力相似,AutoGLM能够稳定完成外卖点单、机票预订等长达数十步的复杂操作流程,并且已支持微信、淘宝、抖音、美团等超过50个高频中文应用。

质谱开源的AutoGLM-Phone-9B总共只需要36GB的空间,就可以完全在手机本地运行。且开源采用MIT和Apache-2.0双许可证,意味着任何人都可以免费下载并用于商业用途。

在移动互联网时代,谷歌凭借开源的Android系统建立了庞大的生态,智谱显然想要在AI操作系统时代复制这一路径。

而且从豆包和智谱的技术实现来看,这个领域的核心壁垒和大模型是完全相同的,腾讯、阿里等等互联网大厂,手里都握着门票。

不过从行业竞争的角度观察,谁能让agent与现有APP生态共存的一方,谁才能占据优势。

字节既拥有模型能力,也拥有应用生态。抖音、今日头条等产品本身即为流量大户,字节能够先在自身应用中测试agent能力,积累经验后再向外扩展。

且字节的云端架构使其能够快速迭代,豆包手机上线半月即推出多次更新,该迭代速度是传统硬件厂商难以达成的。

不可否认的是,豆包1.8是字节的探索性尝试。

它们展示了一种可能性,但距离成熟的产品形态仍有距离。至于最终能够走多远,取决于字节在技术、生态、商业模式上能够实现多少突破。

来源:https://www.163.com/dy/article/KH37GGVD05399DAP.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

字节Seedance 2.0视频生成AI模型API定价公布每元可生成一秒
AI资讯
字节Seedance 2.0视频生成AI模型API定价公布每元可生成一秒

字节跳动火山引擎官网最近更新了其视频生成模型 Doubao-Seedance-2 0 的 API 定价细节,引发了行业关注。根据公布的信息,该模型的调用费用根据输入模态有所不同:支持视频输入(例如视频编辑任务)的版本定价为每百万 tokens 28 元;而不含视频输入(即纯视频生成)的版本,价格则为

热心网友
05.20
快乐小马模型是什么全网热议Seedance20挑战者揭秘
AI资讯
快乐小马模型是什么全网热议Seedance20挑战者揭秘

智东西作者 杨京丽编辑 李水青 上周,AI视频生成领域权威的盲测平台Artificial Analysis榜单发生重大变动。一个名为“HappyHorse”(快乐小马)的匿名模型异军突起,在文生视频和图生视频两个赛道的无音频类别中同时登顶,超越了此前长期领先的字节跳动Seedance 2 0,成为新

热心网友
05.20
Go语言int64转字节数组安全实现方法与最佳实践
编程语言
Go语言int64转字节数组安全实现方法与最佳实践

利用Go标准库encoding binary,可将int64安全转换为字节数组。核心原理是int64与uint64底层二进制补码相同,通过uint64类型转换后,使用binary PutUint64写入字节切片。转换需注意字节序一致性,并确保切片长度为8。反向还原时,需先用Uint64读取再转为int64。此方法高效无损,适用于底层二进制处理。

热心网友
05.10
C++ std::span解析原始字节报文实现内存安全详解
编程语言
C++ std::span解析原始字节报文实现内存安全详解

使用std::span解析字节报文时,需确保底层缓冲区生命周期长于所有span实例,避免悬垂访问。构造时应使用实际接收字节数,而非缓冲区容量,防止越界。进行subspan切片前须手动校验边界,避免静默截断或未定义行为。访问关键字段建议启用at()进行边界检查或手动校验,提取结构体字段应优先使用安全方法。

热心网友
05.10
while循环结合字节缓冲区实现大视频文件流边读边写技巧
编程语言
while循环结合字节缓冲区实现大视频文件流边读边写技巧

处理大型视频文件时,应采用分块读写策略,使用固定大小的缓冲区(如8KB)循环读取并即时写入,以平衡效率与内存占用。推荐使用缓冲流减少系统调用,依据read返回值控制流程,确保只写入有效数据,并通过try-with-resources确保资源安全释放。

热心网友
05.08

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

比特币现货持有者坚定持仓 BTC价格逼近115000美元关键阻力位
web3.0
比特币现货持有者坚定持仓 BTC价格逼近115000美元关键阻力位

现货持有者坚守仓位,比特币接近115,000水平 近期比特币(BTC)价格接近$115,000水平,市场整体情绪谨慎,但现货持有者依旧坚守仓位,显示出一定的多头信心。 市场现状与资金流动 那么,当前市场的资金究竟在如何流动?分析显示,一个有趣的现象正在上演:短线资金的流入其实相当有限,市场热度并未急

热心网友
05.23
瑞波币XRP现最强看涨形态目标6美元 近期回调后走势深度解析
web3.0
瑞波币XRP现最强看涨形态目标6美元 近期回调后走势深度解析

目录 要点介绍:分析师称XRP呈现“最强看涨结构”高位清算集中于2 90美元以上区域 周四,XRP价格稳稳站在了2 80美元上方。这个位置守住了,意味着什么?意味着市场向那个经典的“杯柄形态”目标价——6美元以上——又迈进了一步。 要点介绍: 先看几个核心数据:周四XRP报收2 82美元。技术分析显

热心网友
05.23
以太坊衍生品市场企稳 交易员聚焦4500美元关键阻力位突破
web3.0
以太坊衍生品市场企稳 交易员聚焦4500美元关键阻力位突破

近期,以太坊(ETH)衍生品市场经历了短暂的闪崩,但随后价格快速企稳,交易者开始关注关键突破点——$4,500水平。 ETH衍生品市场现状 市场情绪往往在剧烈波动后显露真容。从最新的链上数据和期权、永续合约的交易情况来看,那场短暂的闪崩更像是一次压力测试——结果是,市场波动率显著下降,多空力量似乎进

热心网友
05.23
狗狗币DOGE暴涨11%交易量激增四倍 市场反弹行情能否持续
web3.0
狗狗币DOGE暴涨11%交易量激增四倍 市场反弹行情能否持续

DOGE单日暴涨11%,交易量激增四倍,市场风向变了? 最近,加密货币市场又热闹起来了。DOGE(狗狗币)上演了一出“旱地拔葱”,价格单日暴涨11%,更关键的是,成交量直接翻了四倍。这种“价量齐升”的场面,无疑给整个迷因币板块打了一针强心剂,市场情绪肉眼可见地回暖了。 DOGE价格拉升原因分析 那么

热心网友
05.23
欧易OKX官方APP下载指南 安全交易入口与安装教程
web3.0
欧易OKX官方APP下载指南 安全交易入口与安装教程

如何安全获取欧易(OKX)官方APP?一份详尽的下载与使用指南 Binance币安 欧易OKX ️ Huobi火币️ 当人们谈论“欧易易欧”时,指的往往是那个全球顶尖的数字资产交易平台——欧易(OKX)。作为业务版图庞大的行业巨头,其官方APP无疑是用户进行交易、查看行情和管理资产的核心工具。不过,

热心网友
05.23