普通人如何用商汤大模型AI高效度过一天
刚刚落幕的世界人工智能大会(WAIC 2024),堪称今年的“AI界春晚”。会上,一个备受瞩目的角色登场了——来自商汤科技的“日日新5o”,它被称作国内首个具备“流式交互”能力的多模态大模型,也被视为“中国版GPT-4o”。
在演示中,日日新5o展现出了类人的实时视觉与对话能力。它能听、能说、能看,几乎没有延迟,通过摄像头和语音与用户所处的真实场景进行无缝交互。这感觉,就像打破了次元壁,第一次实现了与AI的“视频通话”,体验已无限接近真人聊天。
时间拉回两个月前,OpenAI推出GPT-4o,其突破性的智能交互彻底刷新了人们对AI语音助手的认知,也为人机交互模式带来了又一次震撼。
不过,震撼之余,国内大模型圈对GPT-4o的看法似乎不如当初对GPT-4那般一致。有人觉得“在通往AGI的路上,GPT-4o并非关键一步”;也有人评价“其技术突破谈不上惊艳”;当然,也有观点认为,GPT-4o的发布是AI 2.0时代的标志性事件,将催生全新的应用平台与商业模式。
但共识也逐渐清晰:多模态很可能引领下一波交互革命和产品创新,它正成为国内大模型竞争的下一个核心战场。
有趣的是,当国内业界还在探讨GPT-4o的产品形态是否将成为主流时,商汤科技已经用“日日新5o”给出了自己的答案和行动力。这无疑表明了他们对趋势的判断。
正如商汤CEO徐立在WAIC 2024上所强调的:“行业要变化,交互模式一定是先行的。”这句话,也道出了商汤为何要率先打造这款国产流式交互大模型。
1 大模型可以是每个人的贴身AI全能助手
想象一下,如果拥有一个能“看见”现实世界、能“听懂”指令、能“开口”回答的贴身AI助手,生活会变成什么样?
这位助手不仅学识渊博,覆盖生活、学习、工作的各个领域,关键在于,它能真正理解眼前的现实。摄像头成为它观察世界的眼睛,而视觉捕捉到的信息,它能瞬间分析、总结,并通过实时对话,像朋友一样立刻给你反馈,毫无迟滞。
清晨准备出门,想知道外面的天气该如何应对。日日新5o可以准确描述天气状况,并给出贴心的外出建议。
路过一处风景绝佳之地,想拍照却苦于姿势。这时,日日新5o便能化身摄影指导,根据当前景色告诉你如何调整姿势、利用光线。
晚间聚餐是户外烧烤,大家忙着生火架炉。日日新5o不仅能准确识别视频里的人们在做什么,还能详细提醒你户外烧烤的注意事项。
至于每种食材该怎么烤才美味?它又能瞬间切换成经验老道的“烧烤大师”,一一为你分辨讲解。
回到酒店,看到一袋咖啡粉不知如何下手。询问日日新5o,它能识别出这不是速溶咖啡,并像专业咖啡师一样告诉你冲泡步骤。
可见,日日新5o的知识储备足够丰富多元。它在生活场景中能扮演发型顾问、摄影师、烧烤大师、咖啡师等多种角色。而在职场环境中,它同样是一把好手。例如,快速总结书中某一页的核心内容,其反应和分析速度远超常人。
面对一张手写字条或诗句,它能立刻解读其含义与出处。
甚至能根据前三个字,准确预测出整个成语。
从这些场景不难看出,日日新5o凭借其广泛的多领域知识、首创的实时流式交互方式,以及精准的环境信息识别与分析能力,完全有潜力成为我们生活、学习与工作中的AI全能助手。
2 重塑交互的意义
日日新5o之所以能成为一款出色的全能助手,除了展示出对标GPT-4o的各类能力——看见现实世界的人、物、文字;听懂指令并反馈;阅读并概括内容——其最根本的变革,在于交互模式本身。
作为国内首个流式交互多模态大模型,商汤将这种无缝、连续的交互方式融入大模型,带来了近乎真人的交流体验,让系统本身显得更“像人”。
回顾人工智能发展,ChatGPT当初一鸣惊人,正是因为它初步展现了人类才具备的自主学习、分析与逻辑能力。然而,让大模型“像人一样交流”,是否就是行业变革的先导?对此,业界此前并非没有争议。
而商汤发布日日新5o,正是基于其对AI 2.0时代的判断。徐立的观点很明确:行业变革,交互必须先行。
那么,什么才是定义AI 2.0时代的“超级时刻”?在徐立看来,这类似于iPhone定义移动互联网的时刻。超级时刻需要超级应用来引爆。即便是ChatGPT、Sora,也尚未真正到达那个“时刻”,原因在于它们还未深度融入垂直行业并引发广泛变革。
要走向真正的应用爆发,商汤认为有几个关键点必须突破:
首当其冲的,是实时交互带来的流畅体验。这是推动超级时刻与应用爆发的核心动力之一。
其次,是构建能够提升模型智力的高阶思维逻辑合成数据。
最后,是对生成内容(无论是文本、图像还是视频)的可控性。如果无法有效控制,那么它作为工具的效能提升将非常有限。
大模型的核心本质是记忆,记住世界的知识才能回答得更准。但徐立指出,它那一点有限的“智力”,恰恰来源于对知识背后高阶思维逻辑的记忆。因此,如何在垂直行业中构造高阶思维链的合成数据,往往成为制胜、差异化乃至中国人工智能发展之路的关键。
商汤最新发布的日日新5.5基座模型,便大量采用了这类合成的高阶思维链数据,使得模型平均能力提升了约30%。

徐立认为,要推动人工智能“超级时刻”的到来,大模型必须展现出卓越的深度思考能力。而合成数据,特别是高阶思维数据,在其中扮演着至关重要的角色。越是深入的应用场景,越能催生出高质量的核心数据。
过去,垂直领域的高级思维链数据依赖人工构建。但商汤的思路是再向前一步:不应依赖人力,而应通过与真实世界的交互,形成执行数据,并在此基础上进行推理。
正因如此,基于日日新5.5基座模型,商汤研发了日日新5o这款流式交互多模态大模型。它在摄像头移动、与真实世界持续互动的过程中,不断获取新信息进行推理和反馈。
日日新5o各项功能的实现,离不开基座模型日日新5.5的支撑。今年4月发布的日日新5.0,已是国内首个对标GPT-4 Turbo的大模型。经过两个多月的迭代,日日新5.5在数学推理、英文能力、指令跟随等方面显著增强,其交互效果与多项核心指标已可对标GPT-4o。
展望未来,徐立设想,如果将这种流式交互多模态大模型嵌入眼镜、手机、电脑等终端设备,很可能会真正点燃一批革命性应用的爆发。
相关攻略
IDC报告将商汤科技定位为中国AI咨询服务市场领导者。其凭借“大装置-大模型-应用”战略与全流程专家服务,帮助企业应对AI落地中的成本、适配与安全挑战,实现从战略规划到持续运营的全周期支持。目前服务已扩展至金融、能源、交通等多个领域。
生态与工具链,正成为大模型竞争下半场的决胜关键。最近,商汤科技的一系列动作,为这个判断提供了一个生动的注脚。 当大多数同行还在琢磨如何将强大的模型能力变&现收费时,商汤却反其道而行之:推出首月每5小时1500次的免费调用额度,宣称Token消耗比同行低60%,三款新产品同步上线,甚至将核心模型U1以
2025年5月8日,商汤科技正式推出其新一代轻量化多模态智能体模型——日日新SenseNova 6 7 Flash-Lite。此次发布同步开启了SenseNova Token Plan的限时免费开放,并将全线办公技能SenseNova-Skills在GitHub平台全面开源,旨在为开发者提供更便捷的
商汤绝影发布可悠(Care U):从“陪你聊天”到“帮你做事”的家庭AI新成员 4月8日,商汤绝影旗下迎来了一位重磅“新成员”——AI智能硬件产品“可悠(Care U)”。这款产品的定位很有意思,它试图完成的,是一次从“陪你聊天”到“帮你做事”的实质性跨越。 那么,它是如何实现这一步跨越的呢?关键在
近日,作为2026中关村论坛核心组成部分,由趋境科技与九源智能计算系统生态联合体共同主办的“全栈智能 全域推理:Token爆发元年的全场景大规模推理服务”专题研讨会成功举办。商汤大装置首席架构师项铁
热门专题
热门推荐
近日,中国汽车流通协会联合精真估发布了《2026年4月纯电动车型一年车龄保值率排行榜》。这份数据对于正在选购新能源车的消费者具有重要参考价值,能帮助大家更清晰地了解当前热门电动车的残值表现。 该榜单统计的是车龄满一年的纯电动车型。位居榜首的是问界M9,其一年保值率高达80 4%。这一夺冠成绩含金量十
科技行业近期迎来一场备受瞩目的创新盛宴。以智能清洁机器人闻名的追觅科技(Dreame),在旧金山隆重举办了“Dreame Next 2026”未来愿景发布会。活动不仅前瞻性地展示了涵盖智能手机、智能穿戴乃至概念电动车的全系列产品,更邀请到苹果联合创始人史蒂夫·沃兹尼亚克亲临助阵。这场为期四天的盛会,
SpaceX最快下周披露招股书,6月初启动全球路演,估值或达1 75万亿美元,募资规模有望创纪录。公司以垂直整合与成本控制为核心优势,布局商业航天、AI基础设施与卫星互联网,其“太空数据中心”构想融合太空太阳能与AI算力,开辟新赛道。此次IPO或引发科技板块资金结构性变动,标志资本正加速拥抱太空与AI融。
NVIDIA在SIGGRAPH上宣布扩展其微服务库,以加速人形机器人开发。其核心是将生成式AI深度集成至OpenUSD语言体系,推出相关模型与NIM微服务,从而提升数字孪生与机器人工作流效率。公司还开放了机器人技术栈,并联合合作伙伴推动OpenUSD的工业应用,为开发者提供从仿真到部署的端到端平台支持。
OKX作为全球领先的数字资产交易平台,其风险主要来源于市场波动、技术安全与合规环境。平台通过多重安全机制、资产储备证明和严格的合规流程来管理风险。用户需理解加密货币的高波动性本质,并采取自主保管资产、启用安全功能等策略,以在参与Web3生态时更好地保护自身权益。





