游乐游手机版
首页/AI热点日报/热点详情

当所有AI都在理解世界时这家公司却更懂你

类型:热点整理2026-07-01
Clipto AI推出端侧多模态搜索工具,通过本地多模态大模型构建个人记忆层(MemoryLayer),将视频、音频、图片等私有数据转化为可理解结构,实现自然语言精准定位与记忆检索。全程本地运算保障数据安全,旨在弥补AI缺失的用户模型,推动从理解世界到理解个体的基础设施升级。
5月底,一家名为Clipto.AI的初创公司推出了一款端侧产品,随后迅速登顶Product Hunt全球榜单。 这款产品本质上是多模态搜索工具——用户只需用自然语言描述需求,就能在数TB级别的视频、音频、图片和文档中,快速定位到目标信息。 但Clipto的野心,远不止于“搜索”。 过去几年,大模型在生成能力上的跃升有目共睹。AI能写代码、能绘图、能剪辑视频,内容创作效率被推至历史高点。但与此同时,一个更隐蔽的问题浮出水面:人们生产和保存的数据量激增,但真正能再次激活和复用的,却少之又少。 硬盘里堆满了会议录音、直播回放、播客访谈、采访素材、项目文档和截图。对记者、内容创作者、律师、科研人员这类知识型工作者来说,真正消耗精力的往往不是产出内容本身,而是在庞杂资料中来回翻找。 在Clipto创始人康洪文看来,这背后暴露的不是简单的检索瓶颈,而是AI缺失了一层关键基础设施——他称之为Memory Layer(记忆层)。 AI在不断构建世界模型,却始终缺乏用户模型;智能体(Agent)的能力日益强大,但因为缺乏记忆支撑,很难真正理解个体用户。 而从视频理解研究起步,到投身AIGC创业,再到如今全力押注AI记忆层,康洪文近二十年的职业轨迹,恰好暗合了AI技术演进的一条深层脉络:从「理解内容」,到「生成内容」,再到「组织内容」。 ## 01 ## 从搜索工具到记忆层: ## Clipto 想解决什么问题? 在康洪文的定义里,Clipto并不是传统意义上的多模态搜索工具,而是连接个人数据与智能体生态的「记忆层」。 「过去十年,AI一直在构建世界模型,却长期缺失用户模型。每个人的数据散落在本地设备中,尚未转化为AI可持续理解与调用的个人上下文。」他指出了行业中的一个空白,「没有长期记忆,再强大的Agent也无法真正读懂用户。搜索只是起点,Clipto的终极目标,是补上AI时代所缺的那层记忆基础设施。」 Clipto给出的技术路径,是一套完全运行于本地的多模态记忆构建系统:用户将本地视频、音频、图片、文档等多模态数据导入后,系统依托设备内置AI算力与自研端侧多模态大模型,完成感知理解、结构化解析与向量化建模,最终构建起具备认知图谱、支持时空对齐的个人记忆体系。 实际使用时,用户只需用自然语言描述需求,端侧大模型就会立刻解析查询意图与上下文,再由本地搜索Agent在数秒内完成精准匹配——无论是特定人物出镜、某段对话、某个场景,还是完整事件片段,都能直接定位到对应文件及精确时间戳。 更进一步,Clipto真正打通了底层大模型与上层Agent之间长期割裂的记忆通路。在TB级私有数据基础上,用户可以直接以对话形式提问,让AI回答所有与本地记忆相关的问题,也可以基于已有内容自动生成摘要、提炼要点或梳理逻辑脉络。 而所有运算与处理,全程都在用户本地设备完成。一方面避免了海量数据上传和云端模型调用带来的高昂Token成本;另一方面,对于含商业机密、敏感信息的工作素材,以及移动办公、离线环境等特殊场景,“数据不出设备”本身就是一条不可妥协的安全底线。 康洪文认为,传统软件主要解决的是「存储」问题,却从未真正「理解」内容。Clipto的核心价值,在于利用本地多模态模型,把视频、音频、图片和文档转化为AI可读、可推理、可关联的数据结构,使用户从“搜索文件”,跃迁为“搜索记忆”。 在他看来,搜索只是入口,真正的关键在于建立一套可持续沉淀、不断演化的个人上下文体系——Memory Layer。过去十年,AI构建的是关于世界的通用知识库;未来十年,AI必须深入理解每个用户的个体经验与专属知识。 ## 02 ## 二十年:从视频理解到视频生成 从职业履历来看,康洪文几乎全程参与并亲历了过去二十年AI从学术研究走向产业落地的关键节点。 2004年,他进入微软亚洲研究院实习。彼时深度学习尚未兴起,AI多数还停留在实验室课题阶段。 他参与的早期项目之一,是为Xbox设计自动分析系统,帮助用户从大量家庭照片与视频中识别关键画面,再自动生成家庭纪念短片。 今天看来已是常规功能,但在当时,这项任务已经触及计算机视觉最本质的挑战:机器必须先“看懂”内容,才能“生成”内容。需要识别出谁在画面中、发生了什么、哪些帧具有语义重要性、哪些可以被忽略。 此后,康洪文赴卡内基梅隆大学攻读博士,师从计算机视觉泰斗Takeo Kanade。 在那里,他持续深耕图像与视频理解,致力于让机器人通过长期视觉经验积累,逐步建立对现实世界的认知。 在多数人眼中,视频只是连续帧的集合;但康洪文深知,视频本质上是一种融合时间、人物、事件与关系的复杂信息结构。理解视频,某种程度上就是在理解世界本身。 2017年,他创立慧川智能,并推出文字生成视频平台“智影”。此时正值移动互联网与短视频爆发期,大量创作者涌入内容生态。 一个新的矛盾随之浮现:过去的问题是机器看不懂内容;如今的问题是内容生产效率太低。 于是,他的技术重心开始从“理解”延伸至“生成”——文字生成视频、智能剪辑、数字人驱动……这些后来成为AIGC主流赛道的能力,早在智影的产品探索中就已落地实践。 2020年底,智影被腾讯收购。康洪文加入腾讯,主导腾讯智影团队,持续推进文生图、文生视频、数字人等全栈AIGC技术研发。 如果按既有路径发展,他本可以继续在生成式AI领域深耕。但真正触发其思维转向的,恰恰是生成能力的井喷式爆发。 当内容生产变得越来越容易时,一个更隐蔽的瓶颈浮现出来:信息过载。人们积累了海量视频、录音与文档,却越来越难找回真正需要的信息。AI解决了“创造”的难题,却没能破解“理解个人内容”的困局。当记录成本趋近于零,检索与组织反而成了最大的障碍。 这让他意识到:行业可能忽略了一个更基础的命题。 理解是生成的前提,而记忆,是理解之后的必然延伸。AI的下一程,或许正是“记忆”。 ## 03 ## AI 的下一层竞争, ## 为什么会是 Memory? 在康洪文看来,Agent若想真正走向成熟,必须先跨越一道门槛——记忆。 当前的大模型已经足够强大:写代码、做推理、生成报告,甚至能代用户执行部分工作流。但无论模型多先进,它始终有一个天然缺陷:不了解用户。 每一次打开新的AI应用,都像在跟一位健忘者重新相识——你得反复介绍自己是谁、正在做什么、过往做过什么;一旦对话结束,所有上下文即刻清空。 康洪文指出,整个AI基础设施缺失的,正是一层关键能力:用户模型。 今天的大模型坐拥全网公开知识,却无法真正理解一个具体的人。因为关于这个人的数据,不在互联网上,而在电脑、手机、NAS、网盘、相机、会议记录、本地笔记等私有设备中。 对AI来说,这些数据近乎“不可见”。而随着Agent进入规模化应用,这个问题将变得越来越严峻。 当下热议Agent,焦点大多集中在“能帮用户做什么”。但如果未来真有数百万乃至数亿个Agent普及开来,新问题就会接踵而至:它们如何理解用户?如何知晓用户的历史行为?又如何共享同一套个性化上下文? 康洪文认为,不可能也不应该让每个Agent都独立重建一套用户记忆。更合理的架构,是存在一个统一、独立、可复用的Memory Layer。 Living Memory Graph Agent专注任务执行,Memory Layer专司记忆管理,所有Agent都可以基于同一套记忆系统理解用户。 这有点像互联网时代的操作系统:应用层出不穷,但底层文件系统始终唯一。 今天的Agent生态,同样需要这样一套公共记忆基础设施。而这,正是Clipto力图扮演的角色。 在康洪文的判断中,未来AI架构可能会形成双层基础设施:一层是Intelligence Layer(智能层),负责理解世界,由云端大模型提供通用知识;另一层是Memory Layer(记忆层),负责沉淀用户的个人知识、上下文与长期记忆,扎根于用户持续产生的私有数据之上。 二者协同,才构成真正意义上的Personal AI。因此,他并不认同“所有AI能力终将上云”的单一叙事。 过去几年,行业焦点几乎全部集中在云端大模型战场:OpenAI、Google、Anthropic,以及国内各大模型厂商,比拼的核心始终是模型性能。 但另一股趋势也在悄然成型:Apple M系列芯片持续强化神经网络算力,NVIDIA推动AI PC概念落地,微软发布Copilot+ PC。越来越多计算能力正回归终端设备。 AI的计算范式正在重构:过去,AI主要依赖云端;未来,随着个人数据价值凸显,与记忆强相关的功能将更多运行于本地,而通用推理与世界知识仍将持续受益于云端大模型。 原因很简单:用户最核心的数据,本来就存在于本地——采访纪要、合同文本、财务报表、创意素材、家庭影像……这些内容既不宜频繁上传,也难以完全交由云端处理。 更重要的是,数据规模本身正在指数级膨胀。影视团队单个项目动辄产生数十TB甚至上百TB视频素材;媒体机构数年积累,也能形成海量内容资产。 在这种背景下,云端未必是最优解。本地理解、本地索引、本地推理,反而重新获得了战略价值。 不过,康洪文强调,Memory Layer并非走向“纯本地AI”,而将是云端与本地协同的混合体系。 因为记忆 ≠ 存储。真正关键的是组织、关联与调用。用户的数据天然分散于不同终端与平台:电脑存文档,手机存照片与视频,云盘存备份资料…… 未来的记忆系统,必须将这些割裂的数据重新缝合,最终构建出一张可供AI理解、查询与调用的个人知识网络。 而这,也正是康洪文二十年思考不断演进的结果:在微软亚研院,他探索机器如何“看懂”视频;在智影时期,他推动机器如何“生成”内容;而今,他追问的是:当AI已能理解与生成内容之后,谁来负责“组织”内容?
来源:https://www.php.cn/faq/2748024.html?uid=1246273

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。