曾效力于谷歌DeepMind长达14年的资深研究员Andrew Dai,正在着手创立一家名为Elorian的AI初创企业。该公司的核心目标是构建一个能够同时理解和处理文本、图像、视频和音频的原生多模态模型,并将技术重心聚焦于视觉推理领域。与他联手创业的,是去年十二月刚从苹果离职的研究科学家Yinfei Yang,她在多模态表征学习领域拥有深厚的积累。
Elorian的种子轮融资目标高达5000万美元,领投方极有可能是Striker Venture Partners。该基金的创始合伙人Max Gazor曾是老牌风投CRV的合伙人。此次融资若能顺利完成,将成为硅谷近期最受瞩目的早期融资案例之一,也反映出资本市场对来自谷歌和苹果背景人才的强烈追捧。
Andrew Dai在谷歌任职期间,作为Gemini模型预训练数据工作的联合负责人,参与了多项关键研究。他在预训练领域的贡献,对大模型的发展产生了深远影响。Yinfei Yang则带来了苹果体系的多模态视角,其专业特长正好可以弥补单纯语言模型在感知能力上的短板。
Elorian的愿景是构建一个天生的“通感者”,让模型能像人类一样,通过视觉直接感知物理世界的逻辑,而不仅仅是把图片转化为文字标签。这种视觉推理能力被视为通向通用人工智能的必经之路,其潜在应用场景广泛,包括机器人和AI智能体市场。后者能够像人类一样操作软件、处理文件并做出实时决策。
在当前大模型竞争从文本生成转向多模态理解与物理世界交互的背景下,Elorian试图通过技术代差或垂直场景的极致应用,在巨头林立的夹缝中开辟自己的生存空间。
