先说一个最近圈里挺受关注的消息:大模型领域的技术专家孙天祥,正式加入百度了。
他的新职位是基础模型研发部(BMU)负责人,同时进入百度模型委员会(BMC)。在此之前,百度已经把基础模型和应用模型的研究分成了两条线——基础模型研发部(BMU)和应用模型研发部(AMU),后者由贾磊负责。孙天祥的加入,意味着百度在AI基础模型上的战略布局,又往前推了一步。

孙天祥是谁?
1997年出生,一个在大模型领域已经积累了不少名气的年轻技术专家。他的职业路径相当清晰,而且每一步都踩得很准。
学术背景是正的:2024年拿下复旦大学计算机科学与技术博士学位。他是国内首个公开邀请公众参与内测的类ChatGPT对话大模型——MOSS——的核心研发负责人和主导者。同时,他也是国际上比较早提出Model-as-a-Service(MaaS,模型即服务)概念的人之一。学术产出方面,在ICML、ICLR、NeurIPS、ACL这些顶级AI会议上,他已经发了四十多篇论文。
产业经历也不含糊。读博期间,他先后在亚马逊上海人工智能实验室(2019-2020年)、阿里巴巴达摩院(2022年)和上海人工智能实验室(2023年)实习,从自然语言处理到大规模语言模型的训练和工程化,都有实打实的经验。博士毕业后,他创办了大模型创业公司日行迹智能。据说首轮投资人给他的评价是:“绝对是心中有火的人”。
另外,他还当过上海人工智能研究院的助理教授。
百度这边给出的说法是:孙天祥从研发MOSS到提出MaaS再到创业,这一路走来的学术和产业路径,跟百度在基础模型上的战略投入方向高度吻合。他的加入,自然也被看作是百度在AI人才战略上的一次重要落子。
百度的组织变革与人才布局
孙天祥的加盟,其实是百度AI组织架构持续迭代的一个缩影。
以组织变革来牵引人才,再通过产品突破来验证组织——这条路径,正在成为百度AI人才战略的一条清晰主线。
今年以来,百度已经进行过多轮组织调整:1月合并百度文库与网盘,3月推动大模型与搜索的融合,5月成立百度模型委员会,6月又完成了MEG商业与电商板块的整合。以AI大模型为技术底座,把内容、电商、数字人、广告这些变&现链路打通,同时通过组织扁平化来加速决策和创新——这个战略方向越来越明确。
过去这段时间,百度在AI组织架构和人才梯队的建设上,一直在持续迭代:设立模型委员会、多批次引入年轻技术力量,围绕基础模型的系统性人才布局正在逐步成型。
Unlimited OCR曾引发人才猜想
就在孙天祥加盟前不久,百度开源了一个叫Unlimited OCR的端到端OCR模型,效果相当惊艳,一下子引起了业界广泛关注。
在OmniDocBench v1.6基准测试中,Unlimited OCR以93.92%的综合成绩刷新了端到端OCR的最新纪录。精度高的同时,在真实文档场景下的推理速度比DeepSeek OCR快了大约12.7%,输出长度到6000 tokens时,速度优势甚至可以拉大到35%。它提出的参考滑动窗口注意力(R-SWA)机制,让模型能模仿人类抄书时的注意力模式,一次前向推理就能连续解析几十页文档,彻底告别了传统OCR那种“逐页解析再拼接结果”的工程方案。
Unlimited OCR发布第二天就登上了GitHub Daily Trending榜,5天内GitHub Star突破一万,在HuggingFace全球模型总趋势榜和多模态模型趋势榜上都排第一——GitHub和HuggingFace四榜登顶。
正是因为表现太亮眼,业界对Unlimited OCR的核心作者“YY”的身份产生了强烈好奇和猜测。
不过,百度并没有直接说“YY”就是孙天祥。他们只是表示:Unlimited OCR为百度的人才战略提供了直接验证——组织变革的成效,正在产品侧加速兑现。
