中国科学院与腾讯微信合作解决AI排队等待问题

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
如果你曾让AI助手处理过一份几万字的合同,或者要求它读完一份百页报告后回答问题,那你一定经历过那种等待——在AI吐出第一个字之前,那段似乎格外漫长的沉默。这种等待,在技术术语里被称为“首字延迟”(Time-To-First-Token, TTFT),它直接取决于AI需要消化多少输入内容。输入越长,等待越久,这几乎成了铁律。
最近,一项由中国科学院自动化研究所、中国科学院大学与腾讯微信联合完成的研究,为这个普遍存在的效率瓶颈提供了一个巧妙的解法。这项于2026年5月发布在arXiv预印本平台(编号arXiv:2605.06221)的工作,提出了一个名为UniPrefill的框架。实验证明,它能将AI处理长文本的速度最高提升2.1倍,且几乎不影响回答质量。更重要的是,当服务器同时服务大量用户时,加速效果反而更显著——这恰好击中了AI服务商最头疼的现实痛点。
一、为什么“读完再说”会成为大问题
要理解UniPrefill的价值,得先看看现代大模型处理长文本时面临的“计算泥潭”。当前主流大模型的核心是“自注意力”机制,你可以把它想象成一场极其严谨的圆桌会议:输入文本的每个词都是一位与会者,而规则要求,任何人在发言前,必须与房间里其他所有人逐一握手、交换信息。这意味着,如果输入1000个词,就需要进行约100万次“握手”;输入1万个词,这个数字会暴增至1亿次。计算量呈平方级爆炸,等待时间自然水涨船高。
为了应对这个挑战,业界近年来涌现出一批“混合架构”模型。它们的思路大致分两类:一是用计算效率更高的“线性循环”层替换部分“全体握手”层,将复杂度从平方级降回线性级,代表如Qwen3-Next-80B-A3B;二是让大多数层只与邻近的“邻居”握手,仅保留少数全局层,代表如Gemma-3-12B。这些设计在理论上大幅削减了计算负担,并已被多家厂商用于生产级模型。
然而,现有的主流加速方法,如MInference、FlexPrefill等,几乎都聚焦于优化“全体握手”这一步。它们在纯全注意力模型上效果显著,但一旦遇到混合架构,短板就暴露无遗。试想,如果一个模型有四层,只有一层需要“全体握手”,那么即便把这一层的握手速度优化到极致,其他三层的计算时间依然雷打不动。这就好比一段包含飞机、火车和汽车的旅程,你只优化了飞行段,对总耗时的影响自然有限。数据也证实了这一点:在处理128K长文本时,MInference在Gemma-3-12B上的加速倍数仅为1.03倍,近乎无效。
此外,这些方法还有一个更根本的“硬伤”:它们与现代AI推理引擎的核心调度机制——“连续批处理”不兼容。这种机制允许服务器像公交车一样,动态打包处理多个用户的请求。而FlexPrefill等方法假设每次只处理一个固定请求,无法适应这种“乘客随时上下车”的动态场景,因此始终难以走出实验室,进入真实的生产环境。
二、图书馆管理员的聪明剪枝法
UniPrefill的思路,可以用一个更聪明的“图书馆管理员”比喻来理解。现在,这位管理员学精了:在开始逐页阅读之前,他会先花一分钟快速扫视所有书架,判断哪些区域与你的问题完全无关,然后果断跳过,只精读真正相关的部分。更妙的是,一旦他决定跳过某个书架,这个决定对整栋图书馆的每一层都生效——后续所有楼层的查阅都自动跳过它。省下的时间,是每一层节省时间的总和。
技术实现上,UniPrefill分三步走,环环相扣。
第一步是“重要性估计”。当模型运行到一个“全体握手”层时,系统不会立刻让所有词两两计算,而是先抽取输入序列末尾的一小部分词(默认128个)作为“提问者”,让它们与全文所有词进行一次快速握手,从而为每个词估算出一个初步的“重要性分数”。这个操作的计算量远小于完整的全注意力计算。
这里需要厘清一个关键区别:UniPrefill的这一步,与另一个知名方法SnapKV有表面相似,但目的截然不同。SnapKV是在处理完整个输入后,用分数来压缩后续生成时需要存储的“记忆”(KV缓存),并不减少处理输入时的计算量。而UniPrefill是在处理输入的当下,就用这个分数来决定跳过哪些计算,节省的是眼前的时间。
第二步是“Top-p词块筛选”。系统将整个输入序列按固定大小(默认64个词一组)切分成“词块”,把第一步得到的重要性分数在词块内取平均,得到每个词块的综合重要性。然后,系统按重要性从高到低排列词块,保留重要性之和刚好达到总重要性99%的最小词块集合,其余全部丢弃。
选择“Top-p”而非固定数量的“Top-k”,有其统计学的考量。注意力分布因文本内容而异:有时高度集中于几个关键词,有时则均匀分散。固定保留50个词块,在前一种情况下会混入大量无关内容,在后一种情况下又可能丢失关键信息。Top-p策略则能自适应:注意力集中时保留得少,分散时保留得多,始终确保丢弃部分的重要性占比不超过1%,为信息损失设定了严格的上限。
此外,有两类词块享有“免裁特权”:序列开头的128个词(它们在注意力机制中扮演特殊的“锚点”角色)和序列末尾的128个词(即那些“提问者”本身)。
第三步,也是UniPrefill最核心的一步,叫做“稀疏性跨层传播”。被判定为不重要的词块,不仅在当前这个“全体握手”层被跳过,而且在当前层之后的所有计算层——无论是线性循环层、滑动窗口层,还是前馈神经网络层——都被永久跳过,直到下一个“全体握手”层重新评估为止。这些被跳过的词的隐藏状态会被“冻结”并传递下去,以备需要时“复活”。
这个设计的收益是叠加的。假设某次筛选保留了60%的词,那么后续每一个计算层都只需处理这60%的词,节省的计算量随层数累加。理论分析表明,在序列极长的情况下,UniPrefill能节省的计算量,相对于传统稀疏注意力方法的优势,会随着序列长度增长而趋向无穷大。
三、把这套逻辑塞进工业级服务器
精巧的算法若不能在生产环境中落地,便是空中楼阁。研究团队在系统工程上投入了大量精力,将UniPrefill深度集成到了业界广泛使用的推理引擎vLLM中。
首先,整个重要性估计和筛选流程被封装成四个紧密融合的GPU计算核,全程在显卡上完成,避免了在GPU和CPU之间来回搬运数据的开销。流程包括:计算注意力得分、在线归一化、词块内分数聚合,最终生成一个决定去留的二值掩码。
在多GPU并行计算时,每个GPU只负责部分注意力头,看到的是局部重要性分数。团队的解决方案是,在做出筛选决定前,先将所有GPU的局部分数汇总为全局分数,确保所有GPU对“留谁丢谁”达成一致,避免出现数据混乱。
更大的挑战在于与vLLM的“连续批处理”调度器协同工作。vLLM会动态打包多个用户请求,用统一的数据结构管理所有词的物理位置、KV缓存地址等信息。当UniPrefill丢弃部分词后,这套数据结构必须同步更新,否则后续计算会出错。
为此,团队设计了一套精细的状态维护机制。每次丢弃操作发生时,系统会记录下丢弃发生的层编号和保留的词数,形成一份“丢弃历史账单”。在后续的文本生成阶段,当模型需要查阅之前存储的“记忆”时,系统会根据这份账单,准确告知每一层实际写入了多少条记忆。整个过程无需修改模型权重,也无需改动vLLM底层的内存分配器,可以像一个透明的加速插件无缝嵌入现有系统。
四、在真实测试中的表现究竟如何
研究团队使用目前评估长文本能力最全面的基准测试之一——RULER来检验回答质量,同时在vLLM框架内测量实际处理速度。
在三个代表性模型上,UniPrefill都显著优于其他加速方法。以纯全注意力架构的LLaMA-3.1-8B为例,在128K上下文长度下,UniPrefill的RULER分数为79.87,比未加速的基准(76.89)甚至略有提升(注意力更聚焦所致),同时将首字延迟缩短了2.26倍。相比之下,LazyLLM在同等长度下分数暴跌至49.71;MInference虽保住了78.21的分数,但加速倍数仅为1.34倍。
在混合架构模型上,UniPrefill的优势更为明显。对于Qwen3-Next-80B-A3B(线性与全注意力3:1混合),MInference在128K上的加速倍数只有1.05倍,而UniPrefill达到了1.68倍。对于Gemma-3-12B(滑动窗口与全注意力5:1混合),MInference仅加速1.03倍,UniPrefill则加速1.49倍。这印证了核心判断:当全注意力层占比变小时,只优化它的方法收益骤减,而UniPrefill的跨层传播机制让它依然有效。
吞吐量测试揭示了另一个维度的效益。单用户使用128K文本时,LLaMA-3.1-8B的处理吞吐量从每秒21013个词提升到43672个词,增幅达107%。当同时服务16个用户时,增幅进一步扩大到109%。Qwen3-Next-80B-A3B在128K单用户场景下提升48%,16用户场景下提升68%。Gemma-3-12B的提升相对较小(128K单用户42%),这与其全注意力层占比最低(仅六分之一)直接相关。
一个有趣的现象是,在文本极短(4K)且用户极少(单用户)的场景下,Qwen3-Next-80B-A3B的吞吐量反而有3%到5%的轻微下降。原因在于,文本太短时几乎没有可丢弃的词块,重要性估计本身的计算开销反而成了负担。这恰恰说明,UniPrefill的优势主战场在于长文本和高并发场景——而这正是生产环境中最普遍、最需要优化的情形。
五、微调参数时的规律与取舍
研究团队还系统测试了两个关键超参数的影响,为实际应用提供了直观指南。
词块大小G决定了丢弃操作的粒度,好比管理员是跳过“一层书架”还是“一排书架”。G=64是精度与速度的平衡点。G=32更精细,在长文本下能丢弃更多无关内容,但判断开销也更大;G=128更粗放,适合短文本,判断快但灵活性低。实验显示,G=32在LLaMA-3.1-8B的128K场景下可实现121%的吞吐量提升,代价是在4K场景下精度从96.53微降至93.42。
末尾查询数量n决定了“提问者”的规模。n过少(如32),估计样本不足,结果方差大,容易误判,导致RULER平均分从90.45下滑至87.77。n过多(如512),估计更准但开销增加。n=128在精度与开销间达到了最佳平衡,被设为默认值。
说到底,UniPrefill的理念清晰而直接:让AI在深度处理前,先做一次快速的“重要性预扫描”,随后在所有计算层中只聚焦于关键部分。它的巧妙之处在于,突破了“仅优化注意力层”的局限,将一次判断的收益扩散至整个模型,从而在混合架构上依然有效。通过与vLLM的深度集成,这套方法得以在真实的多用户、高并发场景中运行,而非停留在论文里。
对普通用户而言,这意味着未来用AI处理长篇文档时,等待时间有望缩短一半以上,尤其在服务器繁忙时。对AI服务提供商而言,同等硬件能服务更多用户,或在不增购服务器的情况下支持更长的上下文。
当然,这项研究也明确了自身边界:UniPrefill目前专注于“输入读取”阶段的加速,对于文本“生成输出”阶段以及模型训练本身的效率,尚未涉及,这被列为未来的探索方向。
Q&A
Q1:UniPrefill是如何决定哪些词可以被跳过的?
A:它在每个全注意力层处,先用序列末尾的128个词快速扫描全文,为每个词块打出重要性分数,然后保留重要性之和达到99%的最小词块集合,其余跳过。序列开头和末尾的128个词会被强制保留。
Q2:UniPrefill加速长文本处理会不会让AI的回答质量变差?
A:在RULER基准测试中,与未加速的版本相比,其精度损失极小,部分情况下甚至因注意力更聚焦而略有提升。相比之下,其他加速方法在同等加速比下常出现明显的精度下降。
Q3:UniPrefill对混合架构模型(比如Qwen3或Gemma-3)有效吗?
A:有效,这正是其核心优势。由于它能将丢弃决定传播到之后的所有层,因此在混合架构上依然能获得可观加速。而传统稀疏注意力方法在这类模型上加速效果通常微乎其微(不足1.1倍)。
相关攻略
如果你曾让AI助手处理过一份几万字的合同,或者要求它读完一份百页报告后回答问题,那你一定经历过那种等待——在AI吐出第一个字之前,那段似乎格外漫长的沉默。这种等待,在技术术语里被称为“首字延迟”(Time-To-First-Token, TTFT),它直接取决于AI需要消化多少输入内容。输入越长,等
中国科学院研究团队利用“夸父一号”卫星观测数据,首次揭示2024年10月特大地磁暴由暗条与活动区日冕物质抛射共同驱动。研究通过直接成像证实了双CME结构,并发现其相互作用导致磁场压缩与复杂变化,这为理解极端空间天气和提升预报精度提供了关键依据。
中国科学院大连化学物理研究所成功研发“高比功率阴极闭合式风冷电堆”技术,为工业无人机打造了轻量化、高功率的“氢能心脏”,使其续航能力提升2倍以上。该技术通过催化层多尺度调控、非对称水分传输和微通道强化传热三大创新,解决了风冷燃料电池的行业难题,电堆比功率达1970瓦 千克。目前技术已通过鉴定,达到国
来源:环球时报 【环球时报报道 记者 李迅典】当人工智能(AI)的浪潮席卷日常生活,我们习惯于向它询问天气、撰写邮件,却很少设想,它能否解开一道艰深的偏微分方程,预测一次剧烈的太阳耀斑爆发,甚至在短短30天内,精准定位3个全新的药物靶点。这个设想,如今正走向现实。4月28日,中国科学院在北京正式揭晓
4月28日,中国科学院在北京正式发布“磐石100”模型体系 人工智能赋能科学研究这事儿,最近有了一个标志性的节点。4月28日,中国科学院在北京正式发布了“磐石100”模型体系。这套体系以“磐石”科学基础大模型为智能底座,构建了一个覆盖数学、物理、材料、天文、环境、空天、地理及生命科学八大重点领域的学
热门专题
热门推荐
在日常工作、线上沟通或是学习过程中,截图几乎成了每个人的高频操作。面对市面上琳琅满目的截图工具,如何选择一款清晰、高效又功能趁手的软件,确实是个值得聊聊的话题。今天,我们就来盘点几款备受好评的截图应用,希望能帮你轻松应对各种截图场景。 1、截图帝:功能全面的效率助手 这款工具主打操作简便与功能实用,
对于日语学习者而言,选择合适的工具往往能让学习效果事半功倍。面对市场上琳琅满目的学习资源,一款设计科学、功能匹配的App,能够高效地帮助你从五十音图入门,逐步攻克词汇、语法乃至听说读写的各个难关。那么,目前有哪些备受好评的日语学习软件值得推荐呢?以下这几款应用,或许能成为你日语进阶之路上的得力伙伴。
近期,CGMagazine对赛睿SteelSeries推出的旗舰级游戏耳机Arctis Nova Pro OMNI进行了全面评测。这款耳机的最大亮点,无疑是其创新的OMNIplay多设备互联功能——它允许用户在多个音源设备间实现无缝切换,甚至能同步监听多个音频输入。设想一下,当你沉浸于激烈的游戏对战
探讨Cosplay的魅力,总离不开那些令人印象深刻的精彩演绎。今天为大家带来的这组作品,出自韩国知名Coser(@baby_hippo__)之手,她也被粉丝们亲切地称为“韩援大姐姐”。凭借其出众的身材条件和极具张力的形体表现,这组作品再次证明,在视觉艺术领域,完美的“身材数据”本身就是一种极具说服力
在《明日方舟:终末地》中,前瞻兑换码是玩家开荒阶段获取资源的重要途径,能有效加速前期发展,积累宝贵物资。不过,如何高效领取并使用这些福利,其中有一些实用技巧值得了解。 首先,关键在于信息获取。官方渠道始终是最可靠的信息来源,建议密切关注游戏官网公告、官方社交媒体账号以及游戏内的系统邮件。一旦有新的兑





