游乐游手机版
首页/科技数码/文章详情

昇腾生态突破:上交大攻克超长上下文推理难题,性能大幅提升

时间:2025-11-26 21:31
随着大语言模型在文本分析、智能问答等场景的广泛应用,处理1M超长文本推理时,常常面临显存不足、运算速度卡顿的行业痛点,严重限制了超长文本场景的应用。近日,上海交通大学李健教授团队依托上海交通大学 鲲

随着大语言模型在文本分析和智能问答等领域的广泛应用,处理100万tokens(约70万汉字)以上的超长文本推理时,行业长期面临着显存不足、运算速度受限的痛点,这极大地限制了超长文本场景的应用潜力。最近,上海交通大学李健教授团队依托上海交大-鲲鹏升腾科技创新中心的算力支持,基于vLLM-Ascend推理框架研发出一套针对超长上下文推理的稀疏注意力与KV Cache分层缓存管理系统。在升腾AI全栈软硬件平台的全面赋能下,该项目成功解决了单卡支持超长上下文推理时显存与性能难以兼顾的双重难题,同时显著提升了系统吞吐量。

\

项目的核心创新在于设计了KV Cache分级缓存集成机制。该机制先对推理任务进行实时分析,智能识别Top-K重要注意力块并集中算力处理,从源头提升计算效率;同时采用数据冷热分层存储策略,根据数据访问频率将生成数据动态划分为高频热数据与低频冷数据,再针对性优化存储位置,大幅减少资源浪费。这一机制的成功落地离不开升腾CANN异构计算架构的动态调度能力,能够精准控制冷热数据在显存与主存间的流转,有效降低数据迁移带来的性能开销。最终,该方案实现了单卡流畅处理超过100万tokens的超长文本推理任务,系统整体吞吐量提升超过39%,彻底突破了传统系统在处理长序列任务时的显存与性能瓶颈。

项目同时对元数据结构与缓存机制进行了深度优化,其中数据索引与掩码设计是关键支撑——通过精简索引结构、合并掩码维护步骤,有效减少重复运算,使升腾NPU算力更集中于注意力计算与文本生成等核心任务,显著提升硬件利用效率。相关优化已通过vLLM-Ascend推理框架灵活集成,确保了技术方案的顺利落地。

目前,该项目源代码已在Gitee社区开源,后续将逐步推送至升腾开源生态,并入GitHub社区vLLM-Ascend项目专区。此次技术突破不仅为超长文本推理提供了高效的解决方案,更印证了升腾生态在AI创新中的赋能价值。未来,随着该系统在更多行业场景的落地应用,升腾将持续为AI技术研发提供算力与技术保障,推动大语言模型在长文本解析、智能办公、数字孪生等领域的深度融合,加速人工智能产业化进程。

来源:https://www.itbear.com.cn/html/2025-11/1030295.html
上一篇骁龙X80基带解析:第五代加持,支持卫星通信 下一篇技嘉X870E AORUS XTREME X3D主板上市:专为X3D处理器优化
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
泰坦军团战魂KG277VPLUS双模显示器27英寸4K165Hz/520Hz仅1888元
科技数码 · 2026-07-03

泰坦军团战魂KG277VPLUS双模显示器27英寸4K165Hz/520Hz仅1888元

泰坦军团“战魂KG277VPLUS”27英寸显示器发售,支持4K165Hz与FHD520Hz双模切换,定价1888元。采用FastIPS面板,97%DCI-P3色域,配备升降支架及双HDMI2 1和双DP1 4接口。

苹果调价影响消费需求 2026年全球笔电出货量或降13.6%
科技数码 · 2026-07-03

苹果调价影响消费需求 2026年全球笔电出货量或降13.6%

迈入2026年,DRAM与NAND闪存的供应持续紧张及价格不断攀升,正逐步传导至终端消费市场。可以预见,下半年市场环境将更加严峻。上半年多家PC厂商已陆续上调产品定价,最终连苹果也不得不跟进,宣布提升iPad、Mac及家居设备的价格,以应对存储成本的快速上涨。 TrendForce分析指出,苹果全面

苹果iPhone 18 Pro自研C2芯片或不支持5G毫米波
科技数码 · 2026-07-03

苹果iPhone 18 Pro自研C2芯片或不支持5G毫米波

苹果自研C2芯片仅支持Sub-6GHz,不支持5G毫米波。因此,美版iPhone18Pro继续采用高通基带方案以支持毫米波,而其他地区版本则搭载苹果自研C2芯片。这一差异将导致在毫米波覆盖的市场中,用户峰值速率可能显著低于美版用户。

纳睿雷达推出睿宸超精细化短时临近AI气象大模型
科技数码 · 2026-07-03

纳睿雷达推出睿宸超精细化短时临近AI气象大模型

纳睿雷达近日释放了一项重磅成果。2026年7月1日,公司正式对外发布了两款自主研发的全新产品:一款是“WDSPT0152型”S波段全极化多功能有源相控阵雷达,另一款则是名为“睿宸”的超精细化短时临近AI气象大模型。从产品战略来看,此次发布直指气象监测与灾害预警领域的技术制高点。 先来看这款S波段雷达

南航国际创新港一期交付 四大专业园区打造空天产业强磁场
科技数码 · 2026-07-03

南航国际创新港一期交付 四大专业园区打造空天产业强磁场

近日,南京航空航天大学与六合区深度合作的标杆项目——南航国际创新港一期正式交付投用。两个地块陆续启用,成功串联起高校科研能量、地方产业载体与市场创新主体,为南京打造全国领先的航空航天产业创新中心、助力江苏布局商业航天全产业链,提供了坚实的物理支撑。 该创新港一期位于六合区雄州街道,分为3号和4号两个