游乐游手机版
首页/科技数码/文章详情

阿里平头哥镇岳510:AI基础设施新基石

时间:2025-09-28 15:43
“存储是保证大模型正常运行的基础。”平头哥半导体产品总监周冠锋向(公众号:)说到。在大模型时代,全球正掀起大规模算力基建潮。“算力、算力,还是算力”的口号成为行业对这一趋势的直白概括,不少人将算力视
"存储系统是大模型运行的命脉所在。"平头哥半导体产品总监周冠锋在采访中强调道。 当前全球正经历一场空前的大模型算力建设热潮,"算力为王"的呼声不绝于耳,多数人将计算能力视为最关键的竞争要素。 然而很多人忽略了,从千亿参数模型训练到实时推理应用,EB级海量数据需要稳定输送存储平台,而数据的安全性保障、高效调用都依赖于存储系统的可靠运行。没有高性能存储的支撑,再强的算力也会陷入"数据短缺"的尴尬境地。 这揭示了大模型时代基础设施建设的本质:表面上看似是"算力竞赛"的技术革命,实际上需要"存储支撑"作为根基。 根据中国信通院发布的《2025先进存储技术研究报告》显示,我国数据产量持续攀升,但存储基础设施建设相对滞后,存在明显的"数据存储缺口"。 在数据生产能力与存储容量方面,2024年数据年产量从32.85ZB增长到41.06ZB,增长率达25%,而同期存储总量仅由1.73ZB增至2.09ZB,增速为20.81%,存储能力增长速度明显跟不上数据生产步伐。 "智算中心的算力消化主要服务于大模型训练、推理和微调开发,这反映的不仅是计算能力的价值,更是算力+存储+网络传输的综合能力体现。"某智算云领军企业负责人表示,智算中心的组网方案如果存在设计缺陷,在实际运营中就会遭遇各种瓶颈。 某算力集群就曾因计算存储比设计不当,导致工作负载率仅维持在10%。经过存储性能优化后,使用率提升至20%-30%,客户数量也随之激增。 面对存储短板制约算力效率的现状,如何系统性提升存储能力?如何在算力集群中实现存储优化?平头哥镇岳510正在为这些问题提供切实可行的解决方案。 从国家政策到企业布局,AI基础设施已成为全球科技竞争的战略高地。 阿里集团CEO吴泳铭在2025云栖大会上指出,未来五年全球AI领域总投资预计超过4万亿美元,这将是人类历史上最大规模的算力与研发投入。 2025年初,阿里宣布三年内投入超3800亿元建设云计算和AI基础设施,随后吴泳铭在云栖大会上重申这一规划并承诺追加投资。实际进展显示,过去一年阿里在AI基础设施上的投入已超1000亿元,2025年资本支出预计将达到1100-1200亿元。 随着阿里云在墨西哥、日本等地扩建数据中心,以及在巴西、法国等地新增云计算节点,其全球算力网络持续扩展。但同时也面临"算力-存储-网络"协同优化的挑战。 仅关注计算芯片性能很容易遭遇"内存墙"等存储限制。在大模型训练与推理过程中,频繁读取PB级数据集、存储TB级检查点文件,以及长对话场景下的KV缓存问题,都可能让昂贵的GPU资源处于闲置状态。 针对这些问题,国内厂商纷纷寻求突破。镇岳510的出现,补齐了阿里及其合作伙伴在先进存储能力上的需求,构建了从数据生成到存储再到调用的高效闭环。 这款由平头哥研发的高性能SSD主控芯片具备4μs超低时延,比行业平均水平低30%,配合340万IOPS的随机读取能力和14GB/s的顺序读取带宽,能够为GPU提供持续稳定的数据供给。 其创新之处在于"双模式适配"设计:向上支持pSLC模式降低随机读取延迟,适配数据预处理阶段的需求;向下兼容ZNS+QLC方案,通过顺序写入节省存储空间,兼顾大容量冷数据存储的经济性。 在阿里云的大规模计算实践中,存储与计算的协同效率直接影响整个集群的性能表现。 "算力集群的处理过程实质上是数据从存储到计算的搬运过程。"周冠锋解释道,"存储系统能否以更高带宽、更低延迟提供数据,将直接影响计算资源的利用率。" 特别是在计算集群出现故障时,检查点的保存效率尤为关键:保存时间越短,训练中断风险越低,业务连续性越好,整体计算效率也就越高。 这一原理在阿里云的实际运营中得到了充分验证。此前阿里云主要使用HDD作为基础存储介质,但在大模型数据预处理和频繁检查点写入等场景中,其有限的带宽和IOPS表现堪忧。 虽然曾采用傲腾产品作为缓存层解决方案,但随着该产品停产,急需替代方案。镇岳510通过适配pSLC NAND技术,不仅超越了傲腾的性能表现,随机读取带宽提升17%,随机写入IOPS提高4%,同时还大幅降低了整体成本。 目前该方案已在阿里云OSS等场景进行测试,即将进入规模化应用阶段。 为进一步优化存储方案,平头哥与阿里云合作开发ZNS+QLC解决方案。虽然QLC NAND具备成本优势,但传统主控芯片存在写入放大问题。镇岳510通过分区管理和智能磨损均衡算法,既保持了QLC的经济性,又延长了SSD使用寿命。 这些技术创新不只服务于AI场景,在阿里云EBS等核心产品中也展现出优势。面对多租户混合负载场景,镇岳510通过硬件级QoS保障机制,实现任务隔离和动态资源分配。测试数据显示,其在混合读写场景下的99%时延表现仅为竞品的56%和84%。 技术价值最终需要通过规模化落地来实现。镇岳510借助阿里云平台优势,采用"内部验证+生态合作"的双轨模式推进商业化。 在阿里云EBS服务中,镇岳510显著提升了系统性能和并发处理能力。同时,平头哥与忆恒创源、得瑞领新等行业领先企业展开合作。忆恒创源基于该主控推出的PBlaze7 7A40系列SSD,成为首款突破4K随机写入100万IOPS的企业级产品。 面向未来,周冠锋表示:"平头哥将持续研发下一代SSD主控芯片,以应对AI算力增长带来的存储性能挑战。" (本文为原创内容,未经许可禁止转载。)
来源:https://www.leiphone.com/category/chips/Fta1H7NvfMpcgT3W.html
上一篇2026款大众CC配置升级价格不变,仿皮座椅引热议 下一篇2030年我国新能源车渗透率将达70%,行业加速转型
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
优必选CEO周剑:家庭机器人生态核心投入过半精力
科技数码 · 2026-07-01

优必选CEO周剑:家庭机器人生态核心投入过半精力

先说几个核心判断:优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上,直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进,现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景,另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛
科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛

6月30日,申银万国在光连接系列研报中重点指出,MPO光连接器领域的投资机会值得高度关注。通俗来说,随着AI算力集群持续扩张,光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件,如今它直接决定着链路插损、可

龙岗AR实景剧本游内测体验短板有效破解之道
科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上,区级部门一次性推出了7个AI“龙搭子”。其中,名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解,依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”,已在今年五一假期发布了内测版本。经过一个月市场验证后,该项目正式启动面向全社会的

南下资金6月30日净买入中芯国际与建滔积层板
科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日,南下资金持续大举买入港股,单日净流入金额高达58 95亿港元。接下来,我们直接盘点哪些个股获得资金青睐、哪些遭到减持: 净买入方面,中芯国际领跑全场,单日吸金19 33亿港元;建滔积层板紧随其后,净买入10 59亿港元;腾讯控股获得7 65亿港元净流入;智谱(02513 HK)也有6 5

电动汽车电池新国标7月实施热失控不起火不爆炸
科技数码 · 2026-07-01

电动汽车电池新国标7月实施热失控不起火不爆炸

自2026年7月1日起,两项关乎电动汽车安全的核心强制性国家标准将正式实施,为行业加装“安全锁”——《电动汽车安全要求》(GB 18384-2025)与《电动汽车用动力蓄电池安全要求》(GB 38031-2025)同步落地。此次标准升级,从整车架构与电池系统两大维度,精准填补了近年来多起事故暴露出的