游乐游手机版
首页/AI教程/文章详情

AI芯片软硬结合的正确理解方式

时间:2026-06-04 17:22
最近,Taalas HC1 芯片在行业内引发了广泛关注。这家仅有24名成员的小型公司,将 Llama 3 1 8B 模型直接“固化”在6nm硅片之上,实现了高达17000 token s的推理速度,而功耗仅为英伟达 H200 的零头。 消息传出后,不少人在热议“这项技术是否可靠”以及“它能否取代英伟

最近,Taalas HC1 芯片在行业内引发了广泛关注。这家仅有24名成员的小型公司,将 Llama 3.1 8B 模型直接“固化”在6nm硅片之上,实现了高达17000 token/s的推理速度,而功耗仅为英伟达 H200 的零头。

当AI刻进硅片:软硬结合这件事,我们以前理解错了

消息传出后,不少人在热议“这项技术是否可靠”以及“它能否取代英伟达”。这些确实是关键问题,但更值得深入探讨的是另一个方向的议题——

关于软硬件协同设计,我们此前的认知可能存在偏差。

第一次浪潮:软件+硬件,两个独立组件的拼接

从计算机的起源看,软件与硬件本就是截然不同的概念。

1945年,冯·诺依曼提出了存储程序概念:程序与数据共同存放在内存中,CPU 逐条取指、译码、执行。这一架构统治了全球计算机长达70年。

在此体系下:

  • 软件是一系列指令集合(例如“先计算1+1,再存储到A地址,随后判断是否等于2”)

  • 硬件则是执行这些指令的载体(CPU、内存、总线)

  • 两者通过指令集架构(ISA)连接,例如 x86、ARM、RISC-V

因此,所谓的“软硬结合”,本质上是在通用硬件平台上编写软件。硬件本身不具备理解能力,完全依赖指令的输入。

这一模式的极致代表是 Intel 与微软的 Wintel 联盟。用户无需更换硬件,仅通过更换软件即可实现功能切换。通用性被发挥到极致,但代价是效率的牺牲。

第二次浪潮:AI+通用硬件,借助 GPU 的算力

深度学习兴起后,人们发现 GPU 在矩阵运算方面具有独特优势。于是,英伟达从一家游戏显卡公司转型为 AI 计算领域的领军企业。

这一阶段的特征是:

  • 硬件仍保持通用性——GPU 可以用于渲染游戏、加密货币挖矿以及 AI 计算

  • AI 作为“应用层”运行在现有硬件之上——类似于调用库函数来使用 GPU

  • 软硬结合 = 为通用硬件开发专用的 AI 库(如 cuDNN、TensorRT、CUDA)

这种方法比 CPU 快了很多,但冯·诺依曼架构的瓶颈依然存在——每一层计算中,权重都需要从 HBM 搬运到计算单元,计算完成后存回,再搬运下一层。内存带宽成为性能天花板。

H200 运行 Llama 3.1 8B 时仅能达到约 230 token/s 的速度,并非芯片本身不够快,而是搬运权重的时间占据了 99%。

第三次浪潮:AI原生+硬件,模型即芯片

Taalas HC1 展现的是另一条极致路线。

它采取了一种极端方法:

  1. 将模型的权重转化为金属互连层的通孔——每个权重值对应一组物理 via 的存在与否

  2. 将计算逻辑转化为固定的组合逻辑门——前向传播即信号沿物理路径流动

  3. 无需指令、无需取指译码、无需缓存一致性——“计算时权重已就位”

他们称其为“模型即计算机”(Model-as-Computer),这并非夸张之词。

这意味着什么?软件与硬件之间的那一层“接口”被彻底消除了。

过去:
编写代码 → 编译 → 指令 → CPU 执行训练模型 → 导出权重 → GPU 加载 → 搬运 → 计算

现在:
训练模型 → 将权重转化为物理连接 → 通电即推理

不存在“加载”和“搬运”环节。模型本身,直接构成了硬件的物理结构。

本质差异何在?

用一个类比来阐释:

传统软硬结合 = 乐高积木 + 说明书
你拥有一箱乐高积木(通用硬件),想拼什么就参考什么说明书(软件)。今天拼城堡,明天拆了拼宇宙飞船。灵活性强,但拼装耗时,且每次拼好后无法改变形状。

AI + 硬件的极致(Taalas方案)= 一块已雕刻完成的浮雕
大理石上已刻好完整的图案(模型权重物理化),你无需拼装,光线照射上去图案便呈现。速度快得惊人,但图案固定——要换图案,必须重新雕刻一块石头。

维度传统软硬结合AI + 硬件结合
核心范式指令驱动权重驱动
程序位置内存中(可读写)物理连接中(只读)
硬件角色指令执行者模型本身
存储与计算关系分离(冯·诺依曼)一体
更新方式更换软件更换芯片
设计哲学通用性优先效率优先
接口层次ISA/API 层面物理层面

传统软硬结合,结合的是“接口”。AI 与硬件结合,结合的是“物理层面”。

一个生物学视角

有趣的是,这种演进与生物神经系统存在相似之处。

传统计算机 ≈ 中枢神经
大脑(CPU)发出指令,身体各部分执行。指令与身体是分离的。

AI + 硬件 ≈ 膝跳反射
信号从感受器直接传递到运动神经元,不经过大脑。延迟极短、能耗极低,但这是固定回路,无法改变。

Taalas 所做的,就是将某些 AI 推理转化为“膝跳反射级”的固定回路。自动驾驶急刹、高频交易决策、工业质检——这类场景需要的正是这种本能反应,而非“让我思考一下再行动”。

那些需要灵活思考的任务(如小说创作、规划制定、技术决策),仍需依赖通用 GPU 加大型模型。

未来不是谁取代谁

三次浪潮并非替代关系,而是分层关系。

通用 GPU 处理复杂计算(大脑皮层),AI 专用芯片负责快速响应(小脑+脊髓),存算一体技术处理极端固化逻辑(膝跳反射)。

英伟达不会被取代。但在英伟达的“通用 AI 计算”之上,必然会叠加一层极端高效但极端专用的 AI 计算——Taalas、Etched、Cerebras、Groq 各占一席,处理 GPU 做不好、CPU 做不了的任务。

这一波浪潮最有趣的地方在于:

软件与硬件之间的那层“抽象”,曾是我们最宝贵的资产——它让一枚芯片能运行一切。但到了 AI 时代,它开始成为负担。

当你把 90% 的时间都花在搬运数据上,或许该思考:我是否真的需要“通用性”?

来源:https://bbs.huaweicloud.com/blogs/478553
上一篇比超级能力更贴近人工智能编程工程实践的51个智能体与35项技能 下一篇编排逻辑从上下文到脚本:Claude Code动态工作流深度拆解
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
内网RPA离线部署从依赖打包到7×24无人值守踩坑与避坑方案
AI教程 · 2026-07-02

内网RPA离线部署从依赖打包到7×24无人值守踩坑与避坑方案

这三年,内网RPA项目接了不下二十个。每次开局都像闯关——断网、缺依赖、多机同步、定时执行、批量分发、源码保护、AI离线化,八个坑一个比一个深。今天把这些实战经验整理出来,希望能帮正在内网搞自动化的兄弟们少踩点雷。 一、内网无网络环境怎么部署RPA流程:先搞清楚什么叫“真离线” 很多工具宣传“支持本

水利工程师用WorkBuddy写洪水报告效率提升3倍
AI教程 · 2026-07-02

水利工程师用WorkBuddy写洪水报告效率提升3倍

WorkBuddy开发者分享季 水利工程师AI提效实战:用WorkBuddy撰写洪水影响评价报告,效率提升3倍 WorkBuddy 效率 人工智能 开发工具 一、我是谁,为什么需要AI 先介绍一下自己——我是一名水利工程师,在湖南长沙的一家小型水利设计公司任职。当前行业环境不太

日志服务数据加工规则洞察仪表盘使用指南
AI教程 · 2026-07-02

日志服务数据加工规则洞察仪表盘使用指南

数据加工诊断仪表盘 想实时掌握日志服务加工功能的运行状态?直接从加工列表页点击那个“规则洞察”按钮,仪表盘就会立刻呈现出来。入口就在那儿,不绕弯子。 跳转后,你可以按作业名称、实例ID或源LogStore来筛选任务状态。比如下边这张图,展示的是当前实例ID(90c9d47714dbb807d47c1

基于RFID的固定资产管理系统技术架构与工程实践
AI教程 · 2026-07-02

基于RFID的固定资产管理系统技术架构与工程实践

固定资产管理难题是众多企事业单位的普遍困扰,资产数量动辄数千件,且广泛分布于不同部门、楼层乃至园区。传统人工盘点方式在工程维度上始终面临三大关键瓶颈:采集效率低下、数据闭环中断、状态同步滞后。使用条码枪逐一扫描标签,识别距离通常不超过30厘米,操作人员需逐个寻找并扫描,盘点效率完全受限于人力。面对5

WorkBuddy实战用AI搭建A股智能盯盘助手省心高效
AI教程 · 2026-07-02

WorkBuddy实战用AI搭建A股智能盯盘助手省心高效

炒股的朋友们想必都深有体会——每天重复盯盘、查行情、分析板块轮动,这一整套流程下来耗费大量精力。手动翻查数据不仅身心俱疲,还很容易错过关键买卖节点。今天我们就来聊聊如何打造一款趁手的盯盘工具,借助AI替你分担这些重复性工作。 背景:盯盘的核心痛点 股民都有同感——每天不只要查询单只股票的实时行情,还