最近,Taalas HC1 芯片在行业内引发了广泛关注。这家仅有24名成员的小型公司,将 Llama 3.1 8B 模型直接“固化”在6nm硅片之上,实现了高达17000 token/s的推理速度,而功耗仅为英伟达 H200 的零头。

消息传出后,不少人在热议“这项技术是否可靠”以及“它能否取代英伟达”。这些确实是关键问题,但更值得深入探讨的是另一个方向的议题——
关于软硬件协同设计,我们此前的认知可能存在偏差。
第一次浪潮:软件+硬件,两个独立组件的拼接
从计算机的起源看,软件与硬件本就是截然不同的概念。
1945年,冯·诺依曼提出了存储程序概念:程序与数据共同存放在内存中,CPU 逐条取指、译码、执行。这一架构统治了全球计算机长达70年。
在此体系下:
软件是一系列指令集合(例如“先计算1+1,再存储到A地址,随后判断是否等于2”)
硬件则是执行这些指令的载体(CPU、内存、总线)
两者通过指令集架构(ISA)连接,例如 x86、ARM、RISC-V
因此,所谓的“软硬结合”,本质上是在通用硬件平台上编写软件。硬件本身不具备理解能力,完全依赖指令的输入。
这一模式的极致代表是 Intel 与微软的 Wintel 联盟。用户无需更换硬件,仅通过更换软件即可实现功能切换。通用性被发挥到极致,但代价是效率的牺牲。
第二次浪潮:AI+通用硬件,借助 GPU 的算力
深度学习兴起后,人们发现 GPU 在矩阵运算方面具有独特优势。于是,英伟达从一家游戏显卡公司转型为 AI 计算领域的领军企业。
这一阶段的特征是:
硬件仍保持通用性——GPU 可以用于渲染游戏、加密货币挖矿以及 AI 计算
AI 作为“应用层”运行在现有硬件之上——类似于调用库函数来使用 GPU
软硬结合 = 为通用硬件开发专用的 AI 库(如 cuDNN、TensorRT、CUDA)
这种方法比 CPU 快了很多,但冯·诺依曼架构的瓶颈依然存在——每一层计算中,权重都需要从 HBM 搬运到计算单元,计算完成后存回,再搬运下一层。内存带宽成为性能天花板。
H200 运行 Llama 3.1 8B 时仅能达到约 230 token/s 的速度,并非芯片本身不够快,而是搬运权重的时间占据了 99%。
第三次浪潮:AI原生+硬件,模型即芯片
Taalas HC1 展现的是另一条极致路线。
它采取了一种极端方法:
将模型的权重转化为金属互连层的通孔——每个权重值对应一组物理 via 的存在与否
将计算逻辑转化为固定的组合逻辑门——前向传播即信号沿物理路径流动
无需指令、无需取指译码、无需缓存一致性——“计算时权重已就位”
他们称其为“模型即计算机”(Model-as-Computer),这并非夸张之词。
这意味着什么?软件与硬件之间的那一层“接口”被彻底消除了。
过去:
编写代码 → 编译 → 指令 → CPU 执行训练模型 → 导出权重 → GPU 加载 → 搬运 → 计算
现在:
训练模型 → 将权重转化为物理连接 → 通电即推理
不存在“加载”和“搬运”环节。模型本身,直接构成了硬件的物理结构。
本质差异何在?
用一个类比来阐释:
传统软硬结合 = 乐高积木 + 说明书
你拥有一箱乐高积木(通用硬件),想拼什么就参考什么说明书(软件)。今天拼城堡,明天拆了拼宇宙飞船。灵活性强,但拼装耗时,且每次拼好后无法改变形状。
AI + 硬件的极致(Taalas方案)= 一块已雕刻完成的浮雕
大理石上已刻好完整的图案(模型权重物理化),你无需拼装,光线照射上去图案便呈现。速度快得惊人,但图案固定——要换图案,必须重新雕刻一块石头。
| 维度 | 传统软硬结合 | AI + 硬件结合 |
|---|---|---|
| 核心范式 | 指令驱动 | 权重驱动 |
| 程序位置 | 内存中(可读写) | 物理连接中(只读) |
| 硬件角色 | 指令执行者 | 模型本身 |
| 存储与计算关系 | 分离(冯·诺依曼) | 一体 |
| 更新方式 | 更换软件 | 更换芯片 |
| 设计哲学 | 通用性优先 | 效率优先 |
| 接口层次 | ISA/API 层面 | 物理层面 |
传统软硬结合,结合的是“接口”。AI 与硬件结合,结合的是“物理层面”。
一个生物学视角
有趣的是,这种演进与生物神经系统存在相似之处。
传统计算机 ≈ 中枢神经
大脑(CPU)发出指令,身体各部分执行。指令与身体是分离的。
AI + 硬件 ≈ 膝跳反射
信号从感受器直接传递到运动神经元,不经过大脑。延迟极短、能耗极低,但这是固定回路,无法改变。
Taalas 所做的,就是将某些 AI 推理转化为“膝跳反射级”的固定回路。自动驾驶急刹、高频交易决策、工业质检——这类场景需要的正是这种本能反应,而非“让我思考一下再行动”。
那些需要灵活思考的任务(如小说创作、规划制定、技术决策),仍需依赖通用 GPU 加大型模型。
未来不是谁取代谁
三次浪潮并非替代关系,而是分层关系。
通用 GPU 处理复杂计算(大脑皮层),AI 专用芯片负责快速响应(小脑+脊髓),存算一体技术处理极端固化逻辑(膝跳反射)。
英伟达不会被取代。但在英伟达的“通用 AI 计算”之上,必然会叠加一层极端高效但极端专用的 AI 计算——Taalas、Etched、Cerebras、Groq 各占一席,处理 GPU 做不好、CPU 做不了的任务。
这一波浪潮最有趣的地方在于:
软件与硬件之间的那层“抽象”,曾是我们最宝贵的资产——它让一枚芯片能运行一切。但到了 AI 时代,它开始成为负担。
当你把 90% 的时间都花在搬运数据上,或许该思考:我是否真的需要“通用性”?
