AI芯片软硬结合的正确理解方式

时间：2026-06-04 17:22

最近，Taalas HC1 芯片在行业内引发了广泛关注。这家仅有24名成员的小型公司，将 Llama 3 1 8B 模型直接“固化”在6nm硅片之上，实现了高达17000 token s的推理速度，而功耗仅为英伟达 H200 的零头。消息传出后，不少人在热议“这项技术是否可靠”以及“它能否取代英伟

最近，Taalas HC1 芯片在行业内引发了广泛关注。这家仅有24名成员的小型公司，将 Llama 3.1 8B 模型直接“固化”在6nm硅片之上，实现了高达17000 token/s的推理速度，而功耗仅为英伟达 H200 的零头。

当AI刻进硅片：软硬结合这件事，我们以前理解错了

消息传出后，不少人在热议“这项技术是否可靠”以及“它能否取代英伟达”。这些确实是关键问题，但更值得深入探讨的是另一个方向的议题——

关于软硬件协同设计，我们此前的认知可能存在偏差。

第一次浪潮：软件+硬件，两个独立组件的拼接

从计算机的起源看，软件与硬件本就是截然不同的概念。

1945年，冯·诺依曼提出了存储程序概念：程序与数据共同存放在内存中，CPU 逐条取指、译码、执行。这一架构统治了全球计算机长达70年。

在此体系下：

软件是一系列指令集合（例如“先计算1+1，再存储到A地址，随后判断是否等于2”）
硬件则是执行这些指令的载体（CPU、内存、总线）
两者通过指令集架构（ISA）连接，例如 x86、ARM、RISC-V

因此，所谓的“软硬结合”，本质上是在通用硬件平台上编写软件。硬件本身不具备理解能力，完全依赖指令的输入。

这一模式的极致代表是 Intel 与微软的 Wintel 联盟。用户无需更换硬件，仅通过更换软件即可实现功能切换。通用性被发挥到极致，但代价是效率的牺牲。

第二次浪潮：AI+通用硬件，借助 GPU 的算力

深度学习兴起后，人们发现 GPU 在矩阵运算方面具有独特优势。于是，英伟达从一家游戏显卡公司转型为 AI 计算领域的领军企业。

这一阶段的特征是：

硬件仍保持通用性——GPU 可以用于渲染游戏、加密货币挖矿以及 AI 计算
AI 作为“应用层”运行在现有硬件之上——类似于调用库函数来使用 GPU
软硬结合 = 为通用硬件开发专用的 AI 库（如 cuDNN、TensorRT、CUDA）

这种方法比 CPU 快了很多，但冯·诺依曼架构的瓶颈依然存在——每一层计算中，权重都需要从 HBM 搬运到计算单元，计算完成后存回，再搬运下一层。内存带宽成为性能天花板。

H200 运行 Llama 3.1 8B 时仅能达到约 230 token/s 的速度，并非芯片本身不够快，而是搬运权重的时间占据了 99%。

第三次浪潮：AI原生+硬件，模型即芯片

Taalas HC1 展现的是另一条极致路线。

它采取了一种极端方法：

将模型的权重转化为金属互连层的通孔——每个权重值对应一组物理 via 的存在与否
将计算逻辑转化为固定的组合逻辑门——前向传播即信号沿物理路径流动
无需指令、无需取指译码、无需缓存一致性——“计算时权重已就位”

他们称其为“模型即计算机”（Model-as-Computer），这并非夸张之词。

这意味着什么？软件与硬件之间的那一层“接口”被彻底消除了。

过去：
编写代码 → 编译 → 指令 → CPU 执行训练模型 → 导出权重 → GPU 加载 → 搬运 → 计算

现在：
训练模型 → 将权重转化为物理连接 → 通电即推理

不存在“加载”和“搬运”环节。模型本身，直接构成了硬件的物理结构。

本质差异何在？

用一个类比来阐释：

传统软硬结合 = 乐高积木 + 说明书
你拥有一箱乐高积木（通用硬件），想拼什么就参考什么说明书（软件）。今天拼城堡，明天拆了拼宇宙飞船。灵活性强，但拼装耗时，且每次拼好后无法改变形状。

AI + 硬件的极致（Taalas方案）= 一块已雕刻完成的浮雕
大理石上已刻好完整的图案（模型权重物理化），你无需拼装，光线照射上去图案便呈现。速度快得惊人，但图案固定——要换图案，必须重新雕刻一块石头。

维度	传统软硬结合	AI + 硬件结合
核心范式	指令驱动	权重驱动
程序位置	内存中（可读写）	物理连接中（只读）
硬件角色	指令执行者	模型本身
存储与计算关系	分离（冯·诺依曼）	一体
更新方式	更换软件	更换芯片
设计哲学	通用性优先	效率优先
接口层次	ISA/API 层面	物理层面

传统软硬结合，结合的是“接口”。AI 与硬件结合，结合的是“物理层面”。

一个生物学视角

有趣的是，这种演进与生物神经系统存在相似之处。

传统计算机 ≈ 中枢神经
大脑（CPU）发出指令，身体各部分执行。指令与身体是分离的。

AI + 硬件 ≈ 膝跳反射
信号从感受器直接传递到运动神经元，不经过大脑。延迟极短、能耗极低，但这是固定回路，无法改变。

Taalas 所做的，就是将某些 AI 推理转化为“膝跳反射级”的固定回路。自动驾驶急刹、高频交易决策、工业质检——这类场景需要的正是这种本能反应，而非“让我思考一下再行动”。

那些需要灵活思考的任务（如小说创作、规划制定、技术决策），仍需依赖通用 GPU 加大型模型。

未来不是谁取代谁

三次浪潮并非替代关系，而是分层关系。

通用 GPU 处理复杂计算（大脑皮层），AI 专用芯片负责快速响应（小脑+脊髓），存算一体技术处理极端固化逻辑（膝跳反射）。

英伟达不会被取代。但在英伟达的“通用 AI 计算”之上，必然会叠加一层极端高效但极端专用的 AI 计算——Taalas、Etched、Cerebras、Groq 各占一席，处理 GPU 做不好、CPU 做不了的任务。

这一波浪潮最有趣的地方在于：

软件与硬件之间的那层“抽象”，曾是我们最宝贵的资产——它让一枚芯片能运行一切。但到了 AI 时代，它开始成为负担。

当你把 90% 的时间都花在搬运数据上，或许该思考：我是否真的需要“通用性”？

来源：https://bbs.huaweicloud.com/blogs/478553

上一篇比超级能力更贴近人工智能编程工程实践的51个智能体与35项技能 下一篇编排逻辑从上下文到脚本：Claude Code动态工作流深度拆解

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-07-02

内网RPA离线部署从依赖打包到7×24无人值守踩坑与避坑方案

这三年，内网RPA项目接了不下二十个。每次开局都像闯关——断网、缺依赖、多机同步、定时执行、批量分发、源码保护、AI离线化，八个坑一个比一个深。今天把这些实战经验整理出来，希望能帮正在内网搞自动化的兄弟们少踩点雷。一、内网无网络环境怎么部署RPA流程：先搞清楚什么叫“真离线” 很多工具宣传“支持本

AI教程 · 2026-07-02

水利工程师用WorkBuddy写洪水报告效率提升3倍

WorkBuddy开发者分享季水利工程师AI提效实战：用WorkBuddy撰写洪水影响评价报告，效率提升3倍 WorkBuddy 效率人工智能开发工具一、我是谁，为什么需要AI 先介绍一下自己——我是一名水利工程师，在湖南长沙的一家小型水利设计公司任职。当前行业环境不太

AI教程 · 2026-07-02

日志服务数据加工规则洞察仪表盘使用指南

数据加工诊断仪表盘想实时掌握日志服务加工功能的运行状态？直接从加工列表页点击那个“规则洞察”按钮，仪表盘就会立刻呈现出来。入口就在那儿，不绕弯子。跳转后，你可以按作业名称、实例ID或源LogStore来筛选任务状态。比如下边这张图，展示的是当前实例ID（90c9d47714dbb807d47c1

AI教程 · 2026-07-02

基于RFID的固定资产管理系统技术架构与工程实践

固定资产管理难题是众多企事业单位的普遍困扰，资产数量动辄数千件，且广泛分布于不同部门、楼层乃至园区。传统人工盘点方式在工程维度上始终面临三大关键瓶颈：采集效率低下、数据闭环中断、状态同步滞后。使用条码枪逐一扫描标签，识别距离通常不超过30厘米，操作人员需逐个寻找并扫描，盘点效率完全受限于人力。面对5

AI教程 · 2026-07-02

WorkBuddy实战用AI搭建A股智能盯盘助手省心高效

炒股的朋友们想必都深有体会——每天重复盯盘、查行情、分析板块轮动，这一整套流程下来耗费大量精力。手动翻查数据不仅身心俱疲，还很容易错过关键买卖节点。今天我们就来聊聊如何打造一款趁手的盯盘工具，借助AI替你分担这些重复性工作。背景：盯盘的核心痛点股民都有同感——每天不只要查询单只股票的实时行情，还