游乐游手机版
首页/AI教程/文章详情

AI芯片软硬结合的正确理解方式

时间:2026-06-04 17:22
最近,Taalas HC1 芯片在行业内引发了广泛关注。这家仅有24名成员的小型公司,将 Llama 3 1 8B 模型直接“固化”在6nm硅片之上,实现了高达17000 token s的推理速度,而功耗仅为英伟达 H200 的零头。 消息传出后,不少人在热议“这项技术是否可靠”以及“它能否取代英伟

最近,Taalas HC1 芯片在行业内引发了广泛关注。这家仅有24名成员的小型公司,将 Llama 3.1 8B 模型直接“固化”在6nm硅片之上,实现了高达17000 token/s的推理速度,而功耗仅为英伟达 H200 的零头。

当AI刻进硅片:软硬结合这件事,我们以前理解错了

消息传出后,不少人在热议“这项技术是否可靠”以及“它能否取代英伟达”。这些确实是关键问题,但更值得深入探讨的是另一个方向的议题——

关于软硬件协同设计,我们此前的认知可能存在偏差。

第一次浪潮:软件+硬件,两个独立组件的拼接

从计算机的起源看,软件与硬件本就是截然不同的概念。

1945年,冯·诺依曼提出了存储程序概念:程序与数据共同存放在内存中,CPU 逐条取指、译码、执行。这一架构统治了全球计算机长达70年。

在此体系下:

  • 软件是一系列指令集合(例如“先计算1+1,再存储到A地址,随后判断是否等于2”)

  • 硬件则是执行这些指令的载体(CPU、内存、总线)

  • 两者通过指令集架构(ISA)连接,例如 x86、ARM、RISC-V

因此,所谓的“软硬结合”,本质上是在通用硬件平台上编写软件。硬件本身不具备理解能力,完全依赖指令的输入。

这一模式的极致代表是 Intel 与微软的 Wintel 联盟。用户无需更换硬件,仅通过更换软件即可实现功能切换。通用性被发挥到极致,但代价是效率的牺牲。

第二次浪潮:AI+通用硬件,借助 GPU 的算力

深度学习兴起后,人们发现 GPU 在矩阵运算方面具有独特优势。于是,英伟达从一家游戏显卡公司转型为 AI 计算领域的领军企业。

这一阶段的特征是:

  • 硬件仍保持通用性——GPU 可以用于渲染游戏、加密货币挖矿以及 AI 计算

  • AI 作为“应用层”运行在现有硬件之上——类似于调用库函数来使用 GPU

  • 软硬结合 = 为通用硬件开发专用的 AI 库(如 cuDNN、TensorRT、CUDA)

这种方法比 CPU 快了很多,但冯·诺依曼架构的瓶颈依然存在——每一层计算中,权重都需要从 HBM 搬运到计算单元,计算完成后存回,再搬运下一层。内存带宽成为性能天花板。

H200 运行 Llama 3.1 8B 时仅能达到约 230 token/s 的速度,并非芯片本身不够快,而是搬运权重的时间占据了 99%。

第三次浪潮:AI原生+硬件,模型即芯片

Taalas HC1 展现的是另一条极致路线。

它采取了一种极端方法:

  1. 将模型的权重转化为金属互连层的通孔——每个权重值对应一组物理 via 的存在与否

  2. 将计算逻辑转化为固定的组合逻辑门——前向传播即信号沿物理路径流动

  3. 无需指令、无需取指译码、无需缓存一致性——“计算时权重已就位”

他们称其为“模型即计算机”(Model-as-Computer),这并非夸张之词。

这意味着什么?软件与硬件之间的那一层“接口”被彻底消除了。

过去:
编写代码 → 编译 → 指令 → CPU 执行训练模型 → 导出权重 → GPU 加载 → 搬运 → 计算

现在:
训练模型 → 将权重转化为物理连接 → 通电即推理

不存在“加载”和“搬运”环节。模型本身,直接构成了硬件的物理结构。

本质差异何在?

用一个类比来阐释:

传统软硬结合 = 乐高积木 + 说明书
你拥有一箱乐高积木(通用硬件),想拼什么就参考什么说明书(软件)。今天拼城堡,明天拆了拼宇宙飞船。灵活性强,但拼装耗时,且每次拼好后无法改变形状。

AI + 硬件的极致(Taalas方案)= 一块已雕刻完成的浮雕
大理石上已刻好完整的图案(模型权重物理化),你无需拼装,光线照射上去图案便呈现。速度快得惊人,但图案固定——要换图案,必须重新雕刻一块石头。

维度传统软硬结合AI + 硬件结合
核心范式指令驱动权重驱动
程序位置内存中(可读写)物理连接中(只读)
硬件角色指令执行者模型本身
存储与计算关系分离(冯·诺依曼)一体
更新方式更换软件更换芯片
设计哲学通用性优先效率优先
接口层次ISA/API 层面物理层面

传统软硬结合,结合的是“接口”。AI 与硬件结合,结合的是“物理层面”。

一个生物学视角

有趣的是,这种演进与生物神经系统存在相似之处。

传统计算机 ≈ 中枢神经
大脑(CPU)发出指令,身体各部分执行。指令与身体是分离的。

AI + 硬件 ≈ 膝跳反射
信号从感受器直接传递到运动神经元,不经过大脑。延迟极短、能耗极低,但这是固定回路,无法改变。

Taalas 所做的,就是将某些 AI 推理转化为“膝跳反射级”的固定回路。自动驾驶急刹、高频交易决策、工业质检——这类场景需要的正是这种本能反应,而非“让我思考一下再行动”。

那些需要灵活思考的任务(如小说创作、规划制定、技术决策),仍需依赖通用 GPU 加大型模型。

未来不是谁取代谁

三次浪潮并非替代关系,而是分层关系。

通用 GPU 处理复杂计算(大脑皮层),AI 专用芯片负责快速响应(小脑+脊髓),存算一体技术处理极端固化逻辑(膝跳反射)。

英伟达不会被取代。但在英伟达的“通用 AI 计算”之上,必然会叠加一层极端高效但极端专用的 AI 计算——Taalas、Etched、Cerebras、Groq 各占一席,处理 GPU 做不好、CPU 做不了的任务。

这一波浪潮最有趣的地方在于:

软件与硬件之间的那层“抽象”,曾是我们最宝贵的资产——它让一枚芯片能运行一切。但到了 AI 时代,它开始成为负担。

当你把 90% 的时间都花在搬运数据上,或许该思考:我是否真的需要“通用性”?

来源:https://bbs.huaweicloud.com/blogs/478553
上一篇比超级能力更贴近人工智能编程工程实践的51个智能体与35项技能 下一篇编排逻辑从上下文到脚本:Claude Code动态工作流深度拆解
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Claude Code进阶:32个Skills与8个MCP提升开发效率
AI教程 · 2026-06-04

Claude Code进阶:32个Skills与8个MCP提升开发效率

围绕ClaudeCode整理了32个亲测可用的Skills和8个MCP服务器:Skills提供标准化提示词与工作流,MCP赋予访问本地文件、浏览器等工具能力。两者均支持一键安装、自动触发,无需手动配置即可自动激活,显著提升开发、测试、部署等全流程效率。

Claude Code真实项目实战体验
AI教程 · 2026-06-04

Claude Code真实项目实战体验

前言 最近接连多个紧急项目集中推进,团队人手实在捉襟见肘。为了缓解开发压力,索性自己动手写代码——当然,如今写代码全靠Claude Code代劳,谁还手动敲键盘呢。 敢于全权交给AI来生成代码,是因为这些项目虽然紧急,但属于后台系统,与线上核心业务有一定隔离。这样的项目正是实践AI编程的最佳场景——

零基础两小时用Claude Code为对象打造专属数字衣橱
AI教程 · 2026-06-04

零基础两小时用Claude Code为对象打造专属数字衣橱

起因换季时节,对象开始翻衣柜。翻了半小时,翻出一件完全忘记存在的毛衣,两件几乎一模一样的白T,还有一条“失踪”了三个月、其实一直在最底层的裤子。她说:要是有个 App 能把衣服都存进去就好了,找的时候搜一下,买之前也能看看自己有什么。这个需求听起来很合理。正好最近对AI比较着迷,看能不能借助AI手搓

2026 Codex手机号验证教程 国内ChatGPT验证问题解决
AI教程 · 2026-06-04

2026 Codex手机号验证教程 国内ChatGPT验证问题解决

近期,不少开发者被Codex的手机号验证卡住了。OpenAI的风控力度明显加码,很多人在使用ChatGPT Codex、Codex CLI或者生成API Key的过程中,突然就被要求验证手机号。 这篇文章会深入拆解Codex触发手机号验证的根本原因,同时给国内用户提供一套可落地的接码方案,帮助你尽快

新手从零搭建OpenClaw自动化智能体全流程指南
AI教程 · 2026-06-04

新手从零搭建OpenClaw自动化智能体全流程指南

OpenClaw 智能助理:六大核心场景赋能开发者高效成长 当AI能力开始下沉到每一个开发者的桌面,真正能让人“用起来”的产品,其实比想象中少得多。多数工具要么太复杂,要么太通用,很难直接嵌入工作流。阿里云推出的OpenClaw智能助理,算是其中少有的“开箱即用”型选手——基于通义千问大模型深度定制