近期,K2模型在最新榜单中直接跃升至全球第三,国产AI模型又增添了一名极具竞争力的选手。不少人在猜测,若R2模型问世,是否会带来更惊艳的表现。我原本打算在ClaudeCode中运行测试,却发现推理速度与兼容性都不太理想,或许是因为用户访问量过大,官方平台也出现了明显卡顿。转而尝试Groq平台,发现模型列表中已经集成了K2,便决定用它跑一轮测试。结果依然让人眼前一亮,表现堪称一鸣惊人。
以下是实测的具体数据:
首字时延为662毫秒,每秒输出326个tokens。


截屏无法完整展现全过程,通过录屏可以更直观地感受实际效果:
第一次输出的文字内容较少,未能完全发挥模型实力;第二次的输出代码则更为直接地展现了K2的推理能力。
对于开发者而言,时间就是效率,打个盹的功夫代码就已生成完毕,这种使用体验确实令人印象深刻。
与官方体验的差异在于:官网虽然免费使用,但用户量一大就容易卡顿;使用Agent调用时,超出免费额度的token需要自行按量付费。
原本还想继续测试硅基流动的模型推理速度,可惜API key接口暂时无法使用。
针对不熟悉Groq的同学,这里做一个简要科普:
Groq芯片在“做少”与“靠软件”两方面走得比谁都激进。“做少”使其能够利用极高时钟频率一次性完成每一层参数的计算,“靠软件”则同时解决了内存、带宽和计算三大瓶颈,因此推理速度远超传统GPU。
1. TSP架构:将GPU的三级流水线转换为单级超长流水线
传统GPU在执行计算时,会将一个算子(如 matmul → ReLU → matmul …)拆分成大量micro-kernel,其间反复读写SRAM/HBM,线程调度与cache miss带来的开销相当可观。
Groq的Tensor Streaming Processor则设计为单指令流、超长流水线架构:
数据从北端流入,仅向南端流动,绝无回头路径,省去了访存仲裁与cache一致性维护。每个时钟周期均可完成一层网络的全部计算——每一拍都有一组320×320的乘加单元并行工作,计算结果直接传送给下游单元。所有运算都在片上完成,无需依赖外部HBM/DRAM,权重提前“驻留”在4×128 kiB的分布式SRAM bank中,延迟固定且可预测。时钟频率高达900 MHz~1 GHz,远超传统GPU的1.8~2 GHz GDDR6/HBM频率,“算得快”加上“传得少”,整体吞吐量自然提升一个量级。
2. 确定性编译器:提前规划路径,生成“零冲突”指令
Groq的编译器会在离线阶段将权重、激活值、计算顺序全部排定,生成可重复的周期表。这样一来,完全消除了cache miss、线程分歧和不一致问题,延迟完全固定。片上网络采用2-D mesh结构,每个周期交换256 bit数据,路由路径在编译阶段就已确定,如同火车时刻表般精确,确保任意两条数据不会在同一个crossbar上碰撞。RAM→SRAM→ALU的延迟也被提前写进指令,硬件只需严格按指令执行,省去了动态调度带来的功耗与复杂性。
3. 同时攻克内存墙与带宽墙
GPU的典型痛点在于:当模型参数超出显存容量时,需要分片并通过PCIe反复搬运,带宽成为性能天花板。
Groq的应对策略:单卡SRAM仅220 MB,但足以“整吞”7B~8B量级的模型权重(以Int8精度为例)。若需处理70B或405B以上的大模型,直接串联多张卡片,编译器将不同层分配给各卡的SRAM,只有激活值在卡间流动,参数始终驻留于SRAM中,因此仍能保持确定性时延。
实测对比(官方及社区复现数据):
Llama-3-8B在GroqChip-1上跑出850 token/s,RTX4090 FP16约140 token/s,H100 FP16约200~230 token/s。Llama-2-70B,Groq用8卡实现300 token/s;A100 80G×8 PCIe约50 token/s。
4. 软件栈极简:告别kernel fusion与CUDA的繁琐
编写内核、调整TileSize、优化TensorCore等繁重工作在Groq中全部消失。开发者只需将ONNX或GPTQ模型直接喂给groqit,剩下的都由编译器自动完成静态路径规划。
一句话总结:
其他厂商将AI模型当作图形任务处理——需要海量线程、通用缓存和动态调度。而Groq则将其视为硬件电路来设计——先全面铺开,再一口气跑完,因此快得令人难以置信。
