鲲云科技发布CAISA芯片数据流技术突破提升算力性价比_AI热点日报

鲲云科技发布CAISA芯片数据流技术突破提升算力性价比

类型：热点整理2026-06-29

2020年6月23日，鲲云科技在深圳举办了一场新品发布会，正式推出了全球首款数据流AI芯片CAISA——该芯片定位于高性能AI推理，并已实现量产。过去十年间，AI芯片行业一直在比拼算力堆叠，但问题随之而来：算力堆上去之后，真的能转化为实际可用性能吗？鲲云这次带来的并非PPT概念，而是实实在在的量产芯

2020年6月23日，鲲云科技在深圳举办了一场新品发布会，正式推出了全球首款数据流AI芯片CAISA——该芯片定位于高性能AI推理，并已实现量产。过去十年间，AI芯片行业一直在比拼算力堆叠，但问题随之而来：算力堆上去之后，真的能转化为实际可用性能吗？鲲云这次带来的并非PPT概念，而是实实在在的量产芯片。他们凭借自研的数据流架构，在实测算力上实现了跨越式突破。数据显示，在同类别产品中，芯片利用率被提升了最高达11.6倍；此外，第三方测试结果颇具说服力：仅需三分之一的峰值算力，CAISA就能跑出相当于英伟达T4最高3.91倍的实测性能。换言之，无需依赖更大的芯片面积或更先进的制程，通过优化数据流动路径和计算次序，就能显著提升实测性能，从而为用户带来更高性价比的算力体验。

发布会现场汇聚了深圳市政府领导、合作伙伴以及学术界专家——从市领导到山东省产研院，从英特尔到浪潮、戴尔，再到清华及鹏城实验室的多位教授，共同为首款量产数据流AI芯片送上了祝福与寄语。不过说到底，真正的硬实力还是要靠技术本身来验证。

超高芯片利用率，定制数据流芯片架构完成3.0升级

此次发布的CAISA芯片搭载了鲲云自研的定制数据流架构CAISA 3.0。相较于上一代，架构效率与实测性能均实现了显著跃升，同时对算子的支持更加通用，基本覆盖了当前主流神经网络在检测、分类、语义分割等场景的部署需求。在并行度方面，CAISA 3.0提供了4倍更高的选择，架构可拓展性大幅增强。关键突破在于：芯片内每个CAISA引擎可同时处理AI工作负载，峰值算力提升了整整6倍，而芯片利用率依然维持在95.4%的高位——实测性能也呈现出线性增长态势。再加上新一代架构对编译器RainBuilder的支持更加友好，软硬件协同更加顺畅，系统层面的端到端体验自然随之提升。

CAISA3.0架构图

从技术路线来看，CAISA 3.0在数据流方向上已达到全球领先水平。传统指令集架构采用冯·诺依曼方式，通过指令执行次序控制计算顺序，将数据搬运与数据计算分离，以此保证计算通用性。而CAISA架构则在流动次序上做文章：通过重叠计算流与数据流消除空闲计算单元，并借助动态配置确保对AI算法的通用支持，突破了旧式指令集对芯片算力的天花板。本次升级重点攻克了数据流架构在AI计算平台上的三大核心难题：

1. 高算力性价比：目标只有一个——让每个时钟、每个计算单元都执行有效计算。通过压缩空闲时钟，将芯片的实测性能推向物理极限。

2. 高架构通用性：使所有主流CNN算法在CAISA上均能实现高利用率，而非挑食的架构。

3. 高软件易用性：专门配备一套编译工具链，实现端到端自动化部署。用户无需了解底层数据流细节，只需简单两步即可完成算法迁移。

至于具体实现方式，可以往下详细拆解——

1. 高算力性价比：时钟级准确的计算

CAISA 3.0架构摒弃指令操作，完全依赖数据流驱动计算。这意味着可以实现时钟级准确的计算——每个时钟周期都被精确分配，硬件计算资源的空闲时间被压缩到最低。具体手段包括：让数据计算与流动重叠，消除空闲时钟；对算力资源进行动态平衡，消除流水线瓶颈；通过时空映射最大化复用芯片内数据流带宽，减少对外部存储的依赖。最终结果是，CNN算法的计算数据在CAISA 3.0中可以持续运转，芯片利用率飙升至95.4%。在同等峰值算力下，实测算力比GPU高出3倍以上，为用户节省了实实在在的成本。

2. 高架构通用性：流水线动态重组

为了让芯片高效支持不同的深度学习算法，CAISA 3.0采用了流水线动态重组技术。芯片分为两层设计：架构层配备数据流引擎、全局数据流网和全局数据流缓存；引擎内部则由算子模块、局部数据流网和局部数据流缓存构成。在数据流配置器的控制下，连接关系和运行状态均可自动动态配置，相当于为每个AI算法临时定制一条高性能流水线。这样一来，目标检测、分类、语义分割等常见应用都能在芯片上流畅运行。

3. 高软件易用性：算法端到端自动化部署

RainBuilder架构图

配套的RainBuilder编译工具链为CAISA 3.0打造了“一键部署”能力。开发者无需了解底层架构细节，只需两步即可完成算法迁移。工具链会自动提取主流框架（TensorFlow、Caffe、Pytorch、ONNX等）中的网络结构和参数，并针对CAISA结构进行优化。上层的Runtime和Driver模块负责硬件管理并提供标准API接口，而且基于精确的性能模型，算法能自动映射到架构上。整个过程对用户透明，几乎没有学习门槛。

首款量产数据流AI芯片，CAISA带来AI芯片研发新方向

CAISA芯片

作为全球首款数据流AI芯片，CAISA集成了四个CAISA 3.0引擎，拥有超过1.6万个MAC单元，峰值性能达到10.9TOPs。采用28nm工艺，通过PCIe 3.0×4与主处理器通信，并配备双DDR通道，每个引擎带宽超过340Gbps。

CAISA芯片架构图

这款芯片面向边缘和云端推理场景，最高95.4%的芯片利用率是其最大优势。对常用AI算子的支持也非常全面，通过数据流网络中的算子灵活配置与组合，绝大多数CNN算法都能高效运行。配套的RainBuilder 3.0工具链实现了模型端到端部署，软件工程师集成起来十分便捷。

鲲云科技创始人牛昕宇发布全球首款数据流AI芯片

高算力性价比的AI计算平台星空加速卡系列产品发布

星空加速卡系列产品图

发布会上，鲲云科技创始人与CEO牛昕宇博士还同步推出了基于CAISA芯片的星空系列加速卡——X3和X9，分别面向边缘与数据中心场景。同时公布了由人工智能产业技术联盟（AIIA）测试的、在ResNet-50、YOLO v3等主流网络上的实测性能数据。

星空X3加速卡发布

星空X3加速卡搭载单颗CAISA芯片，采用工业级半高半长单槽PCIe板卡设计，轻量化规格使其能够适配PC、工业计算机、NVR、工作站、服务器等多种设备。与英伟达边缘旗舰Xavier相比，X3的实测性能提升了1.48到4.12倍。

*模型参考：https://github.com/pushyami/yolov3-caffe/blob/master/deploy.prototxt

星空X9加速卡则搭载了4颗CAISA芯片，峰值性能达到43.6TOPS，主攻高性能场景。与英伟达T4对比，X9在ResNet-50、YOLO v3等模型上，芯片利用率提升了2.84到11.64倍。实测性能方面，ResNet50达到5240FPS，与T4接近；但在YOLO v3、UNet Industrial等检测与分割网络中，实测性能直接领先1.83到3.91倍。更关键的是，延迟比T4降低了1.83到32倍。数据流架构所提供的这条不同于“堆峰值算力”的技术路线，实战效果已经一目了然。

*模型参考：https://github.com/pushyami/yolov3-caffe/blob/master/deploy.prototxt

鲲云通过CAISA数据流架构提升芯片利用率，意味着在达到同等实测性能的条件下，峰值算力的要求可降低3到10倍，制造成本自然随之下降。目前星空X3加速卡已经量产，X9将于8月推向市场。鲲云科技也成为国内首批在发布会上直接晒出Benchmark的AI芯片公司之一。

商业落地先行，鲲云加速卡实现多领域规模落地

作为一家技术驱动的AI芯片企业，鲲云从成立之初就从未忽视商业落地。目前已与多家行业巨头建立战略合作，是英特尔全球旗舰FPGA合作伙伴，在技术培训、营销推广与应用部署方面共同推进；与浪潮、戴尔达成战略签约，在AI计算加速领域深入合作；与山东产业技术研究院共建人工智能研究院，推动芯片及应用的规模化落地。“星空”加速卡已在电力、教育、航空航天、智能制造、智慧城市等领域实现实际部署。从2016年成立至今，鲲云完成了天使轮、Pre-A轮和A轮融资，在深圳、山东、伦敦均设有研发中心。2018年成立的人工智能创新应用研究院，定位是打造产业化技术平台，支持AI最新技术在垂直领域快速落地，同时启动高校计划开展课程培训与科研合作。除了与Intel合作培训课程，鲲云人工智能应用创新研究院已与帝国理工学院、哈工大、北航、天大、港城大等高校成立联合实验室，专注于定制计算、AI芯片安全、工业智能等前沿课题。

来源：https://m.elecfans.com/article/1234618.html

人工智能

延伸阅读

补充最近整理过的热点入口。