2020年6月23日,鲲云科技在深圳举办了一场新品发布会,正式推出了全球首款数据流AI芯片CAISA——该芯片定位于高性能AI推理,并已实现量产。过去十年间,AI芯片行业一直在比拼算力堆叠,但问题随之而来:算力堆上去之后,真的能转化为实际可用性能吗?鲲云这次带来的并非PPT概念,而是实实在在的量产芯片。他们凭借自研的数据流架构,在实测算力上实现了跨越式突破。数据显示,在同类别产品中,芯片利用率被提升了最高达11.6倍;此外,第三方测试结果颇具说服力:仅需三分之一的峰值算力,CAISA就能跑出相当于英伟达T4最高3.91倍的实测性能。换言之,无需依赖更大的芯片面积或更先进的制程,通过优化数据流动路径和计算次序,就能显著提升实测性能,从而为用户带来更高性价比的算力体验。
发布会现场汇聚了深圳市政府领导、合作伙伴以及学术界专家——从市领导到山东省产研院,从英特尔到浪潮、戴尔,再到清华及鹏城实验室的多位教授,共同为首款量产数据流AI芯片送上了祝福与寄语。不过说到底,真正的硬实力还是要靠技术本身来验证。
超高芯片利用率,定制数据流芯片架构完成3.0升级
此次发布的CAISA芯片搭载了鲲云自研的定制数据流架构CAISA 3.0。相较于上一代,架构效率与实测性能均实现了显著跃升,同时对算子的支持更加通用,基本覆盖了当前主流神经网络在检测、分类、语义分割等场景的部署需求。在并行度方面,CAISA 3.0提供了4倍更高的选择,架构可拓展性大幅增强。关键突破在于:芯片内每个CAISA引擎可同时处理AI工作负载,峰值算力提升了整整6倍,而芯片利用率依然维持在95.4%的高位——实测性能也呈现出线性增长态势。再加上新一代架构对编译器RainBuilder的支持更加友好,软硬件协同更加顺畅,系统层面的端到端体验自然随之提升。
CAISA3.0架构图
从技术路线来看,CAISA 3.0在数据流方向上已达到全球领先水平。传统指令集架构采用冯·诺依曼方式,通过指令执行次序控制计算顺序,将数据搬运与数据计算分离,以此保证计算通用性。而CAISA架构则在流动次序上做文章:通过重叠计算流与数据流消除空闲计算单元,并借助动态配置确保对AI算法的通用支持,突破了旧式指令集对芯片算力的天花板。本次升级重点攻克了数据流架构在AI计算平台上的三大核心难题:
1. 高算力性价比:目标只有一个——让每个时钟、每个计算单元都执行有效计算。通过压缩空闲时钟,将芯片的实测性能推向物理极限。
2. 高架构通用性:使所有主流CNN算法在CAISA上均能实现高利用率,而非挑食的架构。
3. 高软件易用性:专门配备一套编译工具链,实现端到端自动化部署。用户无需了解底层数据流细节,只需简单两步即可完成算法迁移。
至于具体实现方式,可以往下详细拆解——
1. 高算力性价比:时钟级准确的计算
CAISA 3.0架构摒弃指令操作,完全依赖数据流驱动计算。这意味着可以实现时钟级准确的计算——每个时钟周期都被精确分配,硬件计算资源的空闲时间被压缩到最低。具体手段包括:让数据计算与流动重叠,消除空闲时钟;对算力资源进行动态平衡,消除流水线瓶颈;通过时空映射最大化复用芯片内数据流带宽,减少对外部存储的依赖。最终结果是,CNN算法的计算数据在CAISA 3.0中可以持续运转,芯片利用率飙升至95.4%。在同等峰值算力下,实测算力比GPU高出3倍以上,为用户节省了实实在在的成本。
2. 高架构通用性:流水线动态重组
为了让芯片高效支持不同的深度学习算法,CAISA 3.0采用了流水线动态重组技术。芯片分为两层设计:架构层配备数据流引擎、全局数据流网和全局数据流缓存;引擎内部则由算子模块、局部数据流网和局部数据流缓存构成。在数据流配置器的控制下,连接关系和运行状态均可自动动态配置,相当于为每个AI算法临时定制一条高性能流水线。这样一来,目标检测、分类、语义分割等常见应用都能在芯片上流畅运行。
3. 高软件易用性:算法端到端自动化部署
RainBuilder架构图
配套的RainBuilder编译工具链为CAISA 3.0打造了“一键部署”能力。开发者无需了解底层架构细节,只需两步即可完成算法迁移。工具链会自动提取主流框架(TensorFlow、Caffe、Pytorch、ONNX等)中的网络结构和参数,并针对CAISA结构进行优化。上层的Runtime和Driver模块负责硬件管理并提供标准API接口,而且基于精确的性能模型,算法能自动映射到架构上。整个过程对用户透明,几乎没有学习门槛。
首款量产数据流AI芯片,CAISA带来AI芯片研发新方向
CAISA芯片
作为全球首款数据流AI芯片,CAISA集成了四个CAISA 3.0引擎,拥有超过1.6万个MAC单元,峰值性能达到10.9TOPs。采用28nm工艺,通过PCIe 3.0×4与主处理器通信,并配备双DDR通道,每个引擎带宽超过340Gbps。
CAISA芯片架构图
这款芯片面向边缘和云端推理场景,最高95.4%的芯片利用率是其最大优势。对常用AI算子的支持也非常全面,通过数据流网络中的算子灵活配置与组合,绝大多数CNN算法都能高效运行。配套的RainBuilder 3.0工具链实现了模型端到端部署,软件工程师集成起来十分便捷。
鲲云科技创始人牛昕宇发布全球首款数据流AI芯片
高算力性价比的AI计算平台星空加速卡系列产品发布

星空加速卡系列产品图
发布会上,鲲云科技创始人与CEO牛昕宇博士还同步推出了基于CAISA芯片的星空系列加速卡——X3和X9,分别面向边缘与数据中心场景。同时公布了由人工智能产业技术联盟(AIIA)测试的、在ResNet-50、YOLO v3等主流网络上的实测性能数据。

星空X3加速卡发布
星空X3加速卡搭载单颗CAISA芯片,采用工业级半高半长单槽PCIe板卡设计,轻量化规格使其能够适配PC、工业计算机、NVR、工作站、服务器等多种设备。与英伟达边缘旗舰Xavier相比,X3的实测性能提升了1.48到4.12倍。

*模型参考:https://github.com/pushyami/yolov3-caffe/blob/master/deploy.prototxt


星空X9加速卡则搭载了4颗CAISA芯片,峰值性能达到43.6TOPS,主攻高性能场景。与英伟达T4对比,X9在ResNet-50、YOLO v3等模型上,芯片利用率提升了2.84到11.64倍。实测性能方面,ResNet50达到5240FPS,与T4接近;但在YOLO v3、UNet Industrial等检测与分割网络中,实测性能直接领先1.83到3.91倍。更关键的是,延迟比T4降低了1.83到32倍。数据流架构所提供的这条不同于“堆峰值算力”的技术路线,实战效果已经一目了然。

*模型参考:https://github.com/pushyami/yolov3-caffe/blob/master/deploy.prototxt

鲲云通过CAISA数据流架构提升芯片利用率,意味着在达到同等实测性能的条件下,峰值算力的要求可降低3到10倍,制造成本自然随之下降。目前星空X3加速卡已经量产,X9将于8月推向市场。鲲云科技也成为国内首批在发布会上直接晒出Benchmark的AI芯片公司之一。
商业落地先行,鲲云加速卡实现多领域规模落地
作为一家技术驱动的AI芯片企业,鲲云从成立之初就从未忽视商业落地。目前已与多家行业巨头建立战略合作,是英特尔全球旗舰FPGA合作伙伴,在技术培训、营销推广与应用部署方面共同推进;与浪潮、戴尔达成战略签约,在AI计算加速领域深入合作;与山东产业技术研究院共建人工智能研究院,推动芯片及应用的规模化落地。“星空”加速卡已在电力、教育、航空航天、智能制造、智慧城市等领域实现实际部署。从2016年成立至今,鲲云完成了天使轮、Pre-A轮和A轮融资,在深圳、山东、伦敦均设有研发中心。2018年成立的人工智能创新应用研究院,定位是打造产业化技术平台,支持AI最新技术在垂直领域快速落地,同时启动高校计划开展课程培训与科研合作。除了与Intel合作培训课程,鲲云人工智能应用创新研究院已与帝国理工学院、哈工大、北航、天大、港城大等高校成立联合实验室,专注于定制计算、AI芯片安全、工业智能等前沿课题。
