AI正在从各个维度重塑产业格局,但无论是训练大模型还是构建推理管道,一个核心前提始终摆在那里:得有好数据。而数据科学家的角色,就是负责准备这些“燃料”——在专业领域中,尤其是那些私有数据,往往决定了最终AI能力的上限在哪里。
为了应对越来越沉重的工作负载,NVIDIA推出了RAPIDS cuDF库。它的目标很直接:让用户能更轻松地处理数据,同时,在不需要修改代码的前提下,为pandas这个Python生态下最热门的数据分析库带来加速。Pandas以灵活和易用著称,但面对海量数据时性能常常捉襟见肘。有了cuDF,数据科学家终于可以在自己最熟悉的代码环境里,把数据处理跑出“全速”的感觉。
当然,性能的保障离不开硬件基础。NVIDIA RTX系列的AI硬件和技术,从GPU层面为数据处理提供了强大的算力支撑,覆盖了从数据清洗到模型训练、定制的完整链条。
数据科学的瓶颈
大部分数据都是以表格形式存在的,也就是按行和列组织。小规模数据,Excel或许就能搞定,但一旦涉及数千万行、甚至上亿行的数据集,建模工作流就离不开像Python里的DataFrame库了。
Python之所以在数据分析领域这么受欢迎,pandas这个库功不可没。它提供了非常友好的应用编程接口(API),让开发者能快速上手。但问题也随之而来:当数据集规模膨胀到千万行甚至数十亿行时,pandas在纯CPU系统上的表现就开始力不从心了。不仅慢,而且处理文本密集型数据——这正是大语言模型们最常面对的数据类型——时的表现也常常让人挠头。
当数据处理的需求超出了pandas的能力边界,数据科学家们就陷入了两难:要么忍受蜗牛般的处理速度,要么咬牙迁移到更高效但学习曲线陡峭的工具上——这往往意味着高昂的迁移成本和复杂的技术调整。
使用 RAPIDS cuDF 加速预处理工作流
RAPIDS cuDF 配合 RTX AI PC 和工作站,可为热门的 pandas 软件库提供最高达 100 倍加速
RAPIDS cuDF的出现,恰好解决了这个痛点。它本质上是开源方案,是一套运行在GPU上的Python库,专门用来加速数据科学和分析工作流。其中的cuDF,作为一个GPU版本的DataFrame库,提供了和pandas高度相似的API——加载、过滤、操作数据,上手几乎没有门槛。
值得关注的是cuDF的“pandas翻跟斗模式”。在这种模式下,数据科学家可以直接在GPU上运行现有的pandas代码,GPU的强大并行处理能力被充分利用起来。而且万一遇到GPU上无法处理的情况,代码也可以无缝切换回CPU执行。这种灵活的互通性,确保了高可靠性和优秀的性能表现。
最新的cuDF版本已经能支持更大规模的数据集,包括数十亿行的表格文本数据。这意味着,数据科学家终于可以用pandas熟悉的代码,去为生成式AI项目做数据预处理了。
在 NVIDIA RTX 加持的 AI 工作站和 PC 上加速数据科学
最近有调研显示,57%的数据科学家仍然在使用PC、台式机或工作站这类本地资源来处理数据科学任务。硬件的现实就在这里摆着。
从NVIDIA GeForce RTX 4090 GPU开始,加速效果已经非常明显。随着数据集和处理负载的持续增长,如果配合cuDF和像NVIDIA RTX 5880 Ada这样的工作站GPU,相比传统纯CPU方案,性能可以提升多达100倍。
y轴表示两种常见的数据科学操作—“join”和“groupby”,而x轴显示运行每项操作所需的时间
上手cuDF也并非难事。数据科学家可以在NVIDIA AI Workbench中轻松启动——这是一个免费的、基于容器的开发环境管理工具,支持跨GPU系统创建、迁移AI和数据科学工作负载,也方便团队协作。NVIDIA的GitHub仓库里已经提供了一些示例项目可以直接参考,比如那个cuDF AI Workbench项目。
另外,HP AI Studio这款集中式的数据科学平台,也已经默认集成了对cuDF的支持。它允许AI开发者将开发环境从工作站无缝复制到云端,大大简化了环境管理和项目协作的复杂度。
在RTX加持的AI PC和工作站上,cuDF带来的优势远不止于原始性能的提升:
- 在功能强大的GPU上进行本地开发,成本固定,且可以随时复制到本地服务器或云端实例,直接省下时间和开支。
- 数据处理速度加快,意味着更快的迭代速度。数据科学家能够以交互式的节奏进行实验、调优,并更快地从海量数据中产出洞察。
- 更高效的数据预处理,也是后续工作流产出更好模型结果的基石。
数据科学的新时代
随着AI和数据科学继续向前演进,快速处理和分析海量数据集的能力,正在成为各个行业实现突破的关键差异点。无论是开发复杂的机器学习模型、做复杂的统计分析,还是探索生成式AI,RAPIDS cuDF都在为新一代的数据处理打基础。
NVIDIA还在不断扩展这个基础——通过增加对更多热门DataFrame工具的支持。比如Polars,作为目前增长最快的Python库之一,其纯CPU版本已经很快了。而就在本月,Polars宣布推出了由RAPIDS cuDF提供支持的Polars GPU引擎公开测试版。这意味着,Polars用户现在可以将这个本来就已经很快的DataFrame库,性能再提升多达13倍。
RTX AI 为未来的工程师创造无限可能
无论运行在大学数据中心、GeForce RTX笔记本电脑,还是NVIDIA RTX工作站上,NVIDIA GPU都在加速着学习的过程。对于数据科学领域以及更多专业领域的学生来说,这意味着他们能通过广泛应用于实际场景的硬件,获得实战经验,将学习体验提升到一个全新的层次。
