时间:2025-07-04 作者:游乐小编
在 deepseek 开源周的压轴日,推出了 fire-flyer file system(3fs),这是一个面向 ai 训练与推理任务的高效分布式文件系统。与此同时,deepseek 还发布了基于 3fs 的轻量级数据处理框架 smallpond,该框架结合了 duckdb 和 3fs 的优势。
AI训练中的数据挑战在进行人工智能模型训练时,数据存储与访问效率往往成为影响整体性能的关键因素。例如:
数据访问延迟:在分布式训练场景中,由于数据通常存放在远程服务器上,频繁的 I/O 操作会导致显著延迟,从而拖慢整个训练过程;存储瓶颈:随着模型和数据集规模不断扩大,传统文件系统难以应对日益增长的高并发数据访问需求;数据一致性难题:在分布式环境下,确保数据一致性和可靠性是一项复杂任务。3FS 的核心特性与优势3FS 是一款高性能分布式文件系统,专为满足 AI 训练与推理工作负载的需求而打造。它充分利用现代 SSD 和 RDMA 网络技术,提供共享存储层,简化了分布式应用的开发流程。其主要特点包括:
性能与易用性分离架构:整合数千块 SSD 的吞吐能力与数百个存储节点的网络带宽,使应用程序可以更高效地访问存储资源;强一致性保障:采用 CRAQ(Chain Replication with Apportioned Queries)机制实现强一致性;通用文件接口:基于事务型键值存储(如 FoundationDB)构建无状态元数据服务,支持标准文件接口,无需额外学习新的存储 API;适应多种工作负载的能力数据准备:将数据分析管道的输出整理为分层目录结构,有效管理大规模中间数据;数据加载:支持跨计算节点的随机访问,无需预取或 Shuffle 数据集,提升训练效率;CheckPoint 支持:具备大规模训练任务的高吞吐并行 Checkpoint 机制;KVCache 推理优化:相比 DRAM 缓存,提供更具性价比的方案,具备更高吞吐能力和更大的缓存容量。3FS 性能表现3FS 在高性能存储方面表现出色,能够很好地应对 AI 训练与推理过程中的极端 I/O 需求。具体表现为:
峰值吞吐能力在大规模读压力测试中,3FS 展现出极高的吞吐能力。测试环境使用了 180 个存储节点(每个节点配备 2×200Gbps InfiniBand NICs 和 16 块 14TiB NVMe SSD),并通过 500 多个客户端节点发起并发读取请求(每个客户端配备 1×200Gbps InfiniBand NIC)。最终聚合读取吞吐量达到 6.6 TiB/s,在 AI 训练产生额外背景流量的情况下,仍能保持出色的 I/O 性能。
GraySort 测试结果3FS 在 GraySort 基准测试中同样表现优异,该测试用于衡量大规模数据集排序能力。测试分为两个阶段:
第一阶段:通过 key 的前缀位进行数据分区(Shuffle);第二阶段:在各个分区内执行排序。测试集群由 25 个存储节点(每个节点包含 2 个 NUMA 域,每个 NUMA 运行 1 个存储服务,2×400Gbps NICs)和 50 个计算节点(每个节点包含 2 个 NUMA 域、192 个物理核心、2.2 TiB RAM 和 1×200Gbps NIC)组成。在 8192 个分区上对 110.5 TiB 的数据进行排序,仅耗时 30 分钟 14 秒,平均吞吐量达到 3.66 TiB/分钟。
KVCache 表现KVCache 是一种用于优化 LLM 推理的技术,通过缓存解码器层中先前 token 的键值向量来避免重复计算。下图展示了所有 KVCache 客户端的读取吞吐情况,其中峰值吞吐量高达 40 GiB/s。
参考资料deepseek-ai/3FS:https://www.php.cn/link/03f396a359ef22a21e37b7b45f4d9979
2021-11-05 11:52
手游攻略2021-11-19 18:38
手游攻略2021-10-31 23:18
手游攻略2022-06-03 14:46
游戏资讯2022-04-09 03:03
游戏资讯