当使用 nnUNetv2_plan_and_preprocess 处理大规模数据集(例如 704 例)时,程序常因多线程死锁而卡死在预处理阶段。根本原因在于默认线程数设置过高,引发资源竞争或 I/O 阻塞。解决方案非常直接:显式限制并发线程数。
在实际应用中,用 nnUNetv2_plan_and_preprocess 处理 704 例这样的大规模数据集,预处理阶段卡住并不少见。界面无响应,日志停止输出,让人颇为头疼。问题大概率出在默认的多线程并发机制上——nnU-Net v2 默认启用多进程并行加载与预处理数据。当数据集规模增大(例如 704 个样本),而磁盘 I/O 有限(比如仍在使用 HDD 或网络存储),加上系统内存、文件句柄等资源紧张,过多的并发线程极易导致死锁、进程挂起或无限等待。如果你将样本量降至 600 就能顺利跑通,那基本可以判定是并发负载过高所致,与数据格式或路径无关。
✅ 推荐解决方案:显式控制预处理线程数
解决思路并不复杂,通过 --num_processes 参数指定合理的并发进程数(注意此处为进程,非线程,nnU-Net v2 内部使用 multiprocessing),即可避免资源争用:
nnUNetv2_plan_and_preprocess -d 201 --verify_integrity --num_processes 4
? 参数建议参考:
- 初始可设为 4(适合 16GB 内存加 SSD 的常见工作站配置);
- 若依旧卡顿,逐步降低至 2 甚至 1(单进程模式最稳定,仅速度稍慢);
- 切勿超过 CPU 物理核心数,且至少保留 2 个核心给系统及其他任务;
- 若使用 NFS 或慢速存储,强烈建议直接设置
--num_processes 1。
⚠️ 其他关键检查项:
- 确认所有 NIfTI 文件符合规范:无损坏、头文件完整(可用
nibabel.load()快速验证); - 检查
dataset.json中的numTraining字段,确保与实际样本数(704)一致,防止索引越界; - 运行前执行完整性校验:
nnUNetv2_plan_and_preprocess -d 201 --verify_integrity(该步骤速度快,能迅速定位缺失或异常文件); - 查看日志末尾是否出现
OSError: Too many open files—— 若存在,需提升系统文件句柄限制(执行ulimit -n 8192)。
? 进阶提示:
完成预处理后,建议备份 preprocessed 目录,后续可直接复用已生成的 plans.pkl 和 dataset_properties.pkl,无需每次训练都重新运行预处理。
总体而言,该问题并非 nnU-Net v2 的 bug,而是资源受限下的正常表现。只要科学配置 --num_processes,辅以基本环境检查,全量 704 例数据集的预处理流程便能稳妥地跑完。
