5月29日,面壁智能携手清华大学及OpenBMB开源社区,正式宣布开源两大重磅数据集——Ultra-FineWeb-L3与UltraData-SFT-2605。这并非一次常规更新:Ultra-FineWeb-L3整合了高质量的中英文网页合成数据,总数据量突破600B Tokens,其中中文数据高达200B+ Tokens,成为目前开源社区规模最大的中文预训练合成数据集。与此同时,UltraData-SFT-2605作为国内首个千万级开源SFT数据集,同时包含了深思考与非思考两种标注类型,填补了该领域的空白。
如果您了解过MiniCPM5-1B的训练过程,会发现它正是UltraData分级治理体系的一次完整实践落地。此次发布的两大数据集,已经在MiniCPM5-1B的训练流程中经过充分验证,覆盖了从预训练退火到后训练SFT的全链路。换句话说,这并非纸上谈兵的理论成果,而是经过实际运行验证的成熟方案,全程跑通,效果可靠。

