面壁智能联合清华与OpenBMB发布并开源两大数据集

时间：2026-05-29 19:18

5月29日，面壁智能携手清华大学及OpenBMB开源社区，正式宣布开源两大重磅数据集——Ultra-FineWeb-L3与UltraData-SFT-2605。这并非一次常规更新：Ultra-FineWeb-L3整合了高质量的中英文网页合成数据，总数据量突破600B Tokens，其中中文数据高达2

5月29日，面壁智能携手清华大学及OpenBMB开源社区，正式宣布开源两大重磅数据集——Ultra-FineWeb-L3与UltraData-SFT-2605。这并非一次常规更新：Ultra-FineWeb-L3整合了高质量的中英文网页合成数据，总数据量突破600B Tokens，其中中文数据高达200B+ Tokens，成为目前开源社区规模最大的中文预训练合成数据集。与此同时，UltraData-SFT-2605作为国内首个千万级开源SFT数据集，同时包含了深思考与非思考两种标注类型，填补了该领域的空白。

如果您了解过MiniCPM5-1B的训练过程，会发现它正是UltraData分级治理体系的一次完整实践落地。此次发布的两大数据集，已经在MiniCPM5-1B的训练流程中经过充分验证，覆盖了从预训练退火到后训练SFT的全链路。换句话说，这并非纸上谈兵的理论成果，而是经过实际运行验证的成熟方案，全程跑通，效果可靠。

面壁智能联合清华大学、OpenBMB开源社区联合发布并开源两大最新数据集

来源：https://www.163.com/dy/article/KU469OQH0514R9P4.html

开源社区

上一篇G95首都地区环线高速天津段正式开工建设 下一篇仿生机械手2分钟自学钢琴听一遍即可超越新手

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-01

俞浩梦想奖学金2026年度申报启动全国双通道开放

2026年6月30日，追觅公益携手中国光华科技基金会与成都市教育基金会，正式启动俞浩梦想奖学金2026年度申报工作。该项目计划面向全国资助100名即将步入大学校园的2026级新生，重点聚焦品学兼优但家庭经济困难，或来自教育资源相对薄弱地区的学生。谈及奖学金的设立背景，需追溯到2025年。当时追觅科

科技数码 · 2026-07-01

PRINCE PLANT勒内精油法式芳疗高端新定义

天然芳香疗法养护近年来热度持续攀升，全球高端精油市场也迎来爆发式增长。在众多品类与产区中，法式精油凭借卓越品质和专业功效稳居行业塔尖，成为高端芳疗消费者的首选。查阅多份权威行业报告可以发现，法国精油确实拥有得天独厚的产业优势和全球竞争力。而在这一赛道上，PRINCE PLANT勒内作为正统法式精油的

科技数码 · 2026-07-01

实测哪款0涂层电饭煲口碑好避开粘锅陷阱

做饭最令人担忧的是什么？内胆涂层剥落、有害物质析出，想想就让人心生顾虑。为此，不少家庭开始关注0涂层电饭煲——但市面上产品琳琅满目，测评观点也各不相同，究竟哪款才真正可靠？今天我们用实测数据给出答案。站在2026年的时间节点回顾，电饭煲行业早已跨越“能把饭煮熟”的初级阶段，健康化、精细化烹饪成为主

科技数码 · 2026-07-01

短途电动车选购指南：按需选这三类不踩坑省钱

城市短途出行需求持续增长，电动自行车市场随之升温。走访多家门店后发现，许多消费者在选车时面临“配置焦虑”——销售人员极力推荐的高续航、智能化车型确实吸引眼球，但冷静思考后，不少功能在日常使用中并不必要。一位正在选车的上班族直言：“销售说无钥匙启动是趋势，可我觉得传统钥匙开锁也挺方便。” 从市场数据来

科技数码 · 2026-07-01

A股CPO概念走强新易盛涨超5% 中际旭创涨超4%

6月30日，A股CPO概念板块迎来集体爆发，多只个股强势封板，市场赚钱效应持续升温。具体来看，锐捷网络直接封死20CM涨停板，太辰光涨幅超过10%，铭普光磁、紫光股份、星网锐捷也纷纷收获10CM涨停。智立方、蘅东光涨超8%，九联科技涨超7%，立讯精密、长芯博创、仕佳光子、联特科技、航天电器涨幅均超过