格灵深瞳正式发布超大规模中文视觉-语言预训练数据集“丹青”(DanQing),该数据集涵盖1亿条高质量图文匹配样本,数据采集时间覆盖2024至2025年全网公开资源。为提升数据质量,该数据集引入了更为精细的数据清洗与质量评估机制。实验结果显示:基于SigLIP2模型开展的基准测试表明,“丹青”在零样本图像分类、跨模态图文检索以及大型多模态模型综合能力评估等多项目关键任务中,均展现出卓越性能。

据项目团队介绍,其构建了一套融合BERTopic算法的主体建模流程。具体而言,研究人员从全量数据中随机采样1000万组图像-文本对,并采用Chinese-CLIP-L/14模型提取文本侧语义嵌入向量;针对高维空间聚类易受噪声干扰的问题,团队先利用UMAP进行非线性降维,再通过HDBSCAN算法识别语义密集簇,将最小簇规模设定为1000以增强聚类鲁棒性并抑制离群噪声;最终,基于各主题内部词频分布,采用类别加权的TF-IDF策略提取最具代表性的关键词集合。

“丹青”数据集游戏内容已开放获取。
