Bunn (@BunnHack) 在「丹青」数据集发布：亿级规模中文视觉语言预训练新基准中发帖近日，格灵深瞳（DeepGlint)研究团队正式发布名为「丹青」（DanQing）的大规模中文视觉语言预训练数据集

Bunn (@BunnHack) 在「丹青」数据集发布：亿级规模中文视觉语言预训练新基准中发帖

近日，格灵深瞳（DeepGlint)研究团队正式发布名为「丹青」（DanQing）的大规模中文视觉语言预训练数据集。该数据集包含从 Common Crawl 中收集的 1 亿组图文配对数据，为多模态模型训练提供了全新的高质量资源。 
与现有数据集相比，丹青数据集采用了更为严谨的筛选机制，确保数据质量显著提升。这一改进有望解决当前视觉语言模型训练中常见的问题。 
丹青数据集主要基于 2024 至 2025 年的网络数据构建，使模型能够更好地捕捉不断演变的语义趋势。 
研究团队以 SigLIP2 模型为基础进行持续预训练实验，将丹青与现有数据集进行对比。实验结果表明，丹青数据集在多项中文下游任务中均取得了优异表现，包括： 

零样本分类（Zero-shot Classification）
跨模态检索（Cross-modal Retrieval）
大型多模态模型评测（LMM-based Eval...