Bunn (@BunnHack) 在 「丹青」数据集发布:亿级规模中文视觉语言预训练新基准 中发帖
近日,格灵深瞳(DeepGlint)研究团队正式发布名为「丹青」(DanQing)的大规模中文视觉语言预训练数据集。该数据集包含从 Common Crawl 中收集的 1 亿组图文配对数据,为多模态模型训练提供了全新的高质量资源。
与现有数据集相比,丹青数据集采用了更为严谨的筛选机制,确保数据质量显著提升。这一改进有望解决当前视觉语言模型训练中常见的问题。
丹青数据集主要基于 2024 至 2025 年的网络数据构建,使模型能够更好地捕捉不断演变的语义趋势。
研究团队以 SigLIP2 模型为基础进行持续预训练实验,将丹青与现有数据集进行对比。实验结果表明,丹青数据集在多项中文下游任务中均取得了优异表现,包括:
零样本分类(Zero-shot Classification)
跨模态检索(Cross-modal Retrieval)
大型多模态模型评测(LMM-based Eval...