@josenlou一个3T大小却包含4.75亿PDF的数据集-FinePDFs 中发帖

FinePDFs是一个专案 
主要是爬了2013至2025这几年间的pdf文档,经过数据清洗与标记后,归纳成为一个包含1733种语言在内的4.75亿pdf文档数据库。
[IMG_4824]
之所以要做这个是因为团队发现大部分模型训练内容几乎不包含pdf档(仅占0.6%左右),但其实许多的技术文件以及理论文档都是以pdf格式存在,因此他们团队才决定朝这个方向前进。
有兴趣的可以看看以下的技术说明及数据库
主要会对模型训练有帮助