@josenlou 在一个3T大小却包含4.75亿PDF的数据集-FinePDFs 中发帖FinePDFs是一个专案主要是爬了2013至2025这几年间的pdf文档，经过数据清洗与标记后，归纳成为一个包含1733种语言在内的4.75亿pdf文档数据库

@josenlou 在一个3T大小却包含4.75亿PDF的数据集-FinePDFs 中发帖

FinePDFs是一个专案 
主要是爬了2013至2025这几年间的pdf文档，经过数据清洗与标记后，归纳成为一个包含1733种语言在内的4.75亿pdf文档数据库。 
 [IMG_4824] 
之所以要做这个是因为团队发现大部分模型训练内容几乎不包含pdf档（仅占0.6%左右），但其实许多的技术文件以及理论文档都是以pdf格式存在，因此他们团队才决定朝这个方向前进。 
有兴趣的可以看看以下的技术说明及数据库 
主要会对模型训练有帮助