@fooltal 在 大佬们聊聊分享一下好的知识库的文档预处理清洗方案方法呗 中发帖
●文档预处理的主要作用是什么,是为了保证智能分隔,保持完整语义吗
搜了L站这位佬的链接( 搓了个小工具✨ VerbaAurea:知识库构建前的文档预处理工具 - 开发调优 / 开发调优, Lv1 - LINUX DO)
● cs文档预处理目前默认有Doc2x、 Mistral、Mineru,哪个好
[截图20250627-104717]
● 本身文档在上传前是否一些比较好的清晰工具或者通用的方法,比如尽可能压缩文档大小将一些用处不大的图片等清洗掉保持核心文本是否有用。