Kurt (@Ava01) 在 想下载一批论文md做RAG,怎么分块好呢? 中发帖
如题,现在调API把论文PDF转成了md,打算按标题层级建树划分chunk做检索,但是md里面的噪声太多了,比如图片链接表格作者介绍等等,最重要的是有的论文转md部分标题没有标题格式没办法直接识别,佬友有什么好的划分或者清洗方法吗?