杰瑞米 (@jeremy233)想要找一个没有被ai学习过的素材,最好pdf50页左右 中发帖

最近发现了一个半开源项目pageindex,核心是通过llm创建索引,加强召回准确率。现在想和text-embedding-3-small进行对比,为了更加真实想要找一个没有被ai学习过的素材。现在的各种中开源库和论文网站多多少少都被学习过,有老友推荐吗,深海幽域的信息有点零散了。