@esoiw 在 有自定义上下文引擎给 AI 工具用的项目吗 中发帖
最近在读很复杂的东西的文档。这个项目古早、历史包袱重、兼容程度复杂,让AI不看文档根据自己记忆回答,那十有八九是错的。
而官方的文档又是全英文 pdf,要实现一个功能还要不同 pdf 切来切去,大部分 AI 工具对 pdf 的支持并不好,而我也没有耐心在纯英文的 pdf 里面淘金。
于是我把 pdf 都转成了 markdown,然后在目录上开 codex,这样回答效果会好得多。
但是,codex 的匹配虽然说够用吧,纯 rg 文本匹配,就会匹配到很多重复/无效的结果,白白浪费上下文和 token。而且匹配起来很慢!
那么,在这种场景下,有没有什么办法优化 ai 工具的上下文获取呢?听说做 RAG 算比较基础(而且效果比较差的),有没有什么效果比较好,同时能减少 token 消耗,提升读文档的精确度/速度的方法呢?这种项目有人做过吗(听起来更像是 codex/claude code ...