banma-jio 在 代码链路rag问答求解 中发帖
佬们,咨询个关于rag的问题。
1. 背景
目前我们通过AST解析根据代码库的入口方法,可以拉出来一条业务涉及的一整条代码链路。
然后将所有的关键业务节点拉出了很多条的代码链路,集成到了一个系统中,配合prompt 生成流程图。
2. 现有方案
现在面临一个问题,使用该链路系统的时候如果对系统已有的业务不了解的话,无法很方便的找到对应的代码链路节点,去查看流程图。
所以基于此,我们尝试了个方案,就是将所有的代码链路的源码通过大模型生成描述,然后将描述的文本存到了向量数据库。 根据输入的问题去向量检索,然后让大模型总结找到最相关的几条链路的链接,用户手动点击跳转。
3. 面临的问题
因为某些业务太复杂,涉及到的代码链路代码量特别庞大,所以才想着将描述向量化,基于描述做向量检索。但是这样就面临着描述会丢失很多的细节,例如用户问某个方法名,某个关键字,就有可能因为描述中没有包含导致无...