gep (@ElonMusk) 在 想向佬友们取经,关于llm数据库语料来源筛选 中发帖
看fastgpt等数据库工具发展的很快,想咨询下佬友们往里面塞了什么
我个人在实际使用中发现反复使用的资料才有长期保存数据库的必要,而像长文本但只使用一次的语料基本用过就直接扔了,还不如网页版直接问,在数据库里还要删
而长期反复使用的资料我看来又少的可怜,比如法律文书