@stevessr 在 OpenScholar • 一种专门的检索增强语言模型中发帖https://www.nature.com/articles/s41586-025-10072-4 科学进步依赖于研究者综合日益增长的文献体系的能力

@stevessr 在 OpenScholar • 一种专门的检索增强语言模型中发帖

https://www.nature.com/articles/s41586-025-10072-4 

科学进步依赖于研究者综合日益增长的文献体系的能力。大型语言模型（LLMs）能否协助科学家完成这项任务？这里我们介绍OpenScholar，一种专门的检索增强语言模型（LM）1它通过从4500万篇开放获取论文中识别相关段落并综合引用支持的回答，回答科学问题。为了评估OpenScholar，我们开发了ScholarQABench，这是首个大规模多领域文献检索基准测试，包含2967条专家撰写查询和208条长文答案，涵盖计算机科学、物理学、神经科学和生物医学。尽管是一个较小的开放模型，OpenScholar-8B在新推出的多篇论文综合任务中，正确性比GPT-4o高出6.1%，比PaperQA2高出5.5%。尽管GPT-4o有78%到90%的时间会出现引用幻觉，OpenScholar却实现了与人...