变色龙 (@bianselong) 在 超越 GPT-4o:开源科研模型 OpenScholar 登场,4500 万篇论文检索增强生成回答 中发帖
只需几秒钟,开源模型检索 4500 万篇论文,比 GPT-4o 还靠谱!
这就是由华盛顿大学和艾伦人工智能研究所(Ai2)打造的最新模型 OpenScholar。它还是首个从论文到数据集、模型检查点都完全开源的科研助手模型。 仅调用 8B 模型
一句话总结:它存储了 4500 万篇论文的大规模数据,并使用自定义训练的检索器、重排器和 8B 参数语言模型进行检索,并根据最新的科学文献内容回答问题。 具体来说,OpenScholar-8B(OS-8B)系统包括以下组件:
1.开放学者数据存储:包含超过 4500 万篇论文、以及对应的约 2.5 亿段落嵌入。底层论文数据截止到 2024 年 10 月。
2.专业检索器和重排序器:这些工具专门用于从科学文献数据存储库中识别相关段落。
3.专业 8B 语言模型:这是一个针对科学文献综合任务优化的 8B 参数语言模型,在性能与计算效率之间取得了...