变色龙 (@bianselong) 在超越 GPT-4o：开源科研模型 OpenScholar 登场，4500 万篇论文检索增强生成回答中发帖只需几秒钟，开源模型检索 4500 万篇论文，比 GPT-4o 还靠谱！这就是由华盛顿大学和艾伦人工智能研究所（Ai2）打造的最新模型 OpenScholar

变色龙 (@bianselong) 在超越 GPT-4o：开源科研模型 OpenScholar 登场，4500 万篇论文检索增强生成回答中发帖

只需几秒钟，开源模型检索 4500 万篇论文，比 GPT-4o 还靠谱！ 
这就是由华盛顿大学和艾伦人工智能研究所（Ai2）打造的最新模型 OpenScholar。它还是首个从论文到数据集、模型检查点都完全开源的科研助手模型。 仅调用 8B 模型 
一句话总结：它存储了 4500 万篇论文的大规模数据，并使用自定义训练的检索器、重排器和 8B 参数语言模型进行检索，并根据最新的科学文献内容回答问题。 具体来说，OpenScholar-8B（OS-8B）系统包括以下组件： 

1.开放学者数据存储：包含超过 4500 万篇论文、以及对应的约 2.5 亿段落嵌入。底层论文数据截止到 2024 年 10 月。
2.专业检索器和重排序器：这些工具专门用于从科学文献数据存储库中识别相关段落。
3.专业 8B 语言模型：这是一个针对科学文献综合任务优化的 8B 参数语言模型，在性能与计算效率之间取得了...