Stevessr 在 AgentRxiv: Towards Collaborative Autonomous Research | 自动化多agent分组合作灌水 中发帖
科学发展进步很少是单一“尤里卡”时刻的结果,而是数百名科学家共同努力实现共同目标的产物。虽然现有的代理工作流程能够自主进行科研,但它们这样做是孤立的,没有能力持续改进先前的研究成果。为了解决这些挑战,我们引入了 AgentRxiv——一个框架,允许LLM代理实验室上传和检索共享预印本服务器上的报告,以便协作、分享见解,并迭代地构建彼此的研究。我们要求代理实验室开发新的推理和提示技术,并发现能够访问其先前研究的代理比孤立操作的代理实现了更高的性能提升(在 MATH-500 上相对于基线提高了 11.4%的相对改进)。 我们发现最佳策略在其它领域的基准测试中也能表现出色(平均提高 3.3%)。通过 AgentRxiv 共享研究的多个智能体实验室能够共同朝着共同目标努力,比孤立实验室进展更快,整体准确率更高(在 MATH-500 基准测试上相对于基线提高了 13.7%)。这些发现表明,自主...