Isksjdk Zhmxkfk 在 看到北大某团队向量子位投稿的一篇文章,真的太水了 中发帖
2506.13784v2.pdf (912.9 KB)
北大发布学术搜索评测ScholarSearch:难倒一众DeepResearch的“开卷考试” - 每时AI
至少存在以下致命缺陷:
1、论文将数据集问题的“高难度”定义为其无法被特定商业模型(Grok DeepSearch, Gemini Deep Research)直接解决。这是一个极其脆弱且站不住脚的构建逻辑。
2、 数据集规模过小,无法支撑其“广泛覆盖”的宏大叙事。 物理学(Physics)只有1个问题(n=1),社会学和公共卫生各只有3个问题(n=3) 。用1个问题来代表整个物理学领域的学术搜索挑战,这简直是学术上的笑话。
3、 题目叫做 Benchmarking Scholar Searching Ability of LLMs,实际测试的是集成搜索能力的版本,这是结合了工程化的版本,不同厂家工程化水平不同,搜索...