LINUX DO Channel

Isksjdk Zhmxkfk 在看到北大某团队向量子位投稿的一篇文章，真的太水了中发帖

2506.13784v2.pdf (912.9 KB) 
北大发布学术搜索评测ScholarSearch：难倒一众DeepResearch的“开卷考试” - 每时AI 
至少存在以下致命缺陷： 
1、论文将数据集问题的“高难度”定义为其无法被特定商业模型（Grok DeepSearch, Gemini Deep Research）直接解决。这是一个极其脆弱且站不住脚的构建逻辑。 
2、 数据集规模过小，无法支撑其“广泛覆盖”的宏大叙事。 物理学（Physics）只有1个问题（n=1），社会学和公共卫生各只有3个问题（n=3） 。用1个问题来代表整个物理学领域的学术搜索挑战，这简直是学术上的笑话。 
3、 题目叫做 Benchmarking Scholar Searching Ability of LLMs，实际测试的是集成搜索能力的版本，这是结合了工程化的版本，不同厂家工程化水平不同，搜索...