https://linux.do 论坛的话题更新通知频道。
你这是违法行为 (@Anano) 在 Agent上岗考试:Fable 5最难任务仍交白卷,单题成本高出4到12倍 中发帖
加州大学伯克利分校 RDI 牵头、联合数百名行业专家,推出全新 AI 智能体评测基准 Agents’ Last Exam(ALE),用以评估智能体完成真实数字化专业工作的能力。ALE 覆盖 55 个数字化专业子领域,收集了 1500 多个源自人类专家实际项目的验证任务,支持 GUI 与 CLI 交互环境下的结果验证。
首批测试覆盖了 Fable 5、GPT-5.5 和 Composer 2.5 等前沿系统。最新官网对比口径显示,在需要持续推理与深厚专业知识的最难任务中,所有受测智能体的成功率全部为 0%,本周刚发布的 Fable 5 同样交了白卷。这主要是因为评测触发了安全策略,Fable 5 约有 35% 的任务被回退切换至旧版 Opus 4.8 运行,导致整体表现远不及其他榜单抢眼。在单任务 API 成本方面,Fable 5 约为 15.70 美元,远高于 GPT-5.5 的 3.8...
Mozi (@yeahhe) 在 我的 Antigravity 账号不管怎么用,额度都是 100%,是bug号吗? 中发帖
[fa665e61c83a3664d6650edff812c58a]
我的 Anti-gravity 账号不管怎么用,额度都是 100%
我这个是主账号,以前没有这个现象,今天用的时候发现怎么用都是百分百,这是怎么回事?
忘川 (@2773281213) 在 佬们有没有英语频道上一些讲时政比较好的的博主推荐 中发帖
最近深感英语薄弱打算用把刷的视频都换成英语的来练一练,平常看中文频道也就是更多的关于时政军事类型的,比如麻薯,燕三,波士顿圆脸,小约翰可汗这些,去英文频道看了看,油管上也关注了一些大的传统媒体,发现对他们的内容并不非常感兴趣,想问下佬们有没有关于时政军事方面的自媒体博主可以推荐下的,视角多元化一点更好,有用英文说国内的也可以推荐下,感觉会比较新奇一些🫠
米锅豆包 (@usdoubao) 在 any+ccswitch配置claude desktop 中发帖
前提:先配置好网络环境
① 选择claude desktop栏,新增配置,按图片编辑;
[ccs-1]
② 映射配置:点击获取模型列表,选择后手动加[1M]后缀;
测试了几种组合,sonnet菜单默认思考程度为low,haiku菜单没有思考选择,所以随意,重点关注Opus的设置即可。
[映射配置]
③ 路由设置
[1.点击设置]
[2.路由设置]
下滑可以看日志,用于自检:
[2.1设置]
总结:映射选模型,手动加后缀 + 开启路由 + 重启软件
以上,个人尝试经验,希望对佬友们有帮助(fable不敢试是因为额度太少)
一个合格的复读机 (@fudujiii) 在 Nooo!!!因为疏于备份,我收藏数千条帖子,和两千个chrome书签也没了 中发帖
[image]
[4cc448ac85fc612c151cc59b114b35fb]
背景:
电脑很久没深度清理没重装过了,堆积的东西太多。
现在论文写完,毕业了,不用担心丢失什么重要文件,索性重装系统,轻装上阵,迈向社会。
丢失原因:
之前用AI插件来整理书签,但是由于与chrome的自动同步会将其覆盖掉,于是把同步关了,结果后面就忘记开启了。丢收藏贴嘛就是懒,一直在本地没上云端。
敲这篇贴的时候也冷静了点:上网好几年,初中拿到电脑会科学上网后就疯狂收藏,感觉以后可能会用到就点一下(实际基本收藏后就没点开过),太多太杂。
现在这样倒也不一定是个坏事。
LingEasy 在 【实战讨论】20 万行代码仓库测下来,国产大模型的差距真不在跑分上 中发帖
最近手里一个 20 万行核心代码 + 3 万行 WebUI 的项目,连着测了一圈主流国产模型和海外旗舰,想说点真实的工程体感 —— 真到大型项目里,那些网上天天比的指标,大部分都没那么重要;真正卡脖子的地方,几乎没几个测评会提。
先讲最基础的共识:
如果是做小型项目、写单文件脚本、搭个简单工具,那各家模型真没多大差距。哪怕是轻量型号都完全够用,很多场景你分不出和旗舰版的区别。单轮代码生成、语法正确性、常规业务逻辑实现,国产现在追得非常快,跑分榜上的分数,基本对应的就是这部分能力,好补,也好刷。
真正到了十几万、二十万行以上的大仓库,差距才真正显现出来,而且全是 “跑分测不出来,但用起来想死” 的问题:
纠错定位能力
不是给个明确报错告诉你改哪行,是跨文件、跨模块的隐性问题,能不能顺着调用链摸到真正根因。很多模型单看一段代码都对,一联动就懵,定位半天找错方向,越改坑越多。
...
霪霖笙箫 (@fridolph) 在 命运,是你每天在做的事的总和 ——读《了凡四训》有感 中发帖
之前刷小说看到朋友推荐,于是静下心翻了翻。随便侃两句,当练练文笔了。
一、你从未真正活过
我们这一代人,很少认命。
但仔细想想,认命的方式其实很多——只是换了个更体面的说法。
我性格天生就这样;原生家庭;
我家就是这样的,原生家庭之类;
我没有天赋,不适合做这个。
主角袁了凡,被孔公用皇极数把他一生算尽。大概就是一个先生算准了你每年发生的事,一一应验,然后就认命、“摆烂”了。
这种认命,比愤世嫉俗更难破。它有一种安静的体面,甚至带着一点哲学的气质。
直到他在栖霞山遇到云谷禅师。
经典之大师出现了……
大师:能被算定,说明你从未真正活过。
这一句话,是整本《了凡四训》的钥匙。
二
四篇读下来,我发现这不是四个独立的主题,而是同一件事的四种层次或者认知论。
立命之学,是起点:命可以改,但改的不是外面那条线,而是你自己的行为模式。了凡列出六条阻碍自己的习性——好洁、善怒...
假面骑士02 (@Dyxang) 在 只用Deepseek,该如何选择工具? 中发帖
🤔作为目前唯一有针对它自己有专属缓存优化 AI 编程工具的国产模型,我只用它编程的时候,是该用 Claude Code 这种有生态的,还是说用 Deepseek TUI 或 Reasonix?有没有有两种工具都使用过的佬给推荐一下,一旦定了我就不改了。
个人就是用它给自己写写小工具啥的,一般不会用很复杂的编程语言
二哈 (@erha) 在 哪里有强cpu+强gpu的算力租赁网站 中发帖
家人们,哪里有强cpu+强gpu/弱gpu的算力租赁网站。游戏强化学习,4090D ,16 vCPU Xeon 8352V,这个配置,cpu吃满,gpu只能到10%。autodl上最强gpu也只有配套25核cpu。家人们哪有这个租啊,淘宝上的私人机子没公网ip,环境也不好配置
苏云 Keon (@keonsuyun) 在 codex可以邀请新用户重置周限额了(附方法) 中发帖
新出了个邀请好友砍一刀重置限额的方法(周限额5h限额都重置),而且发的是重置卡(30天有效期),拉满后可以说一个月基本不可能用的完了。
要求如下:
[image]
1.在codex的左下角设置里邀请好友,填2个月内没有使用过codex的账号。没有的话可以去创几个邮箱,甚至163邮箱和QQ邮箱都行。
2.在codex中登录新账号和非plus账号,现在需要手机接码,不能用大陆手机号,找一个接码平台,如https://hero-sms.com/cn,收到验证码登录后发一条消息,然后邮箱里就会收到已经送你重置卡了。
接码平台可以用支付宝付,大概成本2毛一条吧,懒得搞的话闲鱼差不多5块一个。如果直接找人代邀请的话好像是10块钱一个。
已经重置了一次了,20xpro的号,确认是周额度重置。
[image]