https://linux.do 论坛的话题更新通知频道。
MoeCaaErnie5.1 简易测试 中发帖

晚上闲的蛋疼 测下看看是不是还是和之前一样傻子 
在竞技场使用 和mimo-v2.5-pro对比一下
首先就是速度感人 竞技场明显没mimo速度快 不过竞技场的模型速度和官方的一不一样不清楚
逻辑问题(省流:弱智,不如豆包2.0pro)
[image]
初见端倪
[image]
虽然都错了但是mimo只推理了13s
SVG

画一个鹈鹕骑自行车的svg

Ernie5.1(61行)
[image]
mimo v2.5 pro(183行)
[image]
因为竞技场渲染麻烦就不多测了
网页

以 iOS 18 的设计风格做一个带有动画效果的天气卡片,要求是使用 HTML、CSS 和基础 JavaScript,使用横板天气页面(拥有 4 个天气卡片 (晴天,大风,暴雨,暴雪))。应足够美观,实现一定的交互效果。

Ernie-5.1(请输入文本 动画还行背景太...
@leonsongteam plus多账号,网页版如何充分利用pro提问 中发帖

有多个team和plus账号,如何能便捷地多开到网页里使用pro提问,有没有成熟的技术。不用每个都登录。已经有cpa的json了
@donnycui自建了一个GPT中转站,放2个100刀额度试试看能用多久 中发帖

key1:sk-EaIyTt45mkK9bhugcF7h43TjfPavM7K9IrbdQ6fj4hcqwbdr 
key2:sk-IZhBipXiF5XTmzJWg4YDqAoarRwg8PlvHtzI3AY5uhdYPkXY
url:https://ai.mintstudio.cn
自己摸索着建了一个GPT中转站,放2个100刀额度试试看能用多久 🤣
@bbllxxAI极差的零回归率说明了什么,AI写的是屎山吗 中发帖

中山大学和阿里巴巴联合测试
2026 年 3 月 4 日中山大学、阿里巴巴集团联合搞了一场AI测试。他们先从 GitHub 上筛选真实 Python 项目,选取了 100 个样本,来自 68 个不同仓库,平均每个样本跨越 233 天、71 次连续提交。然后通过不断给AI提出需求来测试AI的代码生成能力一个测试了包含国内外主流的20 个模型,来自 8 个提供商,整个测试消耗了超过 100 亿 token。
最主要的是,测试中发现大多数模型的零回归率低于25%,即便是在这方面最好的两个 Claude Opus 模型也只才堪堪超过50%。
所以这也就是为什么说AI写的是屎山代码,为什么说AI的能力极限在于所开发软件的架构设计的好不好
零回归率的概念
零回归率指的是:“AI 在修改过程中有没有把原来正常的功能改坏”。例如 100 个任务里有 30 个任务没有出现任何旧功能退化,那么零回归率就...
@impouo花了180给deepseekv4和kimi辅助完成的130页大论文做了个AI率检测 中发帖

[image] 
然后发现基本上"AI味"集中在绪论和相关工作部分。仔细又检查了下,很多文字确实仔细看来还是挺“gpt”的。。基本上都重写了。果然再怎么用skill和约束还是不太行,还是要人工检查。
哦对了英文摘要部分也是重灾区,我用claude重写一遍那部分AI率还是100%。。我现在也没招了,反正大不了不管这部分了。
Nick Hugo (@guanhuhao)【Agent 工程化的边界】一文读懂 Hook:如何把 Agent 行动权拉回开发者手中 中发帖

当 AI Agent 从"辅助生成内容"走向"实际执行操作"时,能力不再是边界,边界本身才是新的能力; 
而 Hook — 就是将 Agent 行动权重新拉回工程控制之内的"钩子"。

作为重度Vibe Coding使用者,在使用AI的过程中时常出现失控感,特别是在程序长时间执行过程中,由于中间思考决策过程的缺失,导致Agent申请权限或者更改文件等风险操作时都需要花大量时间来进行double check。
为了让开发者中重新获得掌控感,寻找问题的解决办法,笔者对claude code的hook机制仔细研读,顺便以写教程的方式促进自己的理解,同步也在开发一个插件希望能缓解这种由于失控带来的焦虑。
本帖主要是用来梳理逻辑,构建知识Map,官方文档更全面且详细 如有需要可以自行查阅: Hooks 参考 - Claude Code Docs
一、前言
Agent的概念层出不穷,在正式介...
幻梦灵 (@xiaohuanmeng)养的小龙虾死了,hermes修了快2小时了。。。 中发帖

养的小龙虾死了,hermes修了快2小时了。。。真的难受😔昨天还是好好的呢。。。
冰原Bill (@yb3712590)拿小米、deepseek、glm同时review gpt-5.5写的代码,小米的表现也太夸张了吧 中发帖

这是gpt-5.5@xhigh一批8次提交写的爬虫-解析-落库流水线代码,流程和功能都不复杂。 
因为各家模型的思考强度映射不一样,统一开了max effort。
小米耗时4分钟
全程在说对对对干得好,最后挑了点无关痛痒的代码风格小毛病。
DSV4耗时12分钟
找到了一些非关键问题。
GLM5.1耗时30分钟(和TPS慢也有关系)
主动调动了最多的subagents,找出了影响功能的关键问题。
最后是gpt基于这三份报告再自己review和打分,额外找到了一个关键问题(但是有了其他模型的既有工作,这里不能算gpt最强)。





报告
分数
评价




phase4_glm.md
80/100
最有价值。抓到了 CrossValidator 未接入,这是关键验收缺口。但把 evidence_grade() 枚举问题评成 Critical 偏重;compliance_ru...
Hari Seldon (@origing)一加真我合并,之后要叫真加了 中发帖

[Notepad20260430010428096] 
唉,原本一加以前很辉煌的,现在哈苏没了,要和真我合并,现在米ov都是一个子品牌了,不知道这是怎么合并的。
Vrustx可踹即梦2.0和剧本创作的AI站邀请码【不免费】 中发帖

[image] 
先看可用功能。
注册后绑定手机可以领取1180积分。即梦2.0模型创作一次15s视频为64积分。狠狠踹。
[image]
还有其他模型可以用,还可以小说创作、音频创作等等。
[image]
[image]
[image]
限时注册中。
Zuwis甲骨文部署了mailu邮箱但是 25 端口不给开无法发送邮件怎么办 中发帖

发邮件申请了一次 
但是回复的是不给开让我去用他们的服务
但是我就想开开这个端口然后就可以自动转发也可以发邮件了
要不然根本就没法发邮件
不知道各位大佬们有没有什么办法能够把甲骨文的25端口给打开呀
@JSFX-235gpt检索论文搜出奇奇怪怪的广告 中发帖

大半夜使用gpt想要认真调研一下研究领域的,看着检索的网址都是arxiv、openReview这些,怎么给我开出这些奇奇怪怪的广告呀 🫪 
[image]
@45dinomimo token plan 小小炫耀一波 中发帖

我昨天上午用了qq邮箱,结果一整天都没回复,然后晚上换成了 gmail 
好像今天傍晚发了邮件,以激动的心情绑定了邮箱,本来想着能是 pro 就不错了,结果:
[image]
我的经验:

用一个 star 相对比较高的项目(我目前跟着一个导师介绍的开发组做一个小开源项目,大概 300 star)
可以用AI写小作文,字稍微多写一点
(个人猜测)不需要体现你很牛逼或者是你的项目很牛逼,但是最好能够体现出你用的token量比较大
四季与鱼 (@sijiyuyu)给各位佬友发点PLUS号 CAP的文件做福利吧 中发帖

给各位佬友发点PLUS号 CAP的文件做福利吧,质量还不错,应该能用个两天 
用了麻烦点个赞留个足迹吧,,,不要拿了不吭声
我真不知道怎么发福利帖子,各位佬友,指导一下吧,,学会发福利帖子到时候再多发点,害怕伸手党了,,,
10-.zip (30.6 KB)
MoeCaa文心一言5.1预览版上竞技场了 中发帖

目前排名13 不知道是啥规模的 
[f74589d056d15ce156f13fea5997716b]
官网也上了
[image]
无人在意.jpg
@gstajie发现了一个有意思的生图提示词 中发帖

学会这个思路可以解锁更多玩法🔓 
What if 「角色名」 was a playable character in Dead Or Alive Xtreme videogame?
[1000112198.jpg]
[1000112197.jpg]
@benben2025试图用deepseek的多模态复刻L站 中发帖

这是原图: 
[image]
这是效果:
[image]
这是地址:
https://chat.deepseek.com/share/n7r4p49o83wkkdr995
佬友们怎么评价 🤔我感觉还行
114yiyis (@yiyis)claude for word如何使用第三方api 中发帖

最近想体验下claude for word,但是发现不清楚如何接入第三方api,其有模型名验证。 
我尝试使用cc switch来代理,依然不认。
使用过claude for word的佬也可以分享下是如何实现三方api接入?或者佬友们有什么本地简单点的模型代理或者破解方案吗?

帖子索引关键词
@lueluelueTeam免费Codex席位? 中发帖

OpenAI的x帖子 
Add Codex seats with a $0 seat fee for a limited time.
Through the end of June, eligible ChatGPT Business and Enterprise customers can add Codex-only seats, making it easier to give more developers access to Codex in their day-to-day workflows.
jasper (@jasper007)spec coding用的还多么? 中发帖

之前也用spec coding,模型差的时候不用这个是真不行,但是其实他也确实繁琐,经常挤爆宝贵的上下文空间。 
现在gpt-5.4xhigh 5.5xhigh。我已经很少用spec coding了,习惯性自己尽量给一个上下文内可以处理的小需求。发现ai基本上达到了我的要求,就是每次生成的代码都是有效的可用的,容易review的。
不知道大家现在是怎么在几百万行的工程内使用ai的,特别是客户端的,前端后端我觉得相对可验证得多。