@HCPTangHY谷歌DeepMind对齐研究员Arthur Conmy宣布加入Anthropic 中发帖

GDM研究员Arthur Conmy于6月25日在社交平台X上宣布,他即将加入Anthropic,从事模型对齐相关工作,并将为此从伦敦搬迁至旧金山。 
[image]
Conmy在帖文中表示,Claude的能力已经非常强大,但"与迄今为止所有模型一样,Claude的对齐程度还不足以安全地将AGI开发工作委托给它"。他认为Anthropic是当下从事这项工作的最佳去处。
他在后续回复中进一步解释了自己的工作方向:在训练过程中识别模型未对齐的迹象,并寻求根本性的修复方案,而非仅仅针对具体行为做表面补丁。他同时援引了Anthropic于2026年发布的一篇关于对齐方法的文章。
其前同事、DeepMind研究员Neel Nanda在评论中对他的离开表示惋惜,同时肯定了他在GDM期间的贡献。评论区中也有多位用户对近期DeepMind人员流向Anthropic的趋势表达了关注。




截至...