@stevessr 在 CUDA Agent 中发帖GPU 内核优化是现代深度学习的基础，但仍是一项高度专业化的任务，需要深厚的硬件专业知识

@stevessr 在 CUDA Agent 中发帖

GPU 内核优化是现代深度学习的基础，但仍是一项高度专业化的任务，需要深厚的硬件专业知识。尽管在通用编程中表现优异，大型语言模型（LLM）仍无法与基于编译器的系统竞争，如用于 CUDA 内核生成的 http URL。现有的 CUDA 代码生成方法要么依赖无训练的精炼，要么在固定的多回合执行反馈循环内微调模型，但这两种范式都未能从根本上提升模型固有的 CUDA 优化能力，导致性能提升有限。我们介绍 CUDA Agent，一个大规模的智能体强化学习系统，通过三个组成部分发展 CUDA 内核专业知识：可扩展的数据综合流水线、具备自动验证和剖析的技能增强 CUDA 开发环境，以提供可靠的奖励信号，以及实现稳定训练的强化学习算法技术。CUDA Agent 在 KernelBench 上实现了最先进的性能，在 KernelBench 的 1 级、2 级和 3 级分段下，通过该 http UR...