@stevessrCUDA Agent 中发帖

GPU 内核优化是现代深度学习的基础,但仍是一项高度专业化的任务,需要深厚的硬件专业知识。尽管在通用编程中表现优异,大型语言模型(LLM)仍无法与基于编译器的系统竞争,如用于 CUDA 内核生成的 http URL。现有的 CUDA 代码生成方法要么依赖无训练的精炼,要么在固定的多回合执行反馈循环内微调模型,但这两种范式都未能从根本上提升模型固有的 CUDA 优化能力,导致性能提升有限。我们介绍 CUDA Agent,一个大规模的智能体强化学习系统,通过三个组成部分发展 CUDA 内核专业知识:可扩展的数据综合流水线、具备自动验证和剖析的技能增强 CUDA 开发环境,以提供可靠的奖励信号,以及实现稳定训练的强化学习算法技术。CUDA Agent 在 KernelBench 上实现了最先进的性能,在 KernelBench 的 1 级、2 级和 3 级分段下,通过该 http UR...