Workflow
基于Rubric Reward的Agentic RL
icon
Search documents
32B逆袭GPT-5.2:首个端到端GPU编程智能体框架StitchCUDA问世
机器之心· 2026-03-05 03:54
本文作者包括明尼苏达大学的李世阳(共同第一作者),张子健(共同第一作者),Winson Chen,罗越波,洪明毅,丁才文。 现有的 LLM 自动化 CUDA 方法大多只能优化单个 Kernel,面对完整的端到端 GPU 程序(如整个 VisionTransformer 推理)往往束手无策。 本文中, StitchCUDA 提出了一个根本性的问题转向:从优化单个 Kernel,到生成完整的端到端 GPU 程序 。通过多智能体协作框架与基于 Rubric Reward 的 Agentic RL,StitchCUDA 在 KernelBench Level 3 端到端任务上实现了 90% 的成功率和 1.50× 的平均加速比 ,分别比多智能体基线高出 1.72× 和 RL 模型基线高出 2.73×。 论文标题:StitchCUDA: An Automated Multi-Agents End-to-End GPU Programming Framework with Rubric-based Agentic Reinforcement Learning CUDA 代码的性能对当今模型训练与推理至关重要。近年来,基于 ...