Workflow
贪吃蛇游戏
icon
Search documents
强化学习新发现:无需数学样本,仅游戏训练AI推理大增
机器之心· 2025-06-24 06:46
第一作者谢云飞是莱斯大学博士生,导师为通讯作者魏晨教授,研究方向包括多模态生成与理解。 Project Leader 肖俊飞是约翰斯・霍普金斯大学博士生,导师为 Bloomberg Distinguished Professor Alan Yuille。 第二作者马崟淞是约翰斯・霍普金斯大学博士生。 图 1: 我们发现,只在例如贪吃蛇这种游戏上进行强化学习训练,模型就能涌现出领域外的泛化能力,在数学、多学科等多个任务上提高性能。 第三作者兰石懿是英伟达 Research Scientist。 最近,强化学习领域出现了一个颠覆性发现:研究人员不再需要大量数学训练样本,仅仅让 AI 玩简单游戏,就能显著提升其数学推理能力。 此前已有研究发现,即使不提供标准答案,仅用数学问题进行强化学习也能提高模型性能,这让人们开始重新思考强化学习的训练方式。而来自莱斯大学、约翰 斯・霍普金斯大学和英伟达的研究团队更进一步:他们让多模态大语言模型 (MLLM) 玩贪吃蛇等简单游戏,无需任何数学或多学科训练数据,就显著提升了模型 的多模态推理能力。研究团队提出了 ViGaL (Visual Game Learning) 方法,在多个 ...
蛇年就玩贪吃蛇:AI的“蛇”游戏挑战
故事的开始总是充满挑战。当我们将任务交给AI时,它就像一个刚刚出生的婴儿,对这个世界一无所 知。 我们要求AI用Python编写一个简单的"贪吃蛇"游戏,并让它自己玩游戏。 听起来是不是很简单? 但其实,这只是一个开始。 AI的第一步是创建游戏。它需要理解游戏的规则:蛇如何移动,如何吃水果,如何避免撞到自己。这个 过程并不容易,但AI凭借其强大的计算能力,很快就给出了答案。它不仅成功创建了游戏,还编写了一 个脚本,让蛇能够自动移动并吃水果。 我们看着蛇在屏幕上自动移动,吃掉一个个水果,心中充满了惊喜。这只是一个简单的游戏,但对于AI 来说,这是一个巨大的进步。它不仅理解了游戏规则,还能够通过代码实现这些规则。这就像一个孩子 第一次学会走路,虽然还很笨拙,但已经迈出了重要的一步。 遇到挑战:AI的第一次失败 然而,事情并没有那么简单。我们决定增加一些难度,让游戏变得更加复杂。 我们在游戏中加入了陷 阱,每两秒会出现一个障碍物,蛇一旦撞到就会失去一部分身体。我们想看看AI是否能够应对这种新的 挑战。 结果并不理想。AI编写的脚本在面对陷阱时显得有些无能为力。蛇不断地撞到陷阱,失去了很多分数。 我们意识到,AI虽然 ...