策略学习
Search documents
一个近300篇工作的综述!从“高层规划和低层控制”来看Manipulation任务的发展
具身智能之心· 2026-01-06 00:32
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在具身智能领域,机器人操纵作为核心难题,随着视觉、语言及多模态学习的飞速发展迎来变革。大型基础模型的出现,大幅提升了机器人的感知与语义表征能 力,使其能在非结构化环境中基于自然语言指令完成任务。由西安交通大学、香港科技大学(广州)等多所高校联合撰写的综述,以 "高层规划 + 低层控制" 的统一 框架,系统梳理了基于学习的机器人操纵方法,明确了当前技术瓶颈与未来方向,为该领域的研究提供了全面且结构化的参考。 论文名称:Embodied Robot Manipulation in the Era of Foundation Models: Planning and Learning Perspectives 论文链接:https://arxiv.org/pdf/2512.22983 项目链接:https://github.com/BaiShuangha ...
策略学习助力LLM推理效率:MIT与谷歌团队提出异步并行生成新范式
机器之心· 2025-05-21 04:00
金天, 麻省理工学院(MIT)计算机科学与人工智能实验室(CSAIL)博士五年级学生,师从 Michael Carbin 和 Jonathan Ragan-Kelley。他主要研究 机器学习与编程系统的结合。此前曾在 IBM Research 主导实现深度神经网络在 IBM 主机上的推理部署。本科毕业于 Haverford College,获计算机科学 与数学双学位。 鄭鈺熹, 麻省理工学院 CSAIL 博士三年级学生,师从 Michael Carbin。她的研究方向为编程语言与机器学习的交叉领域。 大语言模型(LLM)的生成范式正在从传统的「单人书写」向「分身协作」转变。传统自回归解码按顺序生成内容,而新兴的异步生成范式通过识别语义独 立的内容块,实现并行生成。 如图所示,传统方法(下)按顺序生成所有内容,而异步生成(上)同时处理多个互不依赖的内容块。对比顺序生成,异步生成在 AlpacaEval 长度控制评 测中实现 1.21-1.93× 的几何平均提速 ,对应生成质量变化(胜率)为 +2.2% 至 -7.1%。 MIT 与谷歌研究团队在最新研究 PASTA(PArallel STructure Anno ...