Workflow
DreamGen
icon
Search documents
英伟达让机器人“做梦学习”,仅需 1 个动作数据,解锁 22 种新技能
3 6 Ke· 2025-05-23 01:49
Core Insights - NVIDIA GEAR Lab has launched the DreamGen project, enabling robots to learn in "digital dreams," achieving zero-shot behavior and environment generalization [1] - The project aims to transition from traditional data collection methods to a more efficient model that generates training data through video world models [1][18] Group 1: DreamGen Overview - DreamGen operates without human operator teams, utilizing digital dreamscapes to enhance robot learning capabilities [1] - The project plans to be fully open-sourced in the coming weeks, promoting wider accessibility and collaboration [1] Group 2: Learning Process - The learning process involves four steps: fine-tuning video world models, generating diverse scenes, extracting action data, and training robot models [2][4][5][8] - Robots can learn new behaviors in unfamiliar environments, significantly increasing their task success rates [10][14] Group 3: Performance Metrics - The success rate for learning new actions from single action data increased from 11.2% to 43.2%, while success in unfamiliar environments rose from 0% to 28.5% [14] - The scale of neural trajectories achieved 333 times that of human demonstration data, leading to logarithmic performance improvements [14] Group 4: Evaluation and Future Implications - A new evaluation benchmark, DreamGen Bench, has been developed to assess the quality of generated data based on instruction adherence and physical realism [16] - DreamGen marks a new era in robotic learning, shifting from reliance on extensive human-operated data to leveraging world models for data generation [18]
腾讯研究院AI速递 20250522
腾讯研究院· 2025-05-21 15:01
生成式AI 一、 真碾压Sora!谷歌Veo 3直接「开口说话」 物理 遵循 性 更 好 1. Veo 3实现音画同步生成功能,能根据提示词同时生成视频画面、对白、唇动和音效,实 现完整的视听体验; 2. 基于V2A(Video-to-Audio)技术,模型能将视频像素转化为语义信号,配合文本提示生 成匹配音频; 3. 模型支持长提示词理解和多步骤事件流生成,但目前仅限8秒视频,面向美国Ultra订阅用 户开放,定价249.99美元/月。 https://mp.weixin.qq.com/s/rJFwZ1lLiWzFLE7jd4jGyA 二、 12秒1万token!谷歌文本「扩散模型」Gemini Diffusion 1. Gemini Diffusion采用扩散技术生成文本,速度达2000token/秒,12秒可生成1万 tokens; 2. 区别于传统自回归模型从左到右生成,通过逐步优化噪声学习生成输出,可快速迭代和错 误纠正; 3. 性能可与更大的模型Gemini 2.0 Flash-Lite相媲美,支持非因果推理,能一次生成整个标 记块。 https://mp.weixin.qq.com/s/paes ...
英伟达让机器人「做梦学习」,靠梦境实现真·从0泛化
量子位· 2025-05-21 10:39
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 「仿生人会梦见电子羊吗?」这是科幻界一个闻名遐迩的问题。 现在英伟达给出答案:Yes!而且还 可以从中学习新技能 。 如下面各种丝滑操作,都没有真实世界数据作为训练支撑。 仅凭文本指令,机器人就完成相应任务。 这是NVIDIA GEAR Lab最新推出的 DreamGen 项目。 它所说的"梦境中学习",是巧妙利用AI视频世界模型生成神经轨迹,仅需少量现实视频,就能让机器人学会执行22种新任务。 在真实机器人测试上,复杂任务的成功率更是从21%显著提升至45.5%,并 首次实现真正意义上的从0开始的泛化 。 英伟达掌门人老黄最近也在Computex 2025演讲上将其作为 GR00T-Dreams 的一部分对外正式进行宣布。 接下来就DreamGen构造我们一一拆解。 在梦境中学习 传统机器人虽已展现出执行复杂现实任务的巨大潜力,但严重依赖人工收集的大规模遥操作数据,成本高且耗时长。 纯粹的计算机仿真合成数据,也由于模拟环境与真实物理世界差距大,机器人所学会的技能难以直接应用到现实。 于是研究团队提出要不试试让机器人在梦境中学习? 这个想法也并非空穴来风, ...