视频合成+3D重建

Search documents
深度|具身合成数据的路线之争,谁将率先走出困境?
Z Potentials· 2025-04-08 12:30
" 没有数据,就创造数据。 "NVIDIA Cosmos World Foundation Models, CES 2025 NVIDIA Cosmos World Foundation Models, CES 2025 摘要 本文主要描述了具身合成数据两条主要技术路线之争: " 视频合成 +3D 重建 " or " 端到端 3D 生成 " 。参考自动驾驶的成功经验,前者模态转换链路过长 导致误差累积, ' 直接合成 3D 数据 ' 理论上有信息效率优势,但需要克服 " 常识欠缺 " 等挑战。 眼下,机器人流行视频中高难度动作(空翻、跳舞、格斗等)主要依靠 遥控 / 预设编程完成的。 机器人 逐渐完善了 自身运动控制能力 ,然而对外环境感 知、推理能力有待完善。 数据是 AI 时代的石油。具身智能的突破高度依赖于数据驱动的训练。由于现实数据采集成本高,合成数据被推上了前台。它不只是 " 虚拟的替代品 " ,更 可能是具身智能迈向通用能力的关键推动力。英伟达在 CES 2025 指出 " 尚无互联网规模的机器人数据 " ,自动驾驶已具备城市级仿真,但家庭等复杂室内 环境缺乏 3D 合成平台。 为解决 " 常识欠 ...