Workflow
学习
icon
Search documents
重磅分享!VR-Robo:real2sim2real助力真实场景下的机器人导航和运动控制
具身智能之心· 2025-07-08 09:31
点击下方 卡片 ,关注" 具身智能之心 "公众号 >>直播和内容获取转到 → 具身智能之心知识星球 足式机器人的运动控制得益于强化学习与物理仿真的结合, 但其实际应用受限于"仿真与现实差距" , 特别是缺乏真实感视觉渲染阻碍了需RGB感知的高阶任务(如本体感知导航)。 本文提出"真实-仿真- 真实"框架,通过多视角图像进行3D高斯溅射(3DGS)场景重建,构建兼具照片级真实感与物理交互特性 的"数字孪生"仿真环境,实现视觉导航与运动控制的协同学习 。在仿真器中训练强化学习策略执行视 觉目标追踪任务的实验表明, 该方法支持纯RGB输入的仿真到现实策略迁移,并能促进策略在新环境 中的快速适应与高效探索,在家庭和工厂场景中具有应用潜力。 论文标题:VR-Robo: A Real-to-Sim-to-Real Framework for Visual Robot Navigation and Locomotion 论文链接:https://arxiv.org/abs/2502.01536 项目链接:https://vr-robo.github.io/ ...
感觉捕手
3 6 Ke· 2025-07-08 09:04
初中时候,我心智混沌,上课经常不听讲,学习上磕磕碰碰。 有次考物理,最后一道难题是关于浮力的。我完全不记得浮力公式,于是开始徒手推导,用一种感觉模 拟的方式,写出了自己的解答。 发卷的时候,我的答案居然对了,不过分数是零。同桌只写下了公式,后面啥都没做,得了5分。 物理学家费米 说:计算方法只有两种。 "第一种,也是我喜欢采用的,就是拥有一个明确的物理影像; 第二种,则必须具备严密的数学形式结构。" 也许那时我用的方法,就是在大脑中模拟一种初始的物理影像与过程吧。 后来读高中,我稍有改善,不再那么心不在焉,从物理中获得了更多的乐趣。 我尤其喜欢力学,因为只需要极少的公式,就能解决一些很复杂、很天马行空的难题。--照例用的是那 种"感觉"为主的方式。 我会在脑海中模拟物体的受力(以及力的分解),模拟运动,模拟各种要素组合之后的系统作用,然后 再用公式来计算。 爱因斯坦在1945年给数学家雅克·阿达玛写了一封信。阿达玛当时正在研究科学家和数学家的思维过 程。 其中有如下一段: "书写或说出的词语或语言,在我的思考机制中似乎不起任何作用。那些似乎在思想中充当要素的心理 实体,是某些可以'自愿地'被再现和组合的、或多 ...
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略
量子位· 2025-07-08 07:30
MMSearch-R1团队 投稿 量子位 | 公众号 QbitAI 多模态模型学会"按需搜索"! 字节&NTU最新研究, 优化 多模态模型搜索策 略 —— 通过搭建网络搜索工具、构建多模态搜索数据集以及涉及简单有效的奖励机制,首次尝试 基于端到端强化学习的多模态模型自主搜索训练 。 经过训练的模型能够自主判断搜索时机、搜索内容并处理搜索结果,在真实互联网环境中执行多轮按需搜索。 实验结果表明,在知识密集型视觉问答任务 (Visual Question Answering, VQA) 中,MMSearch-R1系统展现出显著优势: 其性能不仅超越同规模模型在传统检索增强生成 (RAG) 工作流下的性能,更 在减少约30%搜索次数的前提 下 , 达 到了更大规模规模模 型做传统RAG的性能水平。 下文将详细解析该研究的研究方法以及实验发现。 具体怎么做到的? 近年来,随着视觉-语言训练数据集在规模和质量上的双重提升,多模态大模型 (Large Multimodal Models, LMMs) 在跨模态理解任务中 展现出卓越的性能,其文本与视觉知识的对齐能力显著增强。 然而,现实世界的信息具有高度动态性和复杂性,单 ...
突破全模态AI理解边界:引入上下文强化学习,赋能全模态模型“意图”推理新高度
量子位· 2025-07-08 07:30
HumanOmniV2团队 投稿 量子位 | 公众号 QbitAI 在多模态大语言模型(MLLMs)应用日益多元化的今天,对模型深度理解和分析人类意图的需求愈发迫切。尽管强化学习(RL) 在增强大语言模型(LLMs)的推理能力方面已展现出巨大潜力,但将其有效应用于复杂的多模态数据和格式仍面临诸多挑战。 在深入研究现有技术后,发现在当前多模态推理模型中发现现有的推理路径存在两大核心问题:全局上下文理解不足和捷径问题。 全局上下文理解不足: 当模型无法准确识别或错误解读多模态证据和上下文信息时,便会出现此问题,导致给出不正确的答案。 捷径问题: 指模型在处理多模态输入时,忽视了关键线索,未充分考量多模态信息就直接给出答案,从而导致次优或片面的结果 为彻底解决这些痛点,阿里巴巴通义实验室团队推出 HumanOmniV2 ,强调模型必须在对多模态输入 全局上下文有清晰理解 的 基础上进行推理。这种全局性理解能够有效避免模型遗漏关键多模态线索,确保推理过程的全面性和深入性。 相关代码、模型、数据都开源,地址可在文末获取。 效果展示 问题:这两个人是什么关系? A. 他们想引起人们对该产品的关注。 B. 这两个人是商业伙 ...
RL 圈的夏夜之约!12 人唠嗑局:当强化学习撞上大模型 Agent
机器之心· 2025-07-08 04:09
活动档案速报 主题 :强化学习新范式探索之夜:从基础模型到 Agent 的进阶之路 嘿!RL 圈的潮玩咖看过来! 大模型时代卷起技术狂潮,强化学习(RL)早已不是 "小众玩家",当它牵手大模型智能体,直接开启「王 炸组合」模式!想不想潜入神秘据点,边嗨边聊最 in 的 RL 新范式?7 月 26 日晚, 由机器之心主办、东浩 兰生支持,作为 WAIC 官方活动之一的 「强化学习新范式探索之夜」 热力开启, 咱们组个「技术吐槽局」 +「脑洞开黑局」, 等你带「料」赴约~ 时间 :2025 年 7 月 26 日 19:00-21:10(白天逛完 WAIC 直接转场,不耽误你狂卷干货又能嗨聊技术~) 1.「强化学习 × 大模型智能体」:CP 组合如何原地封神? 2. 训练推理两难:探索新策略 VS 守稳基本盘,怎么选? 3. 对齐评估大考:如何让智能体 "听话又能打"? 已锁定的「技术搭子」阵容 ▪️吴翼 | 清华大学交叉信息研究院助理教授 (学术圈「理论脑洞王」本王) 地点 :上海世博展览馆附近 规模 :仅限 12 位,手慢无!主打一个 "小而精" 的深度贴脸交流,拒绝人海战术,每个人都能疯狂输出! 我们聊什么? ...
南农大梨新品种家族集体“出道”
Ke Ji Ri Bao· 2025-07-08 02:07
"我们的目标就是培育好吃、好看、好种的梨,让消费者吃得甜、果农种得顺、市场季季鲜。"中国 工程院院士、南京农业大学梨工程技术研究中心主任张绍铃表示。 原标题:南农大梨新品种家族集体"出道" "特别清甜!"6月28日,在南京农业大学梨工程技术研究中心的梨新品种推荐交流会上,"宁梨早 露"等一批新品种收获了专家和种植企业的点赞。这场交流中,与会专家代表、主管部门、合作地市、 种植户与市场代表以梨为媒共话发展,为江苏乃至全国梨产业递上一份"甜美的答卷"。 "这是一场与时间的赛跑。果树生长周期长,从杂交授粉到育成品种,传统做法需要12至15年的时 间。"齐开杰介绍,为了跑出育种"加速度",科研团队将图像识别、机器学习技术应用于梨表型性状评 价,同时创新应用系列梨杂交实生苗栽培管理技术,针对田间评价数据回溯难及统计分析工作量艰巨等 问题,开发了"云上后稷"育种信息新平台,规范田间评价数据采集,有效提高了梨新种质的创制效率。 "以'宁梨早露'为例,通过我们的育种技术升级,以杂交育种结合芽变、诱变育种,分子标记筛选 结合表型评价,成功为新品种培育提速增效。"齐开杰说。 南京农业大学梨创新团队成员、园艺学院副院长陶书田介绍, ...
ETF策略指数跟踪周报-20250707
HWABAO SECURITIES· 2025-07-07 10:07
2025 年 07 月 07 日 证券研究报告 | 公募基金周报 ETF 策略指数跟踪周报 2025/7/7 分析师:卫以诺 分析师登记编码:S0890518120001 电话:021-20321014 邮箱:weiyinuo@cnhbstock.com 分析师登记编码:S0890522110001 电话:021-20321297 邮箱:chengbingzhe@cnhbstock.com 021-20515355 募 基 金 泛 固 收 指 数 跟 踪 周 报 (2025.06.23-2025.06.27)》2025-06-30 2、《指数冲高下的板块轮动,银行调整和 科技复苏—公募基金权益指数跟踪周报 (2025.06.23-2025.06.27)》2025-06-30 3、《ETF策略指数跟踪周报—2025/6/30》 2025-06-30 或具短期动力—公募基金量化遴选类策 略 指 数 跟 踪 周 报 ( 2025.06.22 )》 2025-06-24 5、《大类资产风偏下行,债市回暖趋势显 著 — 公 募 基 金 泛 固 收 指 数 跟 踪 周 报 (2025.06.16-2025.06.20)》 ...
复盘国内外AI,兼论恒生科技
小熊跑的快· 2025-07-07 09:45
4.7 日后,中美两国股市都迎来了一轮上涨: 纳斯达克累计涨幅 32.9% 。恒生科技指数 ETF ( 513180 )累计涨幅 11.57% 。上证涨了 12.16% 。 A 股整体的上涨幅度没有美股大,从结构上看,也有 很大的差别。 逻辑是对的: 训练芯片以 H100 和 H200 为首,从 2.28 日以后其主力云上价格是往下得: 分析里面的原因:还是基础大模型的迭代变慢所致,在 transformer 架构下的基 础模型迭代明显变慢了,去年 11 月我们还能说是因为算力不够的原因,大 模型迭代受阻。但是从今年 3 月 B200 开始交付, 5 月以后情景看,基础模型的升级就是变慢了。而且从我们跟踪的行业趋势看,预训练美国大厂们还没 放弃,但是基本都把大模型迭代的重点全力投向了 RL 强化学习路径,马上要出来的 GPT5 也是这方面的集大成者。 RL 后训练强化学习阶段,老黄也认为遵 循 scaling law 法则,但比起预训练的暴力增参的大幅需求, RL 的需求显然要小一些。所以从 2 月全球一窝蜂的 转向强化学习这个路径后, H100 和 H200 的租赁价格是明确下降的,这里面也有地区影响,比如 ...
代码+视频!国内首个足式机器人算法与实战(双足/四足/人形等)
具身智能之心· 2025-07-07 09:20
具身机器人最重要的执行控制 说到具身智能机器人,无论是人形还是四足,都离不开的一个重要任务是步态控制,这也是迈向通 用具身必须要攻克的难关。机器人依靠双足或四足来完成空间上的移动,近20年来,工业界和学术 界一直在投入人力和物力对人形机器人的步态进行研究,力图更接近真实动物和人类的动作。在救 援场景中,如地震后的废墟、火灾现场等,地形复杂且充满障碍,足式运动的机器人能够跨越沟 壑、攀爬楼梯、避开障碍物,到达轮式或履带式机器人难以抵达的区域,进行搜索和救援工作。在 太空探索、极地科考等极端环境中,足式运动的人形机器人也能更好地适应崎岖不平的地形,执行 科学探测任务。这也是为什么越来越多国家层面上开始不断推动相关产品落地。 想象一下,机械狗能够在布满石子的路上或者山区进行工作,如果只是僵硬的动作驱动,那估计连 20m都走不出去!真视场景的应用,会更加复杂。如何在负重的条件下完成各项高难度的动作?比 如跳跃、转向、奔跑等。在面对满是石头、树木、坑洼不平的路面、各种草丛和障碍物,有效稳定 地执行动作是非常关键的。 人形机器人的动作会更加柔性,研究表明,人类在生活中可以有近万种不同步态动作。如何让机器 人学习这么多动作 ...
大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱
量子位· 2025-07-07 06:13
henry 发自 凹非寺 量子位 | 公众号 QbitAI 学好数理化,走遍天下都不怕! 这一点这在大语言模型身上也不例外。 大家普遍认同:具备更强数学能力的模型往往也更智能。 但,常识就是用来打破的。 最近,来自CMU的团队发现,一些数学好的模型并没有将它们的"天赋"带到其他更加通用的领域。 研究发现, 只有用强化学习(RL)训练的模型才能将数学推理技能广泛迁移到其他任务上。而用监督微调(SFT)训练的模型则表现出有限 的迁移甚至没有迁移。 网友直呼:又一个 苦涩的教训(bitter lesson) 。 这数学题,不做也罢? 很明显,人们训练大模型并不只是让它来做数学题的。 研究者之所以热衷于提高模型的数学表现,是因为希望它能够把数学那里学到的严密逻辑应用到其他更广泛的领域。 但在此之前,我们有必要知道,对于一个大模型,专门优化数学推理(math reasoning),它在其他任务(推理任务、非推理任务)上会变 得更好,还是更差? 换句话说: 做数学推理训练,会不会帮助或者损害模型在其他领域的能力? 为了解决这一疑问,研究评估了20多个模型在数学推理、其他推理任务(包含医学推理、医学推理、智能体规划)和非推 ...