Workflow
多视角
icon
Search documents
从坐标混乱到时空对齐!诺亚和复旦联合提出4D-VLA,提升机器人预训练效率和稳健性
具身智能之心· 2025-07-06 11:54
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Jiahui Zhang等 以 OpenVLA 为代表的主流方法,仅使用 单帧 RGB 图像 + 文本指令 作为条件来拟合动作分布 。这 种极简输入导致目标分布呈现两类混乱: 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 Teaser 在 VLA pretrain 中,单帧 RGB + 文本的传统输入往往缺失关键时空线索,导致坐标系混乱与状态模糊——即同 一观测下可能对应多种动作分布, 显著拉低预训练效率 。为破解这一瓶颈,我们提出 4D-VLA:通过将3D 空间 + 历史帧融入预训练输入,从而抑制混乱分布,提升模型在复杂场景中的performance。 Insight 如何从多源机器人数据中高效提取可迁移的运动知识 ,仍是制约通用操作策略的关键瓶颈。当前公开的 DROID、LIBERO 等大规模数据集为数据驱动控制提供了可能,但 输入信息的不完整与不一致 严重削弱了预训 练的效果。 ...
工银瑞信主动量化团队:多视角、多资产、多因子、多策略的制胜之道
Xinda Securities· 2025-06-16 07:02
多视角、多资产、多因子、多策略的制胜之道 —— 工银瑞信主动量化团队圆桌实录 2025 年 6 月 16 日 请阅读最后一页免责声明及信息披露 http://www.cindasc.com 1 证券研究报告 基金专题 [TablReportpe] 基金专题报告 于明明 金融工程与金融产品 首席分析师 执业编号:S1500521070001 联系电话:+86 18616021459 邮 箱:yumingming@cindasc.com 吴彦锦 金融工程与金融产品 分析师 执业编号:S1500523090002 联系电话:+86 18616819227 邮 箱:wuyanjin@cindasc.com [Table_Title] 工银瑞信主动量化团队:多视角、多资产、 多因子、多策略的制胜之道 [Table_ReportDate] 2025 年 6 月 16 日 [Table_Summary] 本篇报告中,我们聚焦近期市场关注度较高,且在管产品业绩亮眼的工银瑞信 主动量化投资团队。本文从组织架构、投资策略、平台优势等多维度展开分析, 系统性梳理了该团队的人员分工、策略思路、产品矩阵及近期表现,并特别邀 请该团队核 ...
《亚维农少女》与毕加索:现代艺术的解构宣言?
Jing Ji Guan Cha Bao· 2025-06-05 04:14
(原标题:《亚维农少女》与毕加索:现代艺术的解构宣言?) 巴勃罗?毕加索的《亚维农少女》创作于 1907 年,耗时近一年完成,是 20 世纪现代艺术史上具有里程 碑意义的作品。这幅画不仅颠覆了传统绘画的视觉语言,更开启了立体主义艺术的先河,深刻反映了毕 加索在艺术探索中的突破性思维与时代精神的碰撞。 20 世纪初的欧洲正经历着社会、文化与科技的剧烈变革,传统艺术体系面临前所未有的挑战。毕加索 受非洲原始雕塑、塞尚的几何化造型以及后期印象派色彩观念的影响,试图打破西方绘画中基于透视法 和单一视角的 "真实" 再现。作品的灵感源于巴塞罗那卡列?亚维农街的红灯区场景,据部分学者推测, 毕加索最初可能试图通过画面探讨性与道德议题,但在创作过程中,他将主题转向对形式语言的彻底革 新 —— 用碎片化的几何形体重构人物形象,消解传统美学中的 "和谐" 与 "柔美"。1907 年,毕加索在 巴黎人类博物馆接触到非洲科特迪瓦、贝宁的面具与雕塑,这些原始艺术中棱角分明的面部造型和抽象 化处理,直接影响了他对画中少女面孔的塑造。这种跨文化的视觉借鉴,成为他突破欧洲古典写实传统 的关键支点。 画面中五位裸女以不同姿态分布,她们的身体 ...
5700问答对全面评估拷问AI空间感!最新空间智能评测基准来了丨浙大&成电&港中文
量子位· 2025-06-02 04:13
ZJU REAL Lab 投稿 量子位 | 公众号 QbitAI 杯子在我的左边还是右边? 这个对人类来说非常简单的问题,连GPT-4o这样级别的视觉语言大模型 (VLMs) 也可能答错。 ViewSpatial-Bench评估集中 包含5700个问答对,涵盖相机视角与人类视角两种框架下的五种空间定位识别任务 。 究其根本,还是 当前的视觉语言大模型在大规模图文数据中学习到的空间信息往往是片段化的,仅限于静态视角的理解,缺乏多维度、多视 角的空间推理能力 。 因此,当面对需要多视角空间推理的任务时,这些模型们就频频卡壳。 但是,具备稳健的空间推理能力与视角理解能力的AI系统,才能真正成为与人类协作的智能体。 为此,来自浙江大学、电子科技大学和香港中文大学的研究团队提出了 首个系统评估VLM多视角多任务下的空间定位能力的基准体系 —— ViewSpatial-Bench,涵盖五种不同的任务类型,从相机和人类视角出发,全面评估模型的空间推理能力。 同时还并配备了能够生成精确方向标签的自动化3D标注流水线。通过高效的3D方向标注生成流程,实现了超过5700个问答对,覆盖丰富的 3D场景。 通过在多视角空间数据集上的 ...
4万多名作者挤破头,CVPR 2025官方揭秘三大爆款主题, 你卷对方向了吗?
机器之心· 2025-05-28 03:02
机器之心报道 机器之心编辑部 当今计算机视觉领域最热门的三个方向。 当今计算机视觉领域最热门的话题有哪些? 「自 2020 年 NeRF 论文首次发表以来,利用深度网络进行 3D 重建已成为趋势。如今高斯泼溅(Gaussian splatting)技术进一步推动了这一发展,」CVPR 2025 程序联合主席、美国俄勒冈州立大学副教授 Fuxin Li 分享道,「本质上,计算机视觉与图形学正在融合。神经渲染研究的兴起,显著推动了 3D 相关论文数量的 增长。」 图像与视频合成 随着研究的不断发展,学界现在能够通过视频和图像形式更精确地呈现环境信息。对该领域的探索已成为 CVPR 2025 论文的焦点,图像和视频合成成为今年大会上最大的类别之一。 「今年商业聊天机器人的一大趋势是它们已经实现了多模态化;它们现在不仅能分析和生成文本,还能分 析和生成图像,有时还能生成视频,」Isola 解释道。「即将出现的能力是生成完整的交互式世界。CVPR 刚刚,CVPR 官方给出了最新统计,他们根据论文提交情况,总结出三大方向: 这份统计是基于全球 4 万多名作者 13008 份投稿结果产生的。相比往年,今年的投稿数量增长了 ...