Workflow
多模态学习
icon
Search documents
模拟大脑功能分化!北大与港中文发布Fast-in-Slow VLA,让“快行动”和“慢推理”统一协作
机器之心· 2025-07-12 02:11
作者简介:由来自北 京大学、香港中文大学、北京智源研究院、智平方的老师同学联合研究,作者包括博 士生陈浩、刘家铭、顾晨阳、刘卓洋,通讯作者为北京大学仉尚航。北京大学 HMI 实验室长期致力于具身 智能和多模态学习领域的研究,欢迎关注。 快执行与慢思考: 在机器人操控领域,实现高频响应与复杂推理的统一,一直是一个重大技术挑战。近期,北京大学与香港 中文大学的研究团队联合发布了名为 Fast-in-Slow(FiS-VLA) 的全新双系统视觉 - 语言 - 动作模型。不同 之前的快慢系统 VLA 方法需要初始化 / 引入一个全新的快速执行模块,该方法通过将快速执行模块嵌入预 训练视觉 - 语言模型(VLM)中,实现快慢系统一体化的设计。同时,针对双系统设计了异构模态输入与 异步运行频率的策略,使得 FiS-VLA 既能实现快速动作生成,也具备慢思考能力。该方法在多个仿真与真 机平台上取得了优异表现。最令人瞩目的是,FiS-VLA-7B 可以实现高达 117.7Hz 的控制频率,大幅领先于 现有主流方案,展示了其广阔的实际应用潜力。 论文链接: https://arxiv.org/pdf/2506.01953 项目 ...
大会发布 | 世界人工智能大会青年菁英交流会学术研究成果征集通知
3 6 Ke· 2025-07-03 02:53
Group 1 - The event aims to promote academic exchange and innovation collaboration among global youth AI researchers, responding to the theme of the World Artificial Intelligence Conference [3] - The initiative seeks to provide a high-standard academic exchange platform for young scholars and technology developers, facilitating the collision of academic ideas and the transformation and dissemination of research results [3] Group 2 - The call for submissions focuses on cutting-edge explorations in the field of artificial intelligence, covering areas such as large models, generative AI, computer vision, reinforcement learning, AI ethics, and interdisciplinary applications [4][5][6][7][8] - Submissions can take the form of academic posters or preprint papers, with specific guidelines for each format, including visual presentation requirements and structural expectations for research papers [8][9] Group 3 - Selected works will be showcased at the World Artificial Intelligence Conference, with opportunities for authors to present their findings and engage with industry leaders [10] - Authors may apply for direct recommendations to top international journals, including Nature Machine Intelligence, with expedited review processes for recommended papers [10][14] Group 4 - Submission materials must include a title, author information, and either a poster design file or a full preprint paper, along with a brief research highlight summary [11] - The submission deadline is July 10, 2025, with notifications of review results by July 15, 2025, and the conference scheduled for July 27, 2025, in Shanghai [12]
智源发布“悟界”系列大模型,含全球首个原生多模态世界模型Emu3
Feng Huang Wang· 2025-06-06 14:32
凤凰网科技讯 6月6日,在2025北京智源大会上,继"悟道"系列大模型之后,智源研究院推出"悟界"系 列大模型。 "悟界"大模型系列,包括原生多模态世界模型Emu3、脑科学多模态通用基础模型见微Brainμ、跨本体 具身大小脑协作框架RoboOS 2.0与具身大脑RoboBrain 2.0以及全原子微观生命模型OpenComplex2。 Emu3作为原生多模态统一架构让大模型具备理解和推理世界的能力,Brainμ基于Emu3架构,引入脑信 号这一新的模态数据,实现了单一模型完成多种神经科学任务的大一统。多模态与脑科学模型未来可成 为人机交互具身场景下的基础模型。 RoboOS 2.0与RoboBrain 2.0在初代版本基础上,原有性能大幅提升,并新增多机协作规划与物理常识驱 动的空间推理能力。 作为神经科学领域跨任务、跨模态、跨个体的基础通用模型,Brainμ可同步处理多类编解码任务,兼容 多物种动物模型(包括小鼠 狨猴 猕猴)与人类数据,实现科学数据注释、交互式科学结论解读、大脑 感觉信号重建及模拟刺激信号生成。在自动化睡眠分型、感官信号重建与多种脑疾病诊断等任务中,作 为单一模型其性能显著超越现有的专有 ...
4万多名作者挤破头,CVPR 2025官方揭秘三大爆款主题, 你卷对方向了吗?
机器之心· 2025-05-28 03:02
机器之心报道 机器之心编辑部 当今计算机视觉领域最热门的三个方向。 当今计算机视觉领域最热门的话题有哪些? 「自 2020 年 NeRF 论文首次发表以来,利用深度网络进行 3D 重建已成为趋势。如今高斯泼溅(Gaussian splatting)技术进一步推动了这一发展,」CVPR 2025 程序联合主席、美国俄勒冈州立大学副教授 Fuxin Li 分享道,「本质上,计算机视觉与图形学正在融合。神经渲染研究的兴起,显著推动了 3D 相关论文数量的 增长。」 图像与视频合成 随着研究的不断发展,学界现在能够通过视频和图像形式更精确地呈现环境信息。对该领域的探索已成为 CVPR 2025 论文的焦点,图像和视频合成成为今年大会上最大的类别之一。 「今年商业聊天机器人的一大趋势是它们已经实现了多模态化;它们现在不仅能分析和生成文本,还能分 析和生成图像,有时还能生成视频,」Isola 解释道。「即将出现的能力是生成完整的交互式世界。CVPR 刚刚,CVPR 官方给出了最新统计,他们根据论文提交情况,总结出三大方向: 这份统计是基于全球 4 万多名作者 13008 份投稿结果产生的。相比往年,今年的投稿数量增长了 ...
ETT:打破原生多模态学习视觉瓶颈,重塑视觉tokenizer优化范式
机器之心· 2025-05-27 06:38
本文由北京智源研究院多模态大模型研究中心(团队负责人王鑫龙,团队代表作 EMU 系列、EVA 系列、Painter & SegGPT)、中科院自动化所和大连理 工大学联合完成。 在多模态学习蓬勃发展的当下,视觉 tokenizer 作为连接视觉信息与下游任务的关键桥梁,其性能优劣直接决定了多模态模型的表现。然而,传统的视觉 tokenization 方法存在一个致命缺陷:视觉 tokenizer 的优化与下游任务的训练是相互割裂的。 这种分离式的训练范式假设视觉 tokens 能够在不同任务间无缝通用,但现实情况是,为低级重建任务优化的视觉 tokenizer 往往难以满足诸如图像生成、 视觉问答等需要丰富语义表示的下游任务需求,导致下游任务的性能受限。 针对这一亟待解决的问题,我们提出了 ETT(End-to-End Vision Tokenizer Tuning),一种全新的端到端视觉 tokenizer 调优方法。 ETT 的核心架构与训练策略 ETT 创新性地实现了视觉 tokenization 与目标自回归任务的联合优化,打破了传统方法中视觉 tokenizer 一旦训练完成便固定的常规,充分释放了 ...