多模态学习 - filings, earnings calls, financial reports, news

多模态学习

Search documents

模拟大脑功能分化！北大与港中文发布Fast-in-Slow VLA，让“快行动”和“慢推理”统一协作

机器之心· 2025-07-12 02:11

作者简介：由来自北京大学、香港中文大学、北京智源研究院、智平方的老师同学联合研究，作者包括博士生陈浩、刘家铭、顾晨阳、刘卓洋，通讯作者为北京大学仉尚航。北京大学 HMI 实验室长期致力于具身智能和多模态学习领域的研究，欢迎关注。快执行与慢思考：在机器人操控领域，实现高频响应与复杂推理的统一，一直是一个重大技术挑战。近期，北京大学与香港中文大学的研究团队联合发布了名为 Fast-in-Slow（FiS-VLA）的全新双系统视觉 - 语言 - 动作模型。不同之前的快慢系统 VLA 方法需要初始化 / 引入一个全新的快速执行模块，该方法通过将快速执行模块嵌入预训练视觉 - 语言模型（VLM）中，实现快慢系统一体化的设计。同时，针对双系统设计了异构模态输入与异步运行频率的策略，使得 FiS-VLA 既能实现快速动作生成，也具备慢思考能力。该方法在多个仿真与真机平台上取得了优异表现。最令人瞩目的是，FiS-VLA-7B 可以实现高达 117.7Hz 的控制频率，大幅领先于现有主流方案，展示了其广阔的实际应用潜力。论文链接: https://arxiv.org/pdf/2506.01953 项目 ...

Fast-in-Slow（FiS-VLA）

Fast-in-Slow（FiS-VLA）

大会发布 | 世界人工智能大会青年菁英交流会学术研究成果征集通知

3 6 Ke· 2025-07-03 02:53

Group 1 - The event aims to promote academic exchange and innovation collaboration among global youth AI researchers, responding to the theme of the World Artificial Intelligence Conference [3] - The initiative seeks to provide a high-standard academic exchange platform for young scholars and technology developers, facilitating the collision of academic ideas and the transformation and dissemination of research results [3] Group 2 - The call for submissions focuses on cutting-edge explorations in the field of artificial intelligence, covering areas such as large models, generative AI, computer vision, reinforcement learning, AI ethics, and interdisciplinary applications [4][5][6][7][8] - Submissions can take the form of academic posters or preprint papers, with specific guidelines for each format, including visual presentation requirements and structural expectations for research papers [8][9] Group 3 - Selected works will be showcased at the World Artificial Intelligence Conference, with opportunities for authors to present their findings and engage with industry leaders [10] - Authors may apply for direct recommendations to top international journals, including Nature Machine Intelligence, with expedited review processes for recommended papers [10][14] Group 4 - Submission materials must include a title, author information, and either a poster design file or a full preprint paper, along with a brief research highlight summary [11] - The submission deadline is July 10, 2025, with notifications of review results by July 15, 2025, and the conference scheduled for July 27, 2025, in Shanghai [12]

智源发布“悟界”系列大模型，含全球首个原生多模态世界模型Emu3

Feng Huang Wang· 2025-06-06 14:32

凤凰网科技讯 6月6日，在2025北京智源大会上，继"悟道"系列大模型之后，智源研究院推出"悟界"系列大模型。 "悟界"大模型系列，包括原生多模态世界模型Emu3、脑科学多模态通用基础模型见微Brainμ、跨本体具身大小脑协作框架RoboOS 2.0与具身大脑RoboBrain 2.0以及全原子微观生命模型OpenComplex2。 Emu3作为原生多模态统一架构让大模型具备理解和推理世界的能力，Brainμ基于Emu3架构，引入脑信号这一新的模态数据，实现了单一模型完成多种神经科学任务的大一统。多模态与脑科学模型未来可成为人机交互具身场景下的基础模型。 RoboOS 2.0与RoboBrain 2.0在初代版本基础上，原有性能大幅提升，并新增多机协作规划与物理常识驱动的空间推理能力。作为神经科学领域跨任务、跨模态、跨个体的基础通用模型，Brainμ可同步处理多类编解码任务，兼容多物种动物模型（包括小鼠狨猴猕猴）与人类数据，实现科学数据注释、交互式科学结论解读、大脑感觉信号重建及模拟刺激信号生成。在自动化睡眠分型、感官信号重建与多种脑疾病诊断等任务中，作为单一模型其性能显著超越现有的专有 ...

4万多名作者挤破头，CVPR 2025官方揭秘三大爆款主题，你卷对方向了吗？

机器之心· 2025-05-28 03:02

机器之心报道机器之心编辑部当今计算机视觉领域最热门的三个方向。当今计算机视觉领域最热门的话题有哪些？「自 2020 年 NeRF 论文首次发表以来，利用深度网络进行 3D 重建已成为趋势。如今高斯泼溅（Gaussian splatting）技术进一步推动了这一发展，」CVPR 2025 程序联合主席、美国俄勒冈州立大学副教授 Fuxin Li 分享道，「本质上，计算机视觉与图形学正在融合。神经渲染研究的兴起，显著推动了 3D 相关论文数量的增长。」图像与视频合成随着研究的不断发展，学界现在能够通过视频和图像形式更精确地呈现环境信息。对该领域的探索已成为 CVPR 2025 论文的焦点，图像和视频合成成为今年大会上最大的类别之一。「今年商业聊天机器人的一大趋势是它们已经实现了多模态化；它们现在不仅能分析和生成文本，还能分析和生成图像，有时还能生成视频，」Isola 解释道。「即将出现的能力是生成完整的交互式世界。CVPR 刚刚，CVPR 官方给出了最新统计，他们根据论文提交情况，总结出三大方向：这份统计是基于全球 4 万多名作者 13008 份投稿结果产生的。相比往年，今年的投稿数量增长了 ...

ETT：打破原生多模态学习视觉瓶颈，重塑视觉tokenizer优化范式

机器之心· 2025-05-27 06:38

本文由北京智源研究院多模态大模型研究中心（团队负责人王鑫龙，团队代表作 EMU 系列、EVA 系列、Painter & SegGPT）、中科院自动化所和大连理工大学联合完成。在多模态学习蓬勃发展的当下，视觉 tokenizer 作为连接视觉信息与下游任务的关键桥梁，其性能优劣直接决定了多模态模型的表现。然而，传统的视觉 tokenization 方法存在一个致命缺陷：视觉 tokenizer 的优化与下游任务的训练是相互割裂的。这种分离式的训练范式假设视觉 tokens 能够在不同任务间无缝通用，但现实情况是，为低级重建任务优化的视觉 tokenizer 往往难以满足诸如图像生成、视觉问答等需要丰富语义表示的下游任务需求，导致下游任务的性能受限。针对这一亟待解决的问题，我们提出了 ETT（End-to-End Vision Tokenizer Tuning），一种全新的端到端视觉 tokenizer 调优方法。 ETT 的核心架构与训练策略 ETT 创新性地实现了视觉 tokenization 与目标自回归任务的联合优化，打破了传统方法中视觉 tokenizer 一旦训练完成便固定的常规，充分释放了 ...

多模态学习

视觉tokenizer

人工智能

ETT（End-to-End Vision Tokenizer Tuning）

ETT（End-to-End Vision Tokenizer Tuning）

Emu3

EMU 系列