Workflow
量子位
icon
Search documents
双重突破:全球首个零售VLA大模型来了!开源OpenWBT让机器人遥操门槛暴降!
量子位· 2025-06-09 05:24
允中 发自 凹非寺 量子位 | 公众号 QbitAI 6月6日- 7日, 2025 北京智源大会 召开。作为全球具身智能领域最具影响力的学术与产业双栖盛会,本次大会汇聚了顶尖科研机构、技术领 军企业和开源社群。 北京大学助理教授、银河通用机器人创始人及CTO、智源学者 王鹤博士 受邀出席开幕式圆桌论坛。 银河通用具身大模型机器人Galbot 一同登上主论坛舞台,面向全球观众直播展示最新技术成果。这是Galbot的 全球直播首秀, 全程无遥 操,无需场景数据预采集 。 此次主论坛直播,零距离展现了银河通用具身大模型驱动机器人产业落地的硬实力。 以下是此次发布的核心成果: 端到端具身大模型GroceryVLA亮相主论坛 开幕式现场,银河通用机器人Galbot G1登上主论坛舞台,面向全球观众直播展示最新技术成果,零距离展现了银河通用具身大模型驱动机器 人产业落地的硬实力。 机器人在王鹤博士的语音指令下自主、精确的移动到准确位置并将饮料从货架取出, 全程无遥操、自主推理、并且无事先采集场景数据 。 此次Galbot G1展示的货架精准取货, 背后的技术正是银河通用团队最新研发的端到端具身大模型GroceryVLA ...
AI集体“听不懂”!MMAR基准测试揭示音频大模型巨大短板
量子位· 2025-06-09 05:24
这一全新基准测试 MMA R 来自上海交通大学、 南洋理工大学、伦敦玛丽皇后大学、字节跳动、2077AI开源基金会等研 究机构。 MMAR 是什么?它有多难? MMAR团队 投稿 量子位 | 公众号 QbitAI 用AI来整理会议内容,已经是人类的常规操作。 不过,你猜怎么着?面对 1000 道多步骤音频推理题时, 30 款AI模型竟然几乎全军覆没,很多开源模型表现甚至接近瞎 猜。 就连表现最好的开源模型Qwen-2.5-Omni,准确率也只有 5 6 .7% ;而闭源选手Gemini 2.0 Flash则以 65.6% 的成绩 一骑绝尘,遥遥领先全场。 MMAR全称是:A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix。 简单来说,它是一个包含 1000个高质量问题 的音频理解评估基准,每个问题都要求模型具备多步骤的深度推理能力。 我们先来看个例子: 问题是:理发师能否听懂英文? 在这段音频中,被理发的人用英语反复强调自己想要的理发效果,另一个人将其翻译成中文来帮助他强调,这说明理发师 不能听懂英 ...
中科闻歌完成新一轮战略融资,引领企业级人工智能技术发展
量子位· 2025-06-09 05:24
允中 发自 凹非寺 量子位 | 公众号 QbitAI 近日,专注于决策智能的企业级AI服务商 中科 闻歌宣布 完成新一轮战略融资 , 投资人为 北京市石景山区现代创新产业发展基金有限公司 (以下简称石景山区产业基金) 。 本轮融资 将主要用于自研决策 智能操作系统 DIOS的研发投入和市场推广 ,加速企业级人 工智能技术发展和商业落地进程。 石景山区产业基金表示,此次投资不仅是对中科闻歌在决策智能领域技术实力与商业价值的 高度认可,更标志着双方将在人工智能技术落地、产业生态构建等方面展开深度合作,共同 推动石景山区"2+4+4"现代化产业体系建设。 中科闻歌成立于2017年 ,创始团队及核心成员源自中国科学院自动化所,拥有十余年大数 据与人工智能技术的理论、研发及应用积累。 公司现有员工500余人,业务布局全国。公司已累计完成超十亿元融资,此前的投资机构包 括北京市人工智能产业投资基金、国开金融、中网投、深创投、中关村科学城、央视融媒体 基金、中国科学院资本等国资背景基金。 中科闻歌自主研发的决策智能操作系统DIOS (Decision Intelligence Operating System) ,面向政企 ...
破解自驾数据难题!毫米波雷达可控仿真技术新框架来了
量子位· 2025-06-09 03:52
为了解决这一问题, SA-Radar 应运而生。 如下,真实画面右侧从左至右依次是RGB图像、雷达真值、雷达仿真结果、雷达属性修改后的仿真结果、去除场景目标后的仿真结果和新视 角下的仿真结果。 SA-Radar团队 投稿 量子位 | 公众号 QbitAI 以神经网络为核心引擎, 让AI承担雷达仿真数据生成任务,还实现对雷达物理特性的建模与控制—— 这就是光轮智能 联合清华AIR、LeddarTech等机构提出的 全新自动驾驶神经渲染框架 SA-Radar 。 在 无需雷达具体细节的情 况下,它能 实现可控且逼真的雷达仿真,支持场景的灵活编辑 ——包括雷达属性修改、演员移除以及新视角合 成,并能显著增强多种下游任务。 作为高级驾驶辅助系统 (ADAS) 中扮演着至关重要角色的雷达,其相关研究和开发仍面临数据获取的挑战。 尤其让人头疼的事情,是雷达图像显著受到具体软硬件细节的影响。 下图展示了在同一场景中,不同雷达属性和不同视角下的仿真结果: 现存两种雷达仿真方法均有不足 凭借其卓越的抗干扰能力和在恶劣天气条件下的可靠性,雷达在复杂交通环境中表现出色。 然而,雷达相关研究和开发仍面临数据获取的挑战。 现有的雷达仿 ...
消失的Ilya现身毕业演讲:AI时代如何生存,这是我的法则
量子位· 2025-06-09 03:52
白交 整理自 凹非寺 量子位 | 公众号 QbitAI 沉寂一年多,消失的Ilya Sutskever终于出现了! 他回到20年前大学毕业的讲台上——作为荣誉博士获得者进行了演讲。他说,这是他在母校多伦多大学获得的"第四个学位"。 他没有提创业进展,也没有说AGI时间表,更多的是告诉大家, 如何在AI世界更好地生存与发展 。 终有一天,AI将能做到我们现在能做的一切。 而他的心态是接受现实本身,不沉湎于过往的悔恨,专注于改善当下。 值得一提的是,这其实是从OpenAI离职之后的首次亮相。他的最新推文还停留在去年的诺奖祝福,更早之前就是他的创业官宣。 此次母校颁予他荣誉理学博士学位,是为了表彰他作为计算机科学家和AI 先驱的奠基性工作和全球影响力,以及他作为安全和负责任的AI倡 导者的杰出贡献, 虽然只有10分钟的毕业演讲,但仍然让网友们感到振奋。 | 他终于出现了,他走出了SSI的洞穴!! | | --- | 在不改变原意符合中文语境的基础上,DeepSeek做了如下整理 。 Ilya毕业演讲全文 大家好,非常高兴能来到这里。感谢大家精心筹办活动、组织典礼,并授予我这个荣誉学位。这份荣誉意义非凡。 我深信,没 ...
奥特曼ChatGPT用法错了!最新研究:要求“直接回答”降低准确率,思维链提示作用也在下降
量子位· 2025-06-09 03:52
奥特曼使用大模型的方法,竟然是错的? 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 来自沃顿商学院等机构的最新研究发现,备受奥特曼喜爱的 "直接回答"提示,竟然会显著降低模型准确率 。 不过另一方面,这项研究也发现, 在提示词中加入思维链(CoT)命令同样不好用 —— CoT提示对于推理模型非但没有效果提升,反而会增加时间和计算成本。 而一些前沿的非推理模型,CoT提示可以带来效果提升,但答案的不稳定性也随之增加了。 研究团队使用GPQA Diamond数据集,针对现在主流的推理和非推理模型,分别在启用和不启用CoT的情况下进行了测试。 结果就是对于推理模型,CoT的作用十分有限,比如对于o3-mini,CoT带来的准确率提升只有4.1%,但时间却增加了80%。 非推理模型的结果则要复杂一些,但总之要不要用CoT,也需要对收益和投入进行仔细权衡。 所以CoT到底该不该用呢? 实际上,这项研究针对的是用户提示词中的CoT命令,并不包括系统提示词设定,更 不是CoT本身 。 CoT提示词作用有限,甚至还有反效果 结果, 对于非推理模型,CoT提升相比于直接回答,所有模型的平均评分和"51%正确"指标都有 ...
腾讯顶尖学生招募启动!高中生可直接参与大模型/具身智能前沿研究
量子位· 2025-06-08 03:40
鹅厂:来玩。 白交 鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 高考完了这个暑假还没有安排?(Doge) 一年一度,腾讯又开始招募顶尖学生了—— "星火挑战营" ,计划招募60-70人,主要面向高二、高三学生(2025级高考生)。一旦入选,就 有机会前往深圳总部,挑战一线产业难题。 与以往不同的是,此次他们可以面向大模型的最前沿话题—— 超长文本理解、长思维链技术、具身智能+机器人、多模态感知理解。 好好好,现在大模型搞研究得从少年开始抓起。 鹅厂开招顶尖学生 OpenAI、DeepSeek等热门大模型浪潮一波接着一波,星火计划紧随其后,在今年的产业课题方向中,特地新增四个大模型方向: 具体像超长文本理解这个方向。 大模型现在能说话、能思考,但是受制于字数输入上限,读书却始终读不好。 微信读书的AI问书技术团队 目前就正在掀起一场关于超长文本 智能的认知革命,致力于让AI把百万字级小说"先读薄再读厚"。 专家们将带领同学们深入探究大模型的长上下文理解问题,逐步探索AI如何在充分理解人物和世界观的前提下,辅助完成故事的二次创作。 还有 多模态感知理解 ,试想一下,你是否也想拥有钢铁侠里的贾维斯,可以理 ...