Workflow
语言
icon
Search documents
cVLA:面向高效相机空间VLA模型的关键位姿预测方法
具身智能之心· 2025-07-06 11:54
本文只做学术分享,如有侵权,联系删文 写在前面 视觉-语言-动作(VLA)模型为复杂机器人操作任务提供了强有力的框架,但训练成本往往很高。研究提出了一种新的VLA方法,利用视觉语言模型(VLMs)在 2D图像上的出色表现,直接推断机器人末端执行器在图像帧坐标中的位姿。与以往输出低级控制指令的VLA模型不同,该模型预测轨迹路标,不仅训练更高效, 还与机器人实体无关。尽管设计轻量,其下一个token预测架构仍能有效学习有意义且可执行的机器人轨迹。此外,还探索了深度图像的潜力、解码策略等推理技 术,以及基于演示的动作生成。模型在模拟数据集上训练,展现出良好的模拟到现实迁移能力,并通过模拟和真实数据结合的评估,证明了在真实机器人系统上 的有效性。 >> 点击进入→ 具身智能之心 技术交流群 点击下方 卡片 ,关注" 具身智能 之心 "公众号 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 作者丨 Max Argus等 编辑丨具身智能之心 1. 引言 视觉-语言-动作(VLA)模型通过融合视觉、语言和交互数据,实现细粒度感知与动作生成,能解决多种任务。但V ...
6大基准全面碾压!TW-GRPO刷新视频推理天花板,CLEVRER准确率突破50.4%!
机器人大讲堂· 2025-07-06 05:23
随着多模态大语言模型( MLLMs)的快速发展, 其在视频推理等前沿任务中快速进化,不断突破性能天花 板。而 强化学习( RL)作为推动这场技术革命的关键引擎,为大语言模型注入了强大的推理能力。 DeepSeek-R1凭借纯RL优化,让模型推理能力实现质的飞跃;VideoR1引入T-GRPO,赋予模型拆解视频 时空逻辑的 "透视眼";VideoChat-R1借助基于 GRPO 的多任务联合微调,让模型在视频理解与多步推理 上表现得更加 "聪明伶俐",相关成果不断涌现…… 尽管 基 RL驱动的优化在指标提升上成绩亮眼, 但 在面对复杂多模态任务时,依然存在两大拦路虎: 一方 面,思维链推理应用到多模态时 "水土不服",不仅产出的推理过程冗长没重点,训练目标还常忽略关键时空 线索,拖慢学习效率;另一方面,现有依赖单选题问答的稀疏二元奖励信号太" 简单 粗暴 ",只认可全对答 案,埋没部分正确内容。不过幸运的是,视频定位研究已证实,软奖励信号能稳定学习过程、提升精度 。 ▍提出TW-GRPO框架:革新加权机制与奖励设计 面对多模态大语言模型在视频推理任务中存在的推理质量和奖励粒度等挑战,来自 中山大学、兰州大学、合 ...
视频模型赛道“热闹”起来,变现仍是大难题
Huan Qiu Wang· 2025-07-06 02:16
Core Insights - The video modeling sector has recently gained attention with several companies launching new products, including 生数科技's Vidu, MiniMax's Hailuo-02, and 百度's MuseSteamer, targeting professional video content creators [1] - Despite the excitement in AI, the competition in video modeling is expected to be less intense than in large language models due to limitations in training data [1] - The market is seeing a mix of large tech companies and startups like 爱诗科技 and MiniMax, which are accelerating product iterations and commercialization efforts [1] Company Developments - MiniMax's founder highlighted the complexities of video processing, which requires significant infrastructure and patience due to the scarcity of open-source video content [2] - Investment interest in video models is shifting from team quality to technical and commercialization capabilities as the market matures [2] - Some platforms are attempting to position themselves as the "TikTok of video models," but market response has been lukewarm due to high cost pressures and challenges in monetization [2] Commercialization Strategies - Video models are being commercialized through two main models: To C (consumer) and To B (business), with pricing varying significantly [4] - 快手可灵 has reported an annual recurring revenue (ARR) exceeding $100 million, while other companies' revenue data remains opaque [4] - 生数科技 and MiniMax are actively expanding their commercial applications, with MiniMax's Hailuo generating over 370 million videos since its launch [4] Market Outlook - The global AI video generator market is projected to grow from $614.8 million in 2024 to $2.5629 billion by 2032, with a compound annual growth rate (CAGR) of 20.0% [4] - 生数科技's founder anticipates accelerated commercialization of video models this year, with a diverse market landscape expected to emerge [4] - Overcoming the gap between costs and monetization remains a critical challenge for participants in the video modeling sector [4]
香港人工智能发展未来可期
Jing Ji Ri Bao· 2025-07-05 22:15
人工智能正在引领新一轮技术革命和产业变革,香港在这波人工智能浪潮中没有缺席。今年2月,由香 港特区政府重点创科项目"InnoHK创新香港研发平台"资助的香港生成式人工智能研发中心发布HKGAI V1大模型,揭开了香港人工智能发展的新篇章。 从政策资金和战略性举措安排看,香港特区政府对人工智能和科技创新表现出强有力的支持。根据2025 至2026财政年度财政预算案,香港特区政府计划拨款10亿港元,专门用来建立香港人工智能研发院。除 此之外,还有更多的拨款用于相应领域的研究。2024年12月,香港目前规模最大的人工智能超算中心投 入使用,数码港人工智能实验室也同步启用。人工智能是未来新质生产力最关键的技术,香港特区政府 推出的多项政策措施将有序完善香港人工智能生态圈的发展和推动人工智能的"数智"应用,超算中心将 会成为香港人工智能发展中不可或缺的重要支柱。超算中心将汇聚算力、数据及算法技术的人才,加上 数码港人工智能实验室,数码港将会为人工智能生态伙伴和企业提供一个创新平台,联结相关的应用场 景。 香港具有人才和技术储备方面的优势。香港有世界一流的教育和研究机构,教学质量高、基础研究强、 国际联系广、与内地合作实 ...
本来决定去具身,现在有点犹豫了。。。
自动驾驶之心· 2025-07-05 09:12
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 具身智能无疑是这两年最的方向。从几年前的沉寂到去年的疯狂,再到25上半年开始逐渐冷静。大家慢慢回 过神来,具身机器人还远远未到生产力的阶段。 以下是 知识星球 内部一位双非同学的提问,非常有代表性: 各位大佬们好,我目前是一个双非的研究生,我的研究方向是多传感器融合定位的,然后学过python,深 度学习,ros,但都学的不是很精,现在想多学一点为以后找工作用,感觉算法岗我的学历可能不太行,请 问各位大佬们我应该往哪个方向学比较好呢?具身智能感觉也还不太成熟,不确定这波热度能到什么时 候?请问各位大佬后面应该学些什么知识呢? 星主回答:你的技术栈都比较偏机器人一些,SLAM和ROS这块都可以尝试一下和机器人/具身智能打交道。这 块需求也比较大,可以做一些优化、集成类工作~ 另一方面,我们了解到大一些的公司各家的hc都不是很高,要求基本上都是端到端、大模型、VLA、强化学 习、3DGS这些比较前沿的方向。如果你做的是这块,是有机会的,很多tire 1的公司或者主机厂也正在follow前 沿的技术,大概是从无图往 ...
想清楚再动手:具身智能也要学会脑补未来和择优执行 | RSS 2025
机器之心· 2025-07-05 05:53
本文的第一作者吴怡琳现为卡内基梅隆大学机器人学院二年级博士生,导师为 Prof. Andrea Bajcsy。她的研究聚焦于开放世界场景下的物体操控与机器人 终身学习。吴怡琳本科毕业于上海交通大学,并于斯坦福大学取得计算机科学硕士学位。她曾与 Prof. Pieter Abbeel、Prof. Lerrel Pinto、Prof. Dorsa Sadigh 及 Prof. David Held 等多位专家合作,开展可变形物体操控、双臂协作操作及辅助喂食机器人等方向的研究,获得过 ICRA 最佳论文,CoRL 的 oral 论文录用。目前,她正在 NVIDIA 西雅图机器人实验室参与暑期研究,继续推进具身智能模型在复杂场景下的可扩展性与部署能力。 第二作者田然是 UC Berkeley 即将毕业的博士生同时在 NVIDIA 担任研究科学家,研究方向致力于推动机器人基础模型在真实世界中实现大规模、安全、 可信的落地应用。他的研究系统性地探索了机器人基础模型在预训练、后训练到实际部署各阶段中所面临的安全与偏好对齐挑战。他的工作获得了多个最佳 论文和国际奖项的肯定,包括:世界人工智能大会 「 云帆奖 」 、高通创新奖 ...
推动AI转化落地普惠社会经济 “人工智能资助计划”项目分享会在港举办
Xin Hua Cai Jing· 2025-07-04 13:56
Group 1 - The Hong Kong Digital Port launched the "Artificial Intelligence Funding Program" to promote innovation through the use of supercomputing resources [1] - The program is backed by a government allocation of HKD 30 billion, aimed at supporting local institutions and enterprises in AI research and application [1] - The initiative is part of a broader strategy to establish Hong Kong as an international AI and innovation center, enhancing research efficiency and accelerating the application of results [1] Group 2 - The "Artificial Intelligence Funding Program" has received approximately 20 applications since its launch, with around 10 projects approved by the end of June, totaling a funding amount of HKD 300 million [2] - The projects cover various research areas, including local large language models, new materials, synthetic biology, and medical models [2] - The program aims to integrate government, industry, academia, and research forces to drive high-quality development in Hong Kong and beyond [2] Group 3 - The Hong Kong Polytechnic University reported a 28% increase in the accuracy of information generated by their large model, achieved through the use of the Digital Port's supercomputing resources [2] - The team has made breakthroughs in medical applications, reducing the number of tests required during cancer treatment, thus saving time and resources [2] - The collaboration with top cancer treatment hospitals in Hong Kong and mainland China enhances localized data analysis in cancer treatment [2] Group 4 - The Hong Kong University of Science and Technology successfully developed the first large model, HKGAI V1, which improved research efficiency by over 50% and reduced the relative error rate in speech recognition by 20% [3] - The use of supercomputing resources allowed the team to shorten the experimental time from 6 weeks to 3 weeks [3] - The center aims to further optimize models and expand applications to enhance smart governance and daily life in Hong Kong [3]
因建议被裁开发者用AI规划职业、疏导情绪,Xbox制作人遭受批评
Sou Hu Cai Jing· 2025-07-04 10:59
Group 1 - Microsoft announced a new round of layoffs, with an expected reduction of over 9,000 employees [3] - The layoffs have led to the cancellation of multiple projects, affecting thousands of employees [1] - A producer from Xbox Game Studios, Matt Turnbull, suggested using generative AI tools to cope with the emotional burden of unemployment, which sparked widespread controversy [1][2] Group 2 - Turnbull's comments were criticized by former employees, highlighting the lack of respect for those affected by the layoffs [2] - The context of the layoffs is tied to Microsoft's significant investments in the AI sector, which has raised concerns among employees [2]
传统导航和具身目标导航到底有啥区别?
具身智能之心· 2025-07-04 09:48
点击下方 卡片 ,关注" 具身智能 之心 "公众号 说到机器人导航,技术路线已经逐渐从早期传统的建图定位导航,到后期基于大模型方案的导航演变。而 基于大模型方案的导航又分为视觉语言导航和目标导航! 策略网络的学习过去集中在如何从标注的数据集中提取模式,数据增⼴在其中起到了关键作用。如今, LLM拥有了强大的先验知识,如何从中蒸馏有效的规划信息,成为了近期研究的热点。 再来看看目标导航 VLN更进⼀步,是目标导航任务(Object Navigation),目标导航要求智能体在陌生的三维环境中,仅凭目 标描述(如坐标、图片、自然语言)等,即可自主完成环境探索与路径规划。 如果说一句话说明这两个任务的区别,视觉语言导航是""听懂指令走对路",目标导航是""看懂世界自己找 路"。 视觉语言导航是什么? 视觉语言导航本质上是个指令跟随的任务。任务囊括了三个方面,理解语⾔指令、感知周围环境,规划运 动策略。一般来说,VLN机器人系统主要由视觉语言编码器,环境历史信息表征,以及动作策略三个模块 构成。 机器人从环境中获取语⾔指令和每⼀步的视觉观测,首先需要同时视觉语⾔编码器从中压缩出有效信息。 采用怎样的编码器,视觉和语言 ...
港大强化学习驱动连续环境具身导航方法:VLN-R1
具身智能之心· 2025-07-04 09:48
作者丨 视觉语言导航 编辑丨 视觉语言导航 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 主要贡献 研究背景 作者:Zhangyang Qi , Zhixiong Zhang , Yizhou Yu , Jiaqi Wang , Hengshuang Zhao 单位: 香港大学, 上海AI实验室 论文标题:VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning 论文链接:https://arxiv.org/abs/2506.17221 项目主页:https://vlnr1.github.io/ 代码链接:https://github.com/Qi-Zhangyang/GPT4Scene-and-VLN-R1 提出VLN-R1框架 :利用大型视觉语言模型(LVLM)处理第一视角视频流,从而实现连续环境中的视觉语 言导航。与以往基于离散导航图的方法不同,VLN-R1能够生成连续的 ...