Workflow
泛化
icon
Search documents
中科院自动化所最新综述!VLA模型后训练与类人运动学习的共性
具身智能之心· 2025-06-29 09:51
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Tian-Yu Xiang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 想象学习走路的情景:尽管祖先的经验让一些与生俱来的能力(例如:平衡感、反应)被编码到我们的 DNA中,但要真正学会走路,仍需要在真实环境中不断练习、摔倒、再爬起。经过一段时间的训练,我们 的大脑和身体会逐渐协调一致,形成与环境交互的策略。这种 由通用能力到特定技能 的转变过程在人类中 十分常见,而如今, 智能机器人 也面临着类似的挑战:即便拥有强大的预训练模型作为"大脑",在执行具 体复杂任务前,仍需要经过类似于人类学习的"后训练"阶段,才能在新环境、新任务下达到理想表现。 1. 概述 这项工作从 人类运动技能学习 的角度系统性地对总结 VLA模型(视觉-语言-动作模型) 的 后训练(post- training)策略 。其主要贡献如下: (1) 从人类运动学习视角讨论了VLA模型后训练方法 :将人类运动技能 ...
当下自动驾驶的技术发展,重建还有哪些应用?
自动驾驶之心· 2025-06-29 08:19
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 4D标注之静态元素 这些天一直在思考一个问题:当下自动驾驶的技术发展,重建还有哪些应用? 起因是身边做SLAM的小伙伴抱怨现在工作都找不到,SLAM的职业发展空间正在逐渐缩小。而且当下自动驾驶所需要的重建也在向前发展,不再是SLAM相关的技术 栈了。。。 回到问题本身,重建当下在4D标注 - 静态元素上的应用还是很广的,当然核心技术不再局限在SLAM上。车道线及静态障碍物标注,还是强依赖在重建图上标注的~2D 空间标注,每个时间戳下都需要再图像上进行标注,模型做语义分割+深度预测,这种方式耗时费力,实时上,只需要重建出3D静态场景,在重建3D场景中静态元素 只需标注一次。 重建的目的主要有两个: 输入:根据lidar或者多个周视摄像头重建得到的3D重建图 输出:矢量车道线及类别,单条车道线用多个有序点表示组成折线,例如一条车道线为(N,3),其中N为车道线点的数量,3为xyz空间坐标值 获取地面重建图2D(BEV+高度)车道线和地面标识; 重建静态点云 3D(静态障碍物)。 在梳理下重建的整体流程,这里面涉及 ...
打破长视频理解瓶颈:HoPE混合位置编码提升VLM长度泛化能力
机器之心· 2025-06-29 04:23
来自 CMU 和小红书的研究团队对这一问题进行了深入研究,他们首次提出了针对多模态 RoPE 扩展策略的理论评估框架, 指出现有多模态 RoPE 泛化能力不足的原因之一是保留 RoPE 中所有频率对长上下文语义建模有负面影响。基于此分析,他 们提出的混合位置编码(HoPE, Hybrid of Position Embedding)大幅提升了 VLM 的长度泛化能力,在长视频理解和检索等 任务中达到最优表现。 李浩然,CMU 机器学习系研究生,研究方向是基础模型的长上下文建模、对齐、以及检索增强生成。 如今的视觉语言模型 (VLM, Vision Language Models) 已经在视觉问答、图像描述等多模态任务上取得了卓越的表现。然 而,它们在长视频理解和检索等长上下文任务中仍表现不佳。 虽然旋转位置编码 (RoPE, Rotary Position Embedding) 被广泛用于提升大语言模型的长度泛化能力,但是如何将 RoPE 有效 地扩展到多模态领域仍然是一个开放问题。具体而言,常用的扩展方法是使用 RoPE 中不同的频率来编码不同的位置信息 (x,y,t)。然而,由于 RoPE 中每个维度携带 ...
牛弹琴:加拿大又出坏招加拿大打压中企心理扭曲动作变形
Group 1 - Canada has ordered Hikvision to cease operations in the country, citing "national security" concerns, which reflects a broader geopolitical tension and bias against Chinese companies [1] - The Canadian Minister of Industry, François-Philippe Champagne, stated that the decision was made after a multi-step review by Canadian security and intelligence agencies [1] - Hikvision's spokesperson expressed strong opposition to the decision, arguing that it lacks factual basis, procedural fairness, and transparency, and is influenced by the company's country of origin rather than its technology standards [1] Group 2 - The Chinese Embassy in Canada condemned the move, asserting that it undermines the legitimate rights of Chinese enterprises and disrupts normal economic and trade cooperation between China and Canada [1] - The situation highlights ongoing challenges in China-Canada relations, indicating that despite changes in leadership, Canada continues to struggle with a fair approach towards Chinese companies [1]
加拿大命令海康威视停止运营,中方回应
证券时报· 2025-06-28 23:37
中国政府一贯鼓励中国企业按照市场原则和国际规则、在遵守当地法律的基础上开展对外投资合作。我们坚决反对任何泛 化国家安全概念、滥用国家力量歧视打压中国企业的错误做法。 中方敦促加拿大方面立即改弦更张,停止把经贸问题政治化、泛安全化,停止对中国企业的无理打压,为中国企业正常经 营提供公平、公正、非歧视的环境,多做有利于促进中加经贸合作健康稳定发展的事。我们将采取一切必要措施,坚决维 护中国企业的正当合法权益。 中方回应。 6月27日,加拿大政府以所谓"国家安全"为由,命令海康威视加拿大有限公司停止在加拿大运营并关闭其加拿大业务,严 重损害中国企业合法正当权益,干扰破坏中加正常经贸合作,中方对此强烈不满和坚决反对。 版权声明 点击关键字可查看 来源:中国驻加拿大使馆 潜望系列深度报道丨 股事会专栏 丨 投资小红书 丨 e公司调查 丨 时报会客厅 丨 十大明星私募访谈 丨 史上首次!特 斯拉Model Y,自己上路、自动交付!雷军:了不起! 丨 A股重大调整!或涉及这些股票(附名单)→ 丨 特朗普 又"开炮"!"一头顽固的骡子,一个愚蠢的人" 丨 贵州榕江全城警报!紧急撤离! 丨 黄仁勋,又卖了超3亿元! 丨 关 税 ...
【RimeData周报06.21-06.27】人形机器人领域又现大额融资
Wind万得· 2025-06-28 22:19
数据来源:RimeData来觅数据 以下文章来源于RimeData 来觅数据 ,作者来觅研究院 RimeData 来觅数据 . 全面的一级市场数据平台 ⌜ 投融概况 ⌟ 截至2025年6月27日18:00,本周融资事件共104起(不包括并购、定增),较上周增加了14起,融资金额总计约67.29亿元(谨慎估计),较上周增加了 11.02亿元。在所有融资事件中,本周融资金额在亿元及以上的融资事件有22起,较上周减少1起。本周公开退出案例36个,较上周增加1个。另外,本周 有145家机构参与了一级市场投资,较上周减少了18家。 请读者留意,由于本周有16起融资事件未公布准确的融资金额,出于谨慎考虑,笔者做了暂取较小值处理,涉及金额至少5.53亿元,约占融资总额的 8.22%。另外,因融资事件的延迟披露,本期周报仅收录了本周五18:00前公开披露的融资事件,可能导致统计分析与实际情况存在细微偏差,感兴趣的读 者可以登录Rime PEVC平台获取全量融资事件、被投项目及深度数据分析。 本周已披露金额的融资事件62起,较上周减少7起,融资金额区间分布结构与上周变化不大,本周500万以下的融资事件5起,较上周增加1起;50 ...
驻加拿大使馆发言人就加政府命令海康威视加拿大有限公司停止在加运营并关闭其加业务发表谈话
news flash· 2025-06-28 14:03
Core Viewpoint - The Canadian government has ordered Hikvision Canada to cease operations in Canada under the pretext of "national security," which China strongly opposes, claiming it harms the legitimate rights of Chinese enterprises and disrupts normal Sino-Canadian economic cooperation [1] Group 1 - The Chinese government expresses strong dissatisfaction and firm opposition to Canada's actions against Hikvision Canada, viewing it as an unjustified attack on Chinese companies [1] - China emphasizes its support for Chinese enterprises to engage in foreign investment and cooperation based on market principles and international rules, while adhering to local laws [1] - The Chinese side urges Canada to stop politicizing economic issues and to provide a fair, just, and non-discriminatory environment for Chinese companies to operate [1] Group 2 - The Chinese government warns that it will take all necessary measures to firmly protect the legitimate rights and interests of Chinese enterprises in response to Canada's actions [1]
第一篇具身领域论文应该怎么展开?
具身智能之心· 2025-06-27 09:41
EI/中文核心/毕业论文/申博等 点击下方 卡片 ,关注" 具身智能 之心 "公众号 还在为论文选题抓耳挠腮?被数据建模折磨到头秃?面对导师批注手足无措?别慌!具身智能之心,资深导师团 队在线 "救援",一站式解决你的论文烦恼! 【前沿论文辅导重磅上线!多模态大模型/VLA/3D感知/数据生成/视觉语言导航/机器人导航/具身智能等顶会 方向1V1定制化辅导】 CCF-A到CCF-C SCI一区到四区 你是否正在研究以下前沿领域却苦于突破瓶颈? 多模态大模型(视觉-语言预训练、跨模态推理) 视觉语言动作(VLA)(端到端、分层等) 视觉语言导航(VLN)(Embodied QA、指令跟随、场景理解) 机器人抓取与导航(Sim2Real、强化学习、3D场景建模) 具身智能体泛化(跨任务迁移、零样本适应、仿真环境构建) 3D高斯泼溅(3DGS)(实时渲染、动态场景建模、SLAM结合) 端到端具身智能体(决策闭环、多模态传感器融合) 具身合成数据生成(自动标注、域适应、数据增强) 为什么选择我们? ✅ 顶会/顶刊导师团队:来自CMU、Stanford、MIT等名校的PhD及大厂研究员,覆盖ICRA、NeurIPS、C ...
对话梅卡曼德机器人邵天兰:冲向具身智能终局的路上,我们先上桌了|牛白丁
Tai Mei Ti A P P· 2025-06-25 10:49
Core Viewpoint - Mech-Mind Robotics, founded by CEO Shao Tianlan, has focused on developing standardized robotic products that can adapt to various hardware forms, aiming to cover a wide range of industries. The company has achieved significant market penetration, becoming the largest unicorn in the "AI + robotics" sector globally, with a leading market share for four consecutive years [2][3]. Group 1: Company Development and Market Position - Mech-Mind Robotics has been likened to "puzzle-solving" over its eight years of operation, emphasizing the high barriers and challenges in the robotics industry [2]. - The company has successfully implemented its products across multiple sectors, including automotive, logistics, and heavy industry, achieving a leading market share [2]. - The founder, Shao Tianlan, noted that the current robotics industry resembles the state of the autonomous driving sector in 2015, with both opportunities and challenges in scaling technology [3][12]. Group 2: Industry Trends and Comparisons - The robotics industry has seen a shift towards a focus on intelligence, with computer scientists increasingly influencing the field, contrasting with the earlier emphasis on hardware and control [7][8]. - The current landscape is marked by heightened interest and investment in robotics, leading to both opportunities for startups and challenges due to increased competition and unrealistic expectations [11][12]. - Shao Tianlan draws parallels between the current state of robotics and the early days of autonomous driving, highlighting the potential for significant technological advancements alongside the risk of overpromising timelines [12][43]. Group 3: Product Applications and Future Outlook - Mech-Mind Robotics specializes in high-precision industrial 3D cameras and AI software, which have been widely adopted in logistics and manufacturing scenarios [5][20]. - The company aims to enhance robotic intelligence to enable self-perception, planning, and decision-making capabilities, similar to advancements seen in autonomous vehicles [5][6]. - The founder believes that while the timeline for widespread adoption of robots in households may be longer, significant advancements in industrial applications are expected within the next decade [17][48]. Group 4: Global Market Strategy - Mech-Mind Robotics began exploring international markets in 2019, with overseas business now accounting for half of its revenue, driven by the need to meet high standards set by developed countries [28][29]. - The company emphasizes the importance of high standards and quality in its products to compete effectively in the global market, particularly against established players in industrial automation [33][34]. - The founder notes that the robotics market is still in its early stages, with significant room for growth as automation continues to evolve in manufacturing and logistics [36][37].
显示端到端VLA是什么?有哪些方法?
具身智能之心· 2025-06-25 08:24
什么是显示端到端VLA,提到显示,这一点和隐式是对立的。上一期分享,我们分享了隐式端到端的模型定 义,显示端到端VLA模型视频生成GOAL,明确生成了未来机械臂如何运动的图像!可以浏览下图! 其中还涉及了一个比较重要的概念:逆运动学。 逆运动学 逆运动学主要应用在机器人学、动画学和计算机图形学中,与经典运动学相对。它的目标是根据目标位置,计 算物体(如机械臂或骨骼系统)的各个关节应该如何运动才能到达该目标。 列入在机器人领域,逆运动学会回答这样的实际问题:机械臂的末端(手爪)需要到达某个指定位置,那么每 个关节应该如何旋转。 逆运动学的核心步骤: 已知信息: 求解: 利用矩阵、三角学或迭代方法,计算每个关节的角度或未知,使得末端能够到达目标点。 多解性问题: 逆运动学通用会有多个解(甚至没解),需要在可能的解中选择一个最优解(如最小能量消耗或最自然运 动)。 主要工作一览 3)LAPA 1)开山之作:UniPi 将序列决策问题转化为文本条件视频生成问题:给定文本编码的目标描述,规划器会合成一组未来帧来描绘其 计划执行的行动序列,随后从生成的视频中提取控制动作。通过以文本作为底层目标描述,我们能够自然而然 地实 ...