具身AI

Search documents
图像目标导航的核心究竟是什么?
具身智能之心· 2025-07-04 12:07
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 GianlucaMonaci 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 研究背景与核心问题 图像目标导航(Image goal navigation)需要两种关键能力:一是核心导航技能,包括检测自由空间、障碍物 及基于内部表征做决策;二是通过比较视觉观察与目标图像计算方向信息。当前主流方法要么依赖专门的图 像匹配,要么预训练计算机视觉模块进行相对位姿估计。 研究聚焦于一个关键问题:该任务能否如近期研究所说,通过强化学习(RL)对完整智能体进行端到端训 练来高效解决?若答案为肯定,其影响将超出具身AI领域,有望仅通过导航奖励来训练相对位姿估计模型。 核心研究内容与方法 关键架构选择 研究探讨了多种架构设计对任务性能的影响,核心在于如何支持图像间的隐式对应计算,这对提取方向信息 至关重要。主要架构包括(figure 2): 实验设计 Late Fusion :分别编码观察图像和目标图像 ...
传媒中期策略报告:关注扎实基本面支持下有新业务推进及兑现的龙头标的-20250704
Guotou Securities· 2025-07-04 08:52
2025 年 07 月 04 日 传媒 中期策略报告:关注扎实基本面支持下 有新业务推进及兑现的龙头标的 充分受益于互联网的传媒板块,面向 AI 科技,也需要重新叙事。 传媒互联网是"文化与传播"在互联网时代的"变轨",文化作品 下沉成各种内容(爆款)、传播体系在互联网时代的审核权下放至 各大平台。如果回到文化与传播的本质,那 AI 时代的"变轨"则 聚焦于 AI 时代如何出爆款,围绕于此,延伸出几条产业逻辑线: 1)互联网时代出的新内容形态,主要在游戏、直播、短视频,影 视、动漫画、文学的内容形态变化不大;AI 时代的新内容形态会 是什么? 关注:万达电影、博纳影业;恺英网络、神州泰岳、ST 华通、三 七互娱、顺网科技、浙数文化、姚记科技;新华文轩、中国科传、 长江传媒;内蒙新华、川网传媒、元隆雅图。 风险提示:细分方向轮动过快的风险、文化公司内部治理偏弱 的风险、新业务进展低于预期的风险、AI 伦理风险。 行业深度分析 证券研究报告 投资评级 领先大市-A 维持评级 | 目标价(元) 评级 | | --- | | 首选股票 | 2)互联网时代变化不大的内容形态——影视、动漫画、文学,会 否在 AI 时代, ...
下半年CCF-A/B类会议窗口期收窄,发一篇具身论文还来得及吗?
具身智能之心· 2025-06-29 09:51
面向人群 课程内容 解决导师放养,无人指导,不知道如何做科研的问题 解决只了解零散知识,没有清晰的体系的问题 帮助同学建立科研思维,熟悉科研流程 帮助同学系统掌握掌握经典与前沿算法,形成清晰的体系 协助同学将模型理论与代码实践相结合,提升实践能力 助力同学将baseline深化拓展,形成自己的论文 在读计算机专业本、硕、博,导师放养,无人指导,希望获取论文创新思路 有科研需求,积累科研经验,提升职称,提高学术科研研成就 从事人工智能领域相关工作,想升职加薪,提高竞争力 考研申博留学,提升简历含金量 1v1科研论文指导各阶段指导内容主要包含以下内容: 对自驾和具身的研究者而言,错过上半年顶级会议的投稿窗口,不仅意味着研究成果发布延迟, 更可能错失重要的学术交流与合作机会。所幸,下半年的CCF提供了关键的替代和补充渠道。为 帮助研究者把握发表时间,我们特别整理了下半年CCF推荐会议列表(涵盖A/B/C类),供大家参 考与规划。 然而,高效利用这些宝贵机会仍然存在一定难度, 核心挑战 在于:如何在时间压力下,确保论文 质量达到高水平会议的标准?选题是否足够新颖突出?实验是否严谨充分?写作是否清晰有力、 符合规范?投 ...
清华大学最新综述!具身AI中多传感器融合感知:背景、方法、挑战
具身智能之心· 2025-06-27 08:36
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Shulan Ruan等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 出发点与动机 1)具身AI与多传感器融合感知的重要性 近年来,随着深度学习和大型语言模型(LLM)的快速发展,人工智能在各个领域取得了显著进展。具身 AI作为AI的重要方向,指的是以物理实体为载体,通过在动态环境中实时感知来实现自主决策和行动能力 的智能形式,在自动驾驶、机器人群体智能等领域有广泛应用场景,是突破AI发展瓶颈、实现通用人工智 能(AGI)的关键路径。 在具身AI系统构建中,传感器数据理解是连接物理世界与数字智能的核心环节。具身智能体需要融合视觉 相机、毫米波雷达、激光雷达(LiDAR)、红外相机和惯性测量单元(IMU)等多模态传感器数据,以实 现对环境的全景感知。多传感器融合感知(MSFP)对实现具身AI的稳健感知和准确决策能力至关重要,例 如视觉相机易受光照变化干扰,而激光雷达在雨雾天气性能会大 ...
清华大学最新综述!当下智能驾驶中多传感器融合如何发展?
自动驾驶之心· 2025-06-26 12:56
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今天自动驾驶之心为大家分享 清华大学 最新的工作! 具身AI中多传感器融合感 知:背景、方法、挑战与前景! 如果您有相关工作需要分享,请在文末联系我 们! 自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一 步咨询 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Shulan Ruan等 编辑 | 自动驾驶之心 出发点与动机 1)具身AI与多传感器融合感知的重要性 近年来,随着深度学习和大型语言模型(LLM)的快速发展,人工智能在各个领域取得了显著进展。具身 AI作为AI的重要方向,指的是以物理实体为载体,通过在动态环境中实时感知来实现自主决策和行动能力 的智能形式,在自动驾驶、机器人群体智能等领域有广泛应用场景,是突破AI发展瓶颈、实现通用人工智 能(AGI)的关键路径。 在具身AI系统构建中,传感器数据理解是连接物理世界与数字智能的核心环节。具身智能体需要融合视觉 相机、毫米波雷达、激光雷达(LiDAR)、红外相机和惯性测量单元(IMU)等多模态传感器数据 ...
专家访谈汇总:类人机器人训练,催生推理专用芯片
阿尔法工场研究院· 2025-06-18 11:24
■ 2025Q1数据显示, 新易盛、铖昌科技、中际旭创 等公司在盈利和估值匹配度上处于优势地位,特 别是具备AI/5G应用落地逻辑的公司,仍属"高增长、低估值"组合。 3、 《 东阳光增资纵慧芯光交易 》摘 要 ■ 2025年6月17日晚, 东阳光(广东东阳光科技控股股份有限公司)公告拟以9000万元投资参股 VCSEL光芯片企业"纵慧芯光",占股2.575%。 ■ 尽管纵慧芯光2024年亏损5830万元,2025年一季度仍亏1532万元, 本次交易并未设置业绩承诺 ,东阳光仍强调其战略意义,即结合自身 数据中心液冷技术优势 ,与纵慧芯光在 高性能光芯片领 域形成产业协同 。 ■ 光芯片作为数据中心核心通信器件,对能耗和温度极为敏感;东阳光液冷技术能提供更稳定运行环 境,协同潜力明确。 ■ AI模型计算密集型特征推动光通信系统性能快速迭代,带来对高速、低功耗芯片及散热解决方案的 双重需求。 ■ 东阳光通过该投资进一步完善 数据中心解决方案布局 ,从"液冷系统制造"扩展至"核心器件集成 +协同优化",增强系统级竞争力。 ■ 纵慧芯光仍处于烧钱阶段 ,连续两年亏损,2024年亏损5830万元,2025年Q1亏损逾 ...
迈向通用具身智能:具身智能的综述与发展路线
具身智能之心· 2025-06-17 12:53
作者丨 视觉语言导航 编辑丨 视觉语言导航 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 主要贡献 研究背景 具身AGI的定义 : 论文将具身AGI定义为能够以人类水平的熟练度完成多样化、开放式现实世界任务的具身AI系统,强调 其人类交互能力和任务执行能力。 通用具身智能路线 现状 : 现有的具身AI模型(如视觉-语言-动作模型,VLA)大多仅支持视觉和语言输入,并且输出仅限于动作 空间。 挑战 : 类人认知能力不足 论文提出了一个从L1到L5的五级路线图,用于衡量和指导具身AGI的发展,每个级别基于四个核心维度:模 态(Modalities)、类人认知能力(Humanoid Cognitive Abilities)、实时响应能力(Real-time Responsiveness)和泛化能力(Generalization Capability)。 | | | 作者: Yequan Wang , AixinSun 单位: 北京人工智能研究院, 南洋理 ...
大摩深度解码特斯拉(TSLA.US)股价冲800美元的催化剂:AI与中美自动驾驶博弈
智通财经网· 2025-05-21 10:21
智通财经APP获悉,华尔街金融巨头摩根士丹利近日发布两篇重磅研报,共同揭示出全球电动汽车与自动驾驶、AI人形 机器人领域的绝对领军者特斯拉(TSLA.US)股价上行潜力无比强劲,重申基准目标股价410美元,最积极看涨情景下的目 标股价则高达800美元。截至周二美股收盘,特斯拉股价收于343.820美元,意味着在摩根士丹利分析团队看来特斯拉未来 12个月内股价大幅上涨前景相当乐观。 亚当•琼斯领导的摩根士丹利分析团队预测特斯拉将成为AI时代以及中美自动驾驶技术博弈之下的最核心受益公司,主要 基于FSD自动驾驶系统深度普及、Robotaxi完全自动驾驶出租车网络,以及无比庞大的AI人形机器人业务——摩根士丹 利预计其市场规模可能远超当前全球汽车市场。 摩根士丹利(以下简称"大摩")分析团队认为,特斯拉当前的高市值与相比于车企高得多的估值仍难以用传统业务盈利来支 撑,投资者们普遍只给其汽车业务估值50-100美元/股的基准便戛然而止,这种局限如同仅将亚马逊视为普通的线上零售 商或把苹果看作一家硬件制造商。大摩表示,特斯拉价值的核心逻辑在于其"一系列最前沿初创业务组合"——人工智能 大模型、自动驾驶网络、人形机器人、 ...
2050 年人形机器人市场达 5 万亿,中国领跑 10 亿台机器人革命,这些行业要被颠覆了
3 6 Ke· 2025-04-30 02:12
摩根士丹利近期中国工业研究团队推出"人形机器人洞察"系列报告之一《人形机器人:一个 5 万亿美元的全球市场》。 根据其全球人形机器人模型,预计到 2050 年将有 10 亿台人形机器人投入使用,年收入达 5 万亿美元。大摩指出,这对全 球制造业、供应链和地缘政治的影响尚未得到充分认识。 谁会在这一领域占据主导地位? 预计到 2050 年,全球将有 10 亿台人形机器人,年收入达 5 万亿美元。这一模型是在大摩此前发布的美国和中国市场规模 模型基础上的扩展,引入了世界其他地区和家用人形机器人的假设,并借鉴了中国工业团队最新的成本与技术分析。 | | | | | Cumulative Adoptions (k's) | | | | | --- | --- | --- | --- | --- | | Classification | 2036 | 2040 | 2044 | 2050 | | Low Income | 246 | 1.099 | 3.901 | 14.006 | | Lower Middle Income | 3.745 | 16.248 | 57,553 | 204.498 | | Upper M ...
【电子】英伟达GTC2025发布新一代GPU,推动全球AI基础设施建设——光大证券科技行业跟踪报告之五(刘凯/王之含)
光大证券研究· 2025-03-22 14:46
点击注册小程序 特别申明: 本订阅号中所涉及的证券研究信息由光大证券研究所编写,仅面向光大证券专业投资者客户,用作新媒体形势下研究 信息和研究观点的沟通交流。非光大证券专业投资者客户,请勿订阅、接收或使用本订阅号中的任何信息。本订阅号 难以设置访问权限,若给您造成不便,敬请谅解。光大证券研究所不会因关注、收到或阅读本订阅号推送内容而视相 关人员为光大证券的客户。 报告摘要 北京时间3月19日凌晨,英伟达举办2025年GTC大会,黄仁勋在圣何塞 SAP 中心发表的现场主题演讲,关 注代理式AI、机器人、加速计算等领域的未来发展。此外,该大会还包括1000多场具有启发性意义的会 议,以及400多项展示、技术实战培训和大量独特的交流活动。 提出Agentic AI,新的推理范式将继续推动全球数据中心建设 黄仁勋按照"Generative AI(生成式AI)、Agentic AI(智能体)、Physical AI(具身AI)"三个阶段的进 化路线,将Agentic AI描述为AI技术发展的中间态。Scaling Law的发展需要投入更多的数据、更大规模的 算力资源训练出更好的模型,训练规模越大,模型越智能,预计全球数 ...