多模态

Search documents
第一篇具身领域论文应该怎么展开?
具身智能之心· 2025-06-27 09:41
EI/中文核心/毕业论文/申博等 点击下方 卡片 ,关注" 具身智能 之心 "公众号 还在为论文选题抓耳挠腮?被数据建模折磨到头秃?面对导师批注手足无措?别慌!具身智能之心,资深导师团 队在线 "救援",一站式解决你的论文烦恼! 【前沿论文辅导重磅上线!多模态大模型/VLA/3D感知/数据生成/视觉语言导航/机器人导航/具身智能等顶会 方向1V1定制化辅导】 CCF-A到CCF-C SCI一区到四区 你是否正在研究以下前沿领域却苦于突破瓶颈? 多模态大模型(视觉-语言预训练、跨模态推理) 视觉语言动作(VLA)(端到端、分层等) 视觉语言导航(VLN)(Embodied QA、指令跟随、场景理解) 机器人抓取与导航(Sim2Real、强化学习、3D场景建模) 具身智能体泛化(跨任务迁移、零样本适应、仿真环境构建) 3D高斯泼溅(3DGS)(实时渲染、动态场景建模、SLAM结合) 端到端具身智能体(决策闭环、多模态传感器融合) 具身合成数据生成(自动标注、域适应、数据增强) 为什么选择我们? ✅ 顶会/顶刊导师团队:来自CMU、Stanford、MIT等名校的PhD及大厂研究员,覆盖ICRA、NeurIPS、C ...
之心急聘!25年业务合伙人招聘,量大管饱~
自动驾驶之心· 2025-06-27 09:34
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 业务合伙人 你好啊,我们是自动驾驶之心。很开心你能点进来!如果你也认同内容可以改变世界,那你可能就是我们 在找的人! 如果您是大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、 世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们; 岗位要求 QS200以内高校,硕士及以上学历,手握顶会的大佬优先。 待遇说明 自动驾驶资源共享(求职、读博、出国留学推荐等); 自动驾驶之心业务合伙人招募来啦!我们团队今年计划向国内外招募10名优秀的合伙人,负责自动驾驶相 关课程研发、论文辅导业务开发、硬件研发; 主要方向 丰厚的现金激励; 创业项目合作与推荐; 联系我们 更多欢迎添加微信咨询,备注" 机构/公司 + 自动驾驶合作咨询 "。 ...
基于VLM的快慢双系统自动驾驶 - DriveVLM解析~
自动驾驶之心· 2025-06-27 09:15
基于此DriveVLM主要有以下几个创新点: 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 近一年来,大模型的发展突飞猛进,大模型应用于各个下游任务的工作也层出不穷,今天和为大家分享清华&理想将大模型应用在自动驾 驶领域的一次尝试与探索,也是去年理想快慢双系统(E2E+VLM)的核心算法,利用大模型强大的few-shot能力,期望解决实际驾驶场景 中的长尾问题,提升自动驾驶系统的认知和推理能力。 DriveVLM主要的出发点来自于目前业界自动驾驶遇到的实际困难,随着智能驾驶逐渐从 L2 往 L4 迭代,在实际场景中遇到了各种各样的 长尾问题。这些长尾问题随着数据驱动的方式会逐渐收敛一些,这也是目前业界主流的思路和方法,期待通过数据驱动的方式逐渐毕竟 L4;但是大家随着研究的深入发现,真实场景中的长尾问题是无穷无尽的,只是 case by case 的数据驱动几乎无法进化到真正的 L4 无人驾 驶。因此,工业界和学术界需要进一步思考自动驾驶的下一代方案。 而数据集构建可以说是这篇工作最核心的内容,主要聚集自动驾驶场景关心的五个维度,下面一一展开介绍: Ch ...
清华大学最新综述!具身AI中多传感器融合感知:背景、方法、挑战
具身智能之心· 2025-06-27 08:36
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Shulan Ruan等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 出发点与动机 1)具身AI与多传感器融合感知的重要性 近年来,随着深度学习和大型语言模型(LLM)的快速发展,人工智能在各个领域取得了显著进展。具身 AI作为AI的重要方向,指的是以物理实体为载体,通过在动态环境中实时感知来实现自主决策和行动能力 的智能形式,在自动驾驶、机器人群体智能等领域有广泛应用场景,是突破AI发展瓶颈、实现通用人工智 能(AGI)的关键路径。 在具身AI系统构建中,传感器数据理解是连接物理世界与数字智能的核心环节。具身智能体需要融合视觉 相机、毫米波雷达、激光雷达(LiDAR)、红外相机和惯性测量单元(IMU)等多模态传感器数据,以实 现对环境的全景感知。多传感器融合感知(MSFP)对实现具身AI的稳健感知和准确决策能力至关重要,例 如视觉相机易受光照变化干扰,而激光雷达在雨雾天气性能会大 ...
OpenAI连丢4位大将!Ilya合作者/o1核心贡献者加入Meta,苏黎世三人组回应跳槽:集体做出的选择
量子位· 2025-06-27 08:09
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 扎克伯格未免有点太针对奥特曼了! 又有OpenAI核心研究员被挖走,而且做的是最前沿推理大模型。 最新跳槽到Meta的是 Trapit Bansal ,他在2022年加入OpemnAI, 曾与Ilya合作,在大模型强化学习研究的启动过程中发挥了关键作用 , 也被列为 o1的核心贡献者 。 △ Trapit Bansal 加入Meta后,Trapit Bansal在新成立的超级智能部门继续研究推理大模型。 Trapit Bansal博士毕业于马萨诸塞大学阿默斯特分校。 毕业后他加入OpenAI,与Ilya合作启动了强化学习在推理大模型上的研究。 目前他在谷歌学术上有2800+被引用数量,多篇论文与Ilya合著。 读博期间他就在OpenAI实习过,参与了多智能体强化学习研究:通过自我对弈让AI发现新的技能,无需专门为这些技能设计奖励。 | Trapit Bansal | | FOLLOW | | GET MY OWN PROFILE | | | --- | --- | --- | --- | --- | --- | | OpenAl | | | | | | | ...
人形机器人行业深度报告:灵巧手持续迭代,关注技术路线收敛中的边际增量
Soochow Securities· 2025-06-27 07:32
证券研究报告 灵巧手持续迭代,关注技术路线收敛中的边际增量 ——人形机器人行业深度报告 证券分析师:黄细里 执业证书编号:S0600520010001 证券分析师:郭雨蒙 执业证书编号:S0600525030002 二零二五年六月二十七日 请务必阅读正文之后的免责声明部分 报告核心观点 2 ◼下游场景推动灵巧手向仿人手迭代,市场前景广阔。2024 年灵巧手市场规模达 17.06 亿美元, 预计 2025/2030 年将增至 19.21/30.36 亿美元。工业机器人常用二指灵巧手执行简单夹取, 人形机器人需求促使其向 4 指 / 5 指及高自由度发展。 ◼从驱动方案来看,欠驱动、外置/混合置+电驱为主流,电机或由空心杯向无刷有齿槽切换。具 体来看,1)欠驱动靠牺牲精度来降本和加速落地,应用更为广泛;2)外置驱动器和混合置牺 牲一定精度短期简单场景落地更快。3)电驱动因模块化设计、精度高等特点为当前主流方案。 4)特斯拉第三代灵巧手以无刷有齿槽电机替换部分空心杯电机,电机方案或将切换。 ◼传动方案涵盖齿轮/蜗轮蜗杆、连杆、丝杠、腱传动杆四类,各有优劣,均可映射至实际产品。 其中,腱绳+丝杠复合传动可在保证灵活性 ...
突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR
机器之心· 2025-06-27 00:49
余天予,清华大学计算机系一年级博士生,导师为清华大学自然语言处理实验室刘知远副教授。研究兴 趣主要包括高效多模态大模型、多模态大模型对齐和强化学习,在 CVPR、AAAI等人工智能领域的著 名国际会议和期刊发表多篇学术论文,谷歌学术引用1000余次。 Deepseek 的 R1、OpenAI 的 o1/o3 等推理模型的出色表现充分展现了 RLVR(Reinforcement Learning with Verifiable Reward,基于可验证奖励的强化学习)的巨大潜力。 然而,现有方法的应用范围局限于数学和代码等少数领域。面对自然语言固有的丰富多样性,依赖规则 验证器的方法难以拓展到通用领域上。 针对这一关键挑战,清华大学自然语言处理实验室提出了一项关键性技术 —— 基于参考概率奖励的强 化学习(Reinforcement Learning with Reference Probability Reward, RLPR )。 这项技术通过 Prob-to-Reward 方法显著提高了概率奖励(Probability-based Reward, PR)的质 量,相比基于似然度的基线方法取得了明显更佳的性 ...
计算机行业重大事项点评:MiniMax:推理模型、Agent与多模态
Huachuang Securities· 2025-06-26 11:04
证 券 研 究 报 告 计算机行业重大事项点评 MiniMax:推理模型、 (维持) Agent 与多模态 事项: ❑ 6 月 17 日,MiniMax 连续五天推出 AI 新品,涉及新的推理模型、视频生成 模型、Agent、语音设计等产品。在发布周首日开源 MiniMax-M1 模型,次日 上线海螺 AI 视频生成模型,后续发布语音设计工具,覆盖推理、视频生成、 智能体等新工具。 评论: 行业研究 计算机 2025 年 06 月 26 日 推荐 华创证券研究所 证券分析师:吴鸣远 邮箱:wumingyuan@hcyjs.com 执业编号:S0360523040001 行业基本数据 | | | 占比% | | --- | --- | --- | | 股票家数(只) | 338 | 0.04 | | 总市值(亿元) | 42,064.50 | 4.18 | | 流通市值(亿元) | 36,270.94 | 4.60 | 相对指数表现 | % | 1M | 6M | 12M | | --- | --- | --- | --- | | 绝对表现 | -2.8% | -7.9% | 35.9% | | 相对表现 | ...
Meta Platforms成功挖角OpenAI三名核心研究员
Sou Hu Cai Jing· 2025-06-26 08:02
此次被挖角的团队包括Lucas Beyer、Alexander Kolesnikov和翟晓华(Xiaohua Zhai),他们此前均隶属 于OpenAI苏黎世办公室,并在计算机视觉与多模态AI领域拥有深厚积累。 6月26日消息,据华尔街日报报道,全球科技巨头Meta Platforms(NASDAQ:META)在人工智能领域的 人才争夺战中再下一城,成功从OpenAI挖走三名重量级研究员,进一步加剧了AI行业的技术竞争。 图源:IC OpenAI发言人证实了三名研究员的离职,但强调公司核心团队保持稳定。CEO山姆·奥尔特曼 (SamAltman)此前在播客中透露,Meta曾试图以1亿美元签约奖金挖角OpenAI员工,但遭到拒绝。他 指出,Meta的"高薪策略"可能分散团队注意力,不利于构建创新文化。 行业分析师认为,Meta的激进招聘策略反映了其在AI领域的焦虑。尽管Meta通过投资ScaleAI等公司积 累了大量资源,但其Llama系列大模型的性能未达预期,最新旗舰模型发布计划多次推迟。此次挖角或 有助于Meta缩小与OpenAI在多模态AI领域的技术差距。 Meta的此次挖角能否转化为技术优势仍待观察。行 ...
国产大模型高考出分了:裸分683,选清华还是北大?
量子位· 2025-06-26 06:25
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 这两天啊,各地高考的成绩终于是陆续公布了。 现在,也是时候揭晓全球第一梯队的大模型们的"高考成绩"了—— 我们先来看下整体的情况(该测试由字节跳动Seed团队官方发布): 按照传统文理分科计分方式,Gemini的理科总成绩655分,在所有选手里排名第一。豆包的文科总成绩683分,排名第一,理科总成绩是 648分,排名第二。 再来看下各个 细分科目 的成绩情况: | 模型 | 语文 | 数学 | 英语 默认听力满分 | 物理 | 化学 | 生物 | 地理 | 历史 | 政治 | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | 满分 | 150 | 150 | 150 | 100 | 100 | 100 | 100 | 100 | 100 | | Doubao-Seed-1.6-Thinking | 128 | 141 | 144 | 90 | ਦਰ | 76 | ਰੇਖੋ | 92 | 84 | | Gemini-2.5-Pro-0605 | 126 | 140 | 141 | ...