Workflow
语言
icon
Search documents
还不知道研究方向?别人已经在卷VLA了......
自动驾驶之心· 2025-07-21 05:18
最近有同学陆续来问我们,传统的感知、规划这块还能继续发论文吗?感觉工作都已经被做的七七 八八了,审稿人会打高分吗? 说到传统的感知、规划等任务,工业界都还在继续优化方案!但学术界基本都慢慢转向大模型与 VLA了,一个还有很多工作可以做的子领域...... 如果您真的需要选择论文研究方向,我们建议向大模型、VLA靠拢。而我们也为大家准备好了VLA 相关研究课题,如果您还没有切实的自驾研究方向,欢迎加入学习。 ⼀、VLA科研论文辅导课题来啦⭐ 关键词 :VLA自动驾驶;端到端自动驾驶;大语言模型;视觉表征学习 ⼆、课程目的⭐ 三、招生人数⭐ 6人/期(⾄多8人) 四、招生对象⭐ 五、课程收获⭐ 经典论⽂、前沿论⽂和代码实现——创新点、baseline、数据集——选题⽅法、实验⽅法、写作⽅ 法、投稿建议 端到端(End-to-End)自动驾驶旨在构建一个统一的智能模型,直接将传感器原始输入(如摄像头图 像)映射到车辆的驾驶控制指令(如转向、油门、刹车),从而替代传统的多模块、级联式架构 (感知、预测、规划、控制)。这一演进过程大致可分为以下几个阶段,而VLA模型的出现正是为 了解决前序阶段的瓶颈,标志着一个新范式的 ...
机器人的「GPT时刻」来了?丰田研究院悄悄做了一场最严谨的VLA验证实验
机器之心· 2025-07-21 04:04
机器之心报道 编辑:冷猫 提到机械臂,第一反应的关键词是「抓取」,高级些的机械臂也就做做冰淇淋和咖啡之类的小任务。 但若要机械臂 自 主完成繁 重且复杂的任务 ,如布置餐桌、组装自行车,难度便呈指数级上升。这类任务对感知、理解与动作控制的协同提出了极高要求。 近年来,随着 视觉 - 语言 - 动作(VLA) 模型的迅速发展,机器人已逐步具备整合多模态信息(如图像、指令、场景语义)并执行复杂任务的能力,朝着更智 能、更通用的方向迈进。 但是目前 VLA 的研究尚未达到里程碑式的成果,具身智能的「GPT」似乎离我们还很遥远。 直到我看到了这两段视频: 机械臂在现实世界中已经能够实现双臂写作,完成如此复杂的组合任务,并且还能够在操作过程中纠错。这相比过去的 VLA 研究成果有了非常明显的提高。 深入探索了一下这份研究,作者在 VLA 的思路基础上更进一步,在扩散模型策略的基础上,完全构建了一个针对机器人的 大型行为模型(Large Behavior Model,LBM) ,经过训练和微调,便能够实现机械臂自主执行复杂操作中如此令人惊艳的结果。 来自谷歌的研究者 Ted Xiao 说: 「如果你从事机器人技术和人工智 ...
潮玩公司TOYCITY表示下阶段拼的是更智能和拟人化
中经记者 李玉洋 上海报道 1998年,一部动画电影《玩具总动员》让孩子相信玩具也有生命;而如今,大模型的注入让玩具不再是 专属于孩童的陪伴伙伴。 "现代社会中,30+职场女性深夜无人倾诉、双职工家庭孩子无人陪伴等现象越来越普遍,我们希望通 过科技手段,让潮玩IP真正成为用户的情感寄托。"7月18日,专注于"中国原创潮流IP孵化"的TOYCITY 公司发布了全球首款情绪感知型AI陪伴玩偶——小耙AI。据介绍,其基于TOYCITY原创熊猫IP"耙老 师"打造,具有全面融入豆包大模型、生成式统一画像算法等核心技术突破。 据了解,TOYCITY诞生于有着"中国潮玩之都"称号的广东省东莞市,具体坐落于该市的石排镇,而作 为"潮玩名镇",石排是东莞潮玩产业产值最大、拥有潮玩企业及自主品牌最多的镇街,为迪士尼、漫威 以及泡泡玛特等国内外知名品牌提供代加工服务。 以石排镇为核心的东莞市,聚集了超过4000家玩具生产企业,近1500家上下游配套企业,是全国最大的 玩具出口基地。这里出产了全国超八成的潮玩相关产品、全球近三成的动漫衍生品,产品远销美国、日 本、法国等多个国家和地区。 从最初的小作坊,到后来的贴牌代工厂,经过40 ...
面试了很多端到端候选人,还是有很多人搞不清楚。。。
自动驾驶之心· 2025-07-20 08:36
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 端到端自动驾驶到底是啥? 端到端自动驾驶(End-to-End Autonomous Driving)作为目前智驾量产的核心算法,可以分为一段式端到端、二段式端到端两个大的技术方向。也是当前薪资最高 的算法岗位之一, 一些端到端、VLM/VLA的岗位, 3-5年就能冲击百万年薪!而自从UniAD 获得CVPR Best Paper以来,端到端已经衍生出很多技术流派,最近也 面试了很多候选人,发现很少有人能讲清楚端到端到底是啥?什么事一段式/什么是二段式?一段式又分为哪些子领域,下面这个视频为大家一一解答~ 而端到端的核心优势在于,与传统模块化方法不同,端到端系统实现了从传感器输入到车辆规划/控制信息的直接建模,避免了模块化方法间的误差累积。BEV感 知打通了模块化方法间的壁垒,在统一的上帝视角下实现了技术的一次跃迁。UniAD统一了各个感知和规划任务,所有的模块第一次在一个模型中运行起来,至 此端到端时代来临~ 而随着学术界和工业界的目光投向端到端这个技术领域,我们发现了很多问题。UniAD是端到端的最终解吗 ...
2025 Agentic AI应用构建实践指南报告
Sou Hu Cai Jing· 2025-07-20 08:08
公众号『智云研报』 报告共70页 导读: 以下是部分报告原文节选 2025 Agentic AI应用构建实践指南报告 Agentic AI(智能体AI)是基于大语言模型(LLM)的自主软件系统,通过感知、推理、规划与工具调用能力,实现复杂任务的自动化执行。其技术演进经 历了从规则引擎到目标导向架构的变革,核心能力包括: 今日分享:2025 Agentic AI应用构建实践指南报告 二、Agentic AI技术架构与前沿技术 1. 技术架构 2. 关键技术模块 3. 前沿技术 三、构建方案与场景适配 亚马逊云科技提供三类构建方案,企业可根据任务确定性、灵活性需求选择: 方案类型代表产品适用场景优势专用AgentAmazon Q代码生成、运维辅助、内容创作开箱即用,零技术门槛全托管Agent服务Amazon Bedrock Agents文档处 理、报销流程自动化、业务数据分析快速集成企业系统,支持多Agent协作完全自建AgentStrands Agents深度定制、数据安全要求高、特殊业务流程灵活对接 多模型与工具,部署专属服务器 四、行业应用案例与价值验证 1. 金蝶国际:ERP系统智能优化 2. Formu ...
大模型自信心崩塌!谷歌DeepMind证实:反对意见让GPT-4o轻易放弃正确答案
量子位· 2025-07-20 05:08
现在 谷歌DeepMind携手伦敦大学 的一项新研究发现: 这种行为可能也不是谄媚,而是缺乏自信 …… 不仅如此,团队发现如GPT-4o、Gemma 3等大语言模型有"固执己见"和"被质疑就动摇"并存的冲突行为。 闻乐 发自 凹非寺 量子位 | 公众号 QbitAI LLM太谄媚! 就算你胡乱质疑它的答案,强如GPT-4o这类大模型也有可能立即改口。 大模型对于反向意见过度敏感 研究人员利用LLMs能在 不保留初始判断记忆 的情况下获取置信度的特性,选用了Gemma 3、GPT4o和o1-preview等具有代表性的大模 型,设计了一个两轮回答的实验。 简单来说就是,他们的研究弄明白了为啥大模型有时候自信但有时候也自我怀疑,关键就两点:一是总觉得自己一开始说的是对的,二是太把 别人反对的意见当回事儿。 当大模型表现出对自己的答案很自信时,这与人类认知具有一致性——人们通常会维护自己的观点。 不过,当模型面对反对声音过于敏感,产生动摇而选择其他答案时,又与人类这种倾向于支持自身观点的行为相悖。 来看看具体的实验过程。 第一回合是初始回答 :给 回答LLM 抛出二元选择问题,再让虚构的 建议LLM 给出反馈建议。 ...
AI打假AI,拿下SOTA丨厦大&腾讯优图
量子位· 2025-07-20 02:49
AIGI-Holmes团队 投稿 量子位 | 公众号 QbitAI u1s1,AI生成图像已经肉眼难辨真假了。 能不能让AI来做检测,"魔法打败魔法"? 厦门大学联合 腾讯优图实验室团队,就提出了这样一项研究,创新性提出"大模型+视觉专家"协同架构,让大 模型学会用检测器看图像、并描 述出检测到的问题。 具体方法是 AIGI-Holmes —— AI生成图像(AI-generated Image, AIGI)检测方法 ,由厦门大学多媒体可信感知与高效计算教育部重点 实验室和腾讯优图团队带来。 核心创新点如下: 双视觉编码器架构 :在LLaVA基础上增加NPR视觉专家,同时处理高级语义和低级视觉特征。 Holmes Pipeline :包含视觉专家预训练、SFT和DPO三阶段训练流程。 协同解码策略 :推理时融合视觉专家与大语言模型的预测结果,提升检测精度。 泛化能力有限 :快速迭代的AIGC技术持续挑战现有检测方法的泛化能力。在旧模型上训练的检测器通常难以应对新的AIGC方法;有些人类 一眼能够看出的生成图片,模型反而难以检测出来。 将多模态大语言模型(MLLM)应用在AIGC检测上可以有效帮助缓解上述问题, ...
分析了102个VLA模型、26个数据集和12个仿真平台
具身智能之心· 2025-07-20 01:06
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 出发点与工作背景 视觉 - 语言 - 动作(VLA)模型是机器人技术的变革性突破,其核心是将视觉感知、自然语言理解与具身 控制整合到单一学习框架中。本综述聚焦机器人操作与指令驱动自主性,全面梳理了 102 个 VLA 模型、26 个基础数据集和 12 个仿真平台,它们共同推动了 VLA 模型的发展与评估。模型被归为不同架构范式,体 现了视觉、语言和控制在机器人系统中整合的多样策略。对于基础数据集,基于任务复杂性、模态多样性 和规模建立新评估标准,还通过二维框架按语义丰富度和多模态对齐进行组织,揭示了数据领域的未探索 区域。仿真环境的评估围绕大规模数据生成效率、虚实迁移能力及任务多样性展开。综合学术与工业界成 果,明确了当前挑战,并指出可扩展预训练协议、模块化架构设计和稳健多模态对齐策略等发展方向。本 综述兼具技术参考价值与概念路线图意义,涵盖从数 ...
加利福尼亚大学!EgoVLA:从第一视角人类视频中学习VLA模型
具身智能之心· 2025-07-20 01:06
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Ruihan Yang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 研究背景与核心思路 传统机器人模仿学习依赖于大规模真实机器人数据,但受限于硬件和操作成本,数据规模和任务多样性难 以突破。相比之下,人类在各类环境中的操作行为构成了海量潜在训练数据——全球数十亿人在机器人期 望工作的场景中持续活动,其第一视角视频涵盖了机器人难以进入的空间或远程操作困难的任务。 核心突破在于:人类与机器人的动作空间差异可通过几何变换近似。无需直接基于机器人数据训练视觉-语 言-动作(VLA)模型,而是先在人类第一视角视频上训练模型,再通过少量机器人演示微调,即可实现技 能迁移。这种思路既能利用人类数据的规模和多样性,又能通过微调适配机器人本体(figure 5)。 模型架构与动作空间设计 整体框架 以NVILA-2B为基础框架,借助其视觉-语言理解能力和紧凑性,实现高效的意图推理与微调。输入包括: ...
死磕技术的自动驾驶黄埔军校,三周年了~
自动驾驶之心· 2025-07-19 06:32
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 一晃又是一周年了。去年七月份的时候,我和峰哥在复盘两周年我们做了哪些事情,明年有什么计划。相比于去 年,三周年更是一个里程碑,我们成熟了很多。 先 和大家汇报下我们第三年的主要进展。目前我们打造了四个IP: 自动驾驶之心、具身智能之心、3D视觉之 心、大模型之心 ,对应的矩阵包括知识星球、公众号、视频号、哔哩哔哩、知乎等等。知识付费仍然是平台的 核心,但我们 重点开拓了硬件业务、论文辅导和求职业务,从纯线上教育转行到硬件教具、线下培训、求职招 聘等全栈式服务平台。同时兼顾了具身和自驾两个大方向,今年在杭州也设立了线下办公室,几个优秀的小伙伴 加入了我们。 自动驾驶是我们最开始起步的业务,伴随着行业的起起伏伏,我们也在不断磨练中成长,行业最大的变化无疑是 大模型引发的新一轮智驾方案升级VLM/VLA → 聊过十多位大佬后的暴论:自动驾驶还有很多事情没做,转行 具身大可不必! 具身和大模型是我们第三年孵化的,特别是具身智能之心,目前兼顾了学术界和产业界,尤其是我们做了几期圆 桌论坛,非常受大家欢迎 → 【万字长文 ...