Workflow
理想VLA
icon
Search documents
不用给理想入选ICCV高评价, 牛的是理想的工作, 不是ICCV
理想TOP2· 2025-06-29 15:06
本文结构: 先介绍AI学术圈为什么很多特点与其他学科不一样,引入能发多篇顶会的中国公司其实蛮多的,含金量并不高。这块我很懂, 我上一段创业 受众就是ICCV/CVPR/AAAI/ICLR的投稿者。 再详细论述理想VLA的原始创新度是DeepSeek MoE级别,没有跟随特斯拉了(VLM之后就不是跟随了,是深度参考),并指出原始创新度低于DeepSeek的 MLA,MLA原始创新度低于Transformer。 目前有能力做出MoE级别原始创新的中国公司很少,这块很有含金量。 以下为正文: 25年6月27日,理想自动驾驶负责人表示自动驾驶团队5篇论文中稿ICCV,VLA交付后会把"梯队"拿掉。 李想补充到,理想基座模型团队还有三篇论文被录用,在措辞上对入选ICCV给予了很高评价。 TOP2上一段创业经历受众就是AAAI/ICML/NeurIPS/ICLR/CVPR/ICCV这些顶会的投稿者,所以TOP2对这块特别懂。 AI学术圈与其他学科圈特点有非常多不同 AI学术圈会议比期刊重要 ,本质原因是,AI学术发展速度太快,而期刊审稿周期太长,旧有的以期刊为中心的学术共同体范式难以满足AI学术圈的发展 需求。 AI会议 ...
汽车行业周报(20250616-20250622):6月下旬需求有望恢复,小米YU7月底发布-20250622
Huachuang Securities· 2025-06-22 08:34
汽车行业周报(20250616-20250622) 推荐(维持) 6 月下旬需求有望恢复,小米 YU7 月底发布 | 华创证券研究所 | | --- | | 证券分析师:张程航 | 证券分析师:夏凉 | 证券分析师:李昊岚 | 联系人:张睿希 | | --- | --- | --- | --- | | 电话:021-20572543 | 电话:021-20572532 | 邮箱:lihaolan@hcyjs.com | 邮箱:zhangruixi@hcyjs.com | | 邮箱:zhangchenghang@hcyjs.com | 邮箱:xialiang@hcyjs.com | 执业编号:S0360524010003 | | | 执业编号:S0360519070003 | 执业编号:S0360522030001 | | | 本周汽车板块微跌,投资情绪偏淡。往年 6 月是半年考核节点,预计 6 月下旬随营销增 加周度需求较上旬回暖,行业随之进入 7-8 月淡季,再往后将迎来今年新品集中上市阶 段,叠加年底前季节性旺销和补贴因素,销量展望乐观。市场逐步关注明年以旧换新、 新能源车购置税变化对行业影响,无论追求相 ...
理想的VLA可以类比DeepSeek的MoE
理想TOP2· 2025-06-08 04:24
本文经过认真思考,有任何不同意见都可在评论区留言,我都会回复的。 看待一个东西的角度有非常多种,当一个人说XX可以和XX类比时,一般是某一个角度有相似之处, 任意两个事物不太可能所有细节都可以类比。 理想VLA和DeepSeek MoE( 混合专家 )类比点: VLA和MoE本身的想法都有其他人先提过了,都是首次完整落地到另一个大领域,在其中有大量创 新,并取得良好结果。 理想暂时还没有自己的MLA( 多头潜在注意力机制 ),之后会有的。DeepSeek的MLA创新尺度是这 个方法的理念之前没人提过。 DeepSeek之前的MoE,专家数量一般只有8-16个,单个专家需处理多种类型知识,专业化程度低,不 同专家重复学习相同公共知识,参数利用率低。 DeepSeek的MoE核心通过 Fine-Grained Expert Segmentation( 细粒度专家划分)和 Shared Expert Isolation( 共享专家隔离),处理方式和原来的MoE已经非常不同了。 前者将单个专家拆分为更小的子专家(原专家隐藏层维度缩小至 1/4,数量增至4倍),让激活专家 组合灵活性显著提升(从120种组合的数量级增至 ...
券商晨会精华:低估值具身智能应用标的和红利资产继续受青睐
Xin Lang Cai Jing· 2025-06-03 00:49
Group 1 - The market experienced fluctuations with the ChiNext index leading the decline, while sectors such as pork, innovative drugs, banks, and CROs saw gains, and sectors like gold, glyphosate, controllable nuclear fusion, humanoid robots, environmental equipment, and consumer electronics faced losses [1] - CITIC Securities highlighted that low-valued embodied intelligent application targets and dividend assets continue to attract market interest, suggesting a focus on "AI + robotics" investment opportunities beyond humanoid robots [2] - CICC emphasized that multi-modal reasoning is crucial for enhancing intelligent driving capabilities, with significant advancements expected in the algorithms of leading smart driving companies [2] Group 2 - Huatai Securities pointed out that core assets like A50 and major financial sectors are likely to shift from resilience revaluation to growth revaluation, showing strong fundamentals during the real estate investment cycle adjustment [3] - A50 non-financial ROE is expected to stabilize and recover ahead of the overall non-financial sector, driven by cost improvements and shareholder returns [3] - The current valuation of these companies reflects a higher implied cost of equity than the market average, indicating potential for a significant reduction in risk premium if investors reassess the overlooked growth resilience [3]
中金 | AI智道(9):多模态推理技术突破,向车端场景延伸
中金点睛· 2025-06-02 23:45
文 / 于钟海 , 魏鹳霏 , 肖楷 , 赵丽萍 中金研究 以MiniMax V-Triune新框架成果为例,推理感知统一框架在可拓展性、泛化性初步验证。 V-Triune以三层组件架构实现视觉推理和感知任务统一至强化学 习框架:1)多模态样本数据格式化;2)验证器奖励计算,采用异步客户端-服务器架构,奖励计算和主训练循环解耦;3)数据源级指标监控,便于溯源 和提升稳定性。结合动态IoU奖励机制、冻结ViT参数等工程优化,Orsta系列模型(32B参数)在MEGA-Bench Core基准测试中实现了最高14.1%的性能提 升。 多模态推理助力智能驾驶能力升阶。 在智能驾驶场景,多模态推理是增强道路交通标志识别判断能力、提升复杂场景泛化性的重要途径,正成为头部智 能驾驶企业算法演进的重点。2025年5月30日,蔚来世界模型NVM首个版本正式开启推送,具备全量理解、想象重构和推理能力,能够对实时环境多模信 息进行理解和推演,在选择最优ETC车道通行、停车场自主寻路等场景的性能提升显著。此外,理想自研的VLA大模型亦具备思维链推理能力,以多模态 推理模拟人类驾驶员的思维运作方式。 图表1:MiniMax多模态RL ...
理想汽车连续十个季度盈利,李想:年营收上3000亿再推轿车
Zhong Guo Jing Ji Wang· 2025-05-30 14:16
"增程SUV、纯电SUV以及理想MEGA全部开启交付后,可以支持理想汽车实现年度3000亿人民币 的营收规模。在实现这个规模的基础之上,我们会根据真实的市场需求,推出价格更合适的MPV和轿 车产品。"在5月29日晚间举行的财报电话会议上,理想汽车董事长兼CEO李想针对是否做轿车产品做出 回应。这既是李想对理想汽车旗下产品的明确规划,也展现出对未来营收更上一层楼的决心和信心。 | | | 载至以下日期止三個月 | | 百分比變動。 | | | --- | --- | --- | --- | --- | --- | | | 2024年 | 2024年 | 2025 年 | 同比 | 理比 | | | 3月31日 | 12月31日 | 3月31日 | | | | | 人民幣 | 人民警 | 人民常 | | | | 車輛銷售收入 | 24.251.6 | 42.643.0 | 24.678.6 | 1.8% | (42.1)% | | 車輛毛利率 | 19.3% | 19.7% | | 19.8% 0.5 個百分點 | 0.1 個百分茹 | | 收入编辑 | 25,633.7 | 44.273.7 | 25.926. ...
TransDiffuser: 理想VLA diffusion出轨迹的架构
理想TOP2· 2025-05-18 13:08
Diffusion(扩散模型)是一种生成数据的模型,除了Diffusion外,还有其他生成模型,比如GAN(生成对 抗网络)、VAE(变分自编码器)等。不同的生成模型在核心思想与生成数据的方法上有区别。 Diffusion的核心思想是通过加噪声(Forward Process)和去噪(Reverse Process)的过程来学习数据的分 布。可以想象成一种逆向拼图: 先把一张完整的图片或其他数据打乱成一片模糊,再通过学习如何一 步步还原它。 去噪的过程是训练一个神经网络,让它去预测每一步的噪声,然后去除噪声,生成目标数据。 贾鹏25年3月英伟达GTC上关于理想VLA diffusion出轨迹的表述 VLM是由端到端+VLM两个模型组成的,VLM的两个快慢系统都是输出的轨迹。VLA是一个模型具 备快慢思考能力。 读者不用被里面的名词吓着,本文经过认真思考,并结合预期的大多数读者的知识储备,做了不少专 门解释,逻辑链很清晰,多读几遍能有收获的。 本文结构:先解释什么是Diffusion,再分享贾鹏25年3月英伟达GTC上关于理想VLA diffusion出轨迹 的表述,最后分享TransDiffuser的架构细节 ...
从造车到造“脑”,理想AI无人区的拓荒法则
Zhong Guo Jing Ji Wang· 2025-05-15 03:29
理想VLA司机大模型,其发展呈现清晰的进化轨迹。昆虫动物智能阶段:通过机器学习感知配合规则算法的分段式辅助驾驶解决方案,需要有既定的规 则,同时依赖高精地图,类似蚂蚁的行动和完成任务的方式;哺乳动物智能阶段:端到端阶段通过大模型学习人类驾驶行为(类似马戏团的动物),但其对 物理世界的理解并不充分;人类智能阶段:VLA阶段可实现类似人类观察世界的方式,VLA拥有自己的脑系统,不仅能看到物理世界,更能进一步理解物 理世界,可以像人类一样去执行一些复杂动作。 在理想汽车看来,VLA不是突变的过程,是进化的过程。端到端是VLA的基础,这个过程没有捷径。"如果规则算法都做不好,根本不知道怎么去做端到 端;如果端到端没有做到相应的水平,那你连VLA怎么训练都不知道。" 在人类与VLA的合作模式上,理想提出了一个形象而贴切的比喻 ——类似人与司机关系。人们如何与司机沟通,就可以如何与司机Agent交流。"我们只有 让它变成一个真正的司机,它才是一个生产力工具,不只是一个辅助工具。"李想以"雇佣司机"类比,这一逻辑揭示了VLA的商业本质,它不是技术的堆 砌,而是重构AI生产力的范式。它表明,AI 不再是高高在上的技术产物,而 ...
理想VLA突破AI“图灵天花板”:当自动驾驶学会“人类式思考”
He Xun Wang· 2025-05-09 07:07
当全球车企都在训练AI如何更好地执行指令时,一个更贴近社会生活本质的困境浮现了——"如何让算 法理解"在弯道限速60km/h的路段,若周围车流保持60kph,自车机械遵守30kph限速反而会成为最危险 的移动路障"。这种藏在规则与现实中的思考逻辑,正在成为自动驾驶进化的下一个突破口。 在5月7日的《理想AI Talk第二季》中,李想系统性地拆解了理想汽车的解题逻辑:从技术架构的底层 革新到价值观的主动对齐,理想VLA大模型如何重新定义人机共驾的"安全基线"。 给机器装上"会思考的大脑" 当全球自动驾驶研发处于"规则算法"与"端到端"的发展阶段时,一个更隐蔽的技术断层正在显现,即如 何让AI从"知道怎么做"进化到"像人类一样思考怎么做"。众所周知,传统应对突发路况往往陷入"精准 识别障碍物却不懂让行优先级"的尴尬,这种"算法近视症"暴露了目前行业存在过度追求感知精度,却 忽视决策背后价值判断的通病。 而理想汽车则借鉴生物学启示录破局,如哺乳动物的大脑皮层,比昆虫神经节多了"思考为何行动"的模 块,VLA大模型利用3D视觉和2D的组合看见更真实的物理世界,甚至可以实现看懂导航软件的运行逻 辑,而不仅仅只是执行导航 ...