Workflow
扩散模型
icon
Search documents
学长让我最近多了解些技术栈,不然秋招难度比较大。。。。
自动驾驶之心· 2025-07-10 10:05
❝ 柱哥,我是今年要找工作的应届生,211的本硕。最近在一家小厂实习着,这不秋招也开始了吗,就打算看看岗位,发现现在市面上都是一些端到端、VLA、强化学 习、世界模型之类的岗位~ 自己的技术栈主要聚焦在多传感器融合、3D检测这种。我咨询了毕业的学长,他说实际每个公司做前沿方向的人很少的,现在公司是即希望你什么都懂,但实际干 活的时候可能还是做一些量产的工作,偏向于数据啊、检测、OCC之类的。 目前我也想快速的丰富自己的技术栈,不求把新方向完全搞懂吧,知道是怎么回事就可以,有没有快速可以补充技术方向基础的办法? 星主回答: 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 自动驾驶的技术更新实在是太快了,以前学BEV还可以找到不错的工作,现在就只能当做个基础的知识面,还需要你懂前沿的世界模型、扩散模型等等等等。可以说自动驾 驶算法工程师越来越往复合型人才的方向发展~ 最近有 知识星球 的小伙伴私聊我提问,估计也说出大多数26届求职伙伴的心声: 你学长说的很多!前沿的方向虽然很火,但量产的形式还不明确。各家公司都怕技术掉队,所以即希望招来的人懂一些新方向,又能实 ...
元宇宙数字人技术新飞跃:交互、感知与虚拟现实的全面升级
Sou Hu Cai Jing· 2025-07-10 02:22
在科技日新月异的今天,人工智能与数字人技术的深度融合正引领着一场前所未有的交互革命。生成式AI技术,如GPT系列及扩散模型,为数字人赋予了 前所未有的交互能力和形象逼真度,使得它们在与用户的交流中显得更为自然流畅。配合先进的语音合成、表情驱动及实时渲染技术,数字人已不再局限 于静态展示,而是能够活跃在直播、客服等多个动态场景中,展现出强大的应用潜力。 值得注意的是,数字人的自主学习与情感感知能力也在持续提升。借助深度学习算法,数字人能够更好地理解用户需求,提供更加个性化的服务。同时, 情感识别技术的加入,使得数字人能够感知用户的情绪变化,并据此作出恰当的回应,进一步增强了用户体验。 虚拟现实技术的飞速发展,更是为数字人带来了前所未有的真实感和立体感。通过VR设备,观众仿佛能够置身于数字人的世界之中,感受到它们的真实 存在,极大地提升了沉浸感。这一技术不仅应用于数字人领域,还在虚拟试衣、虚拟旅游等多个领域展现出广泛的应用前景。 多模态交互技术的成熟也为数字人的发展注入了新的活力。语音识别、自然语言处理等多种交互方式的融合,使得数字人能够接收和处理来自不同渠道的 信息,实现了更加自然、便捷的人机交互。在直播、客服 ...
两张图就能重构3D空间?清华&NTU利用生成模型解锁空间智能新范式
量子位· 2025-07-09 01:18
LangScene-X团队 投稿 量子位 | 公众号 QbitAI 最少只用2张图,AI就能像人类一样理解3D空间了。 ICCV 2025最新中稿的 LangScene-X : 以全新的 生成式框架 ,仅用稀疏视图(最少只用2张图像)就能构建可泛化的3D语言嵌入场景,对比传统方法如NeRF,通常需要20个视 角。 团队一举攻克传统方法依赖密集视图的痛点,更将多模态信息统一在单一模型中,为空间智能领域打开了新大门。 这意味着, 生成式模型能像人类一样,仅凭稀疏视觉输入构建融合语言理解的3D空间认知系统 。 3D语言场景生成的困境 当前3D语言场景生成有以下3个核心困境 : 密集视图依赖与稀疏输入缺失的矛盾 传统方法(如NeRF、Gaussian Splatting)高度依赖校准后的密集视图(通常超过20个视角),当输入视图稀疏(如仅2-3张图像)时,会 出现严重的3D结构伪影和语义合成失真。例如,LangSplat和LangSurf在厨房场景中使用稀疏视图时,物体边界模糊率超过40%,而真实场 景中获取密集视图往往成本高昂。 跨模态信息割裂与3D一致性缺失 外观、几何、语义三类信息通常由独立模块处理,导致模态间 ...
ICML 2025 Spotlight | 清华朱军组&NVIDIA提出DDO:扩散/自回归模型训练新范式,刷新图像生成SOTA
机器之心· 2025-07-01 09:34
背景 | 基于似然的生成模型 近年来,扩散模型(Diffusion Models)和自回归模型(Autoregressive Models)在图像生成中占据 主导地位,如 NVIDIA 的 EDM 系列扩散模型和字节跳动以 VAR 为代表的视觉自回归模型。相比 GAN(Generative Adversarial Networks)这类直接优化数据生成过程的隐式生成模型,扩散模型和 自回归模型均属于 基于似然的生成模型 (Likelihood-Based Generative Model),它们显式估计数 据的对数似然(log-likelihood),具有 训练稳定、样本多样性强、容易规模化的特点 。 文章一作郑凯文为清华大学三年级博士生,研究方向为深度生成模型,曾提出流式扩散模型最大似然估 计改进技术 i-DODE,扩散模型高效采样器 DPM-Solver-v3,扩散桥模型采样器 DBIM 以及掩码式 离散扩散模型采样器 FHS 等。 清华大学朱军教授团队与 NVIDIA Deep Imagination 研究组联合提出一种全新的视觉生成模型优化范 式 —— 直接判别优化(DDO)。该方法将基于似然的生成模 ...
最近,一些自驾公司疯狂往一线『输送』人才。。。
自动驾驶之心· 2025-06-26 12:56
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 知识星球有不少已经工作的小伙伴。新一年的智驾秋招也即将开启了~ 最近提问里,有好几个提问 都是业内公司裁员或者输出一线的问题。 甚至这波裁员到了去年的校招生身上,也就是不到一年的校招生。所谓的输出一线,就是很多部门都有明确的指 标,需要把一部分人从研发岗转到一线销售。 一般来说,营收有压力了才会这么做或者业务收缩,因为 养开发其实不赚钱,只能销售人员才能帮公司赚钱。 当销售没有拿到足够的单子,后面又有很多研发,尤其是智驾的算法岗薪资其实很高。。。这个时候研发没活 干,其实就是公司的纯支出。。。所以才有输出一线这么一说~同时输出一线 也是 委婉 裁员的一种方式, 确实 不裁员,但可以给你输送到一线,是走是留 自己选。 针对这些同学,星主也针对性给一些建议,以下是星主的回答: 确实,最近有几个业内的公司压力很大,要么已经开始裁员,要么在裁员的路上。很多新车下半年都要集中发 布,销量不及预期的话可能也会开始。。。。。 也有一些公司选择输出一线的方式。。。 星主的建议是如果是裁员,咱们就认真准备,打磨下简历或者学习新 ...
正在筹划一个万人的自动驾驶&具身技术社区~
自动驾驶之心· 2025-06-25 09:54
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 这几天刚和团队小伙伴沟通完后期工作建设,探讨究竟要做一个什么样的自动驾驶社区?其中一个答案比 较符合我们的思路,那就是一个能够凝聚行业人群、遇到问题能够快速响应、影响到整个行业的地方。 我们目标是未来3年内打造一个万人聚集的智能驾驶&具身智能社区,这里也非常欢迎优秀的同学加入我们 (目前已经有华为天才少年、自驾领域研究前沿的多为大佬加入)。我们和多家业内公司搭建了学术 + 产 品+ 招聘完整的桥梁和链路,同时内部在教研板块也基本形成了闭环(课程 + 硬件+问答)。社区里面既能 看到最新的行业技术动态、技术分享,也有非常多的技术讨论、入门问答,以及必不可少的行业动态及求 职分享。具身智能这么火,要不要考虑转行?自动驾驶技术的未来发展趋势如何?大模型如何预自动驾驶 &具身智能结合?这些都是我们持续关注的 如果您是自动驾驶和AI公司的创始人、高管、产品经理、运营人员或者数据/高精地图相关公司,也非常欢 迎加入,资源的对接与引进也是我们一直在推动的!我们坚信自动驾驶能够改变人类未来出行,想要加入 该行业推动社会进步的 ...
华为车BU招聘(端到端/感知模型/模型优化等)!岗位多多~
自动驾驶之心· 2025-06-24 07:21
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 华为车bu(引望)社招: 端到端模型算法工程师 1. 承担端到端模型的设计、开发、部署和迭代 感知模型算法工程师 1. 承担视觉感知相关的神经网络设计、开发、部署和迭代 4. 承担视觉感知算法的长期研发和迭代 人脸状态监测算法工程师 1. 负责智能驾驶系统,驾驶员和乘客姿态,行为和视线监测算法研发和部署 2. 针对现网问题和用户新需求,快速设计算法方案,解决问题满足客户需求 3. 结合业界算法前沿,推动算法优化迭代,确保算法业界竞争力领先 模型效率优化 1. 承担智能驾驶系统AI模型车端推理效率优化 2. 针对现网问题,优化迭代效率和方案;加速问题解决 3. 结合业界前沿和实际应用问题,推动新算法预研和落地 4. 分析端到端数据分布,均衡和调优 2. 构建AI模型压缩核心算法,设计和构建硬件亲和的模型稀疏、剪枝、蒸馏、量化等压缩能力 3. 紧跟业界前沿模型压缩方案,结合AI模型不断提升模型时延、内存带宽等指标~ 欢迎感兴趣的朋友加入自动驾驶之心知识星球获取联系方式,内部独家招聘信息,简历直达!!! 前面一直在 ...
自动驾驶基础模型全面盘点(LLM/VLM/MLLM/扩散模型/世界模型)
自动驾驶之心· 2025-06-21 11:18
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 摘要 对于自动驾驶车辆而言,在复杂环境中安全导航依赖于应对广泛且多样化的罕见驾驶场景的能力。基于仿 真和场景的测试已成为自动驾驶系统开发与验证的关键方法。传统场景生成依赖基于规则的系统、知识驱 动模型和数据驱动的合成方法,但这些方法往往生成的场景多样性有限,且难以生成真实的高风险安全关 键场景。随着基础模型(Foundation Models)的出现——一种预训练的通用人工智能模型——开发者能够 处理异构输入(例如自然语言、传感器数据、高清地图和控制指令),从而实现对复杂驾驶场景的合成与 解析。本文围绕基础模型在自动驾驶场景生成与分析中的应用(截至2025年5月)开展综述研究。本综述提 出了一个统一分类体系,涵盖大语言模型(LLMs)、视觉-语言模型(VLMs)、多模态大型语言模型 (MLLMs)、扩散模型(DMs)和世界模型(WMs)在自动驾驶场景生成与分析中的应用。此外,我们回 顾了相关方法论、开源数据集、仿真平台和基准测试挑战,并探讨了针对场景生成与分析的专用评估指 标。最后,本文总结了当前面临的开放性 ...
[大模型实践] 卡比人贵时代的深度学习经验
自动驾驶之心· 2025-06-20 14:06
以下文章来源于刘聪NLP ,作者黄哲威 hzwer 刘聪NLP . NLP刘聪,如货币般流通!这里的刘聪,不会rapper,只发paper!长期关注AIGC前沿内容!还写过两 本书:ChatGPT原理与实战、大型语言模型实战指南!欢迎来讨论AI! 作者 | hzwer 黄哲威 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/22287171257 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>点击进入→ 自动驾驶之心 『大模型』技术交流群 本文只做学术分享,如有侵权,联系删文 评测的重要性 论文说自己的方法性能好,一般就是定量部分,要突出关键指标的提升;定性部分,着重强调新的现象和观察 太长不看版:大模型实验的一些新方法论: 选准关键指标 ,指导迭代方向。 识别真瓶颈 ,避免低效实验,验证强假设。 平衡大小实验 ,大实验找问题,小实验筛想法。 强化团队协作 ,整合资源,找比较优势。 (总结好像很套话,但真的努力写干货了,欢迎评论交流启发补充 "不要被表象所迷惑,要洞察事物的本质。" —— 亚里士多德 几年 ...
扩散语言模型真的会比自回归好?理论分析结果可能恰恰相反
机器之心· 2025-06-10 08:41
本工作来自北京大学智能学院贺笛老师课题组与蚂蚁集团武威团队。贺笛老师在机器学习领域获得过多项荣誉,包括 ICLR 2023 杰出论文奖与 ICLR 2024 杰出论 文奖提名。 扩散模型近年来在图像生成领域取得了令人瞩目的成就,其生成图像的质量和多样性令人惊叹。这自然引发了人们的思考:这种强大的生成范式能否迁移到文本 领域,挑战甚至取代目前主流的自回归语言模型?扩散语言模型(Diffusion Language Models)凭借其并行生成多个词元的潜力,似乎预示着文本生成领域的一场 效率革命。然而,这一前景是否真的如此美好? 来自北京大学和蚂蚁集团的最新研究表明,答案远非简单的 "是" 或 "否",在某些关键场景下,结论甚至可能恰 恰相反。 | Guhao Feng* | Yihan Geng* | Jian Guan | Wei Wu | Liwei Wang | | --- | --- | --- | --- | --- | | Peking University | Peking University | Ant Group | Ant Group | Peking University | 论文标题 ...