Workflow
扩散模型
icon
Search documents
之心急聘!25年业务合伙人招聘,量大管饱~
自动驾驶之心· 2025-07-12 05:41
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 自动驾驶资源共享(求职、读博、出国留学推荐等); 丰厚的现金激励; 业务合伙人 创业项目合作与推荐; 自动驾驶之心业务合伙人招募来啦!我们团队今年计划向国内外招募10名优秀的合伙人,负责自动驾驶相 关课程研发、论文辅导业务开发、硬件研发; 主要方向 如果您是大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、 世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们; 岗位要求 QS200以内高校,硕士及以上学历,手握顶会的大佬优先。 待遇说明 联系我们 更多欢迎添加微信咨询,备注" 机构/公司 + 自动驾驶合作咨询 "。 ...
端到端VLA这薪资,让我心动了。。。
自动驾驶之心· 2025-07-10 12:40
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 端到端自动驾驶 - 下一代智能驾驶量产核心算法 端到端自动驾驶(End-to-End Autonomous Driving)作为目前智驾量产的核心算法,可以分为一段式端到端、二段式端到端两个大的技术方向。自UniAD获得 CVPR Best Paper以来,正式拉开了国内新一轮的智驾军备竞赛。 2024年理想汽车更是宣布E2E+VLM的双系统架构量产! 端到端自动驾驶通过传感器数据输入 (视觉/Lidar等)直接输出自车规划或控制信息,是目前智能驾驶最具代表性的方向。 目前VLM/VLA也是招聘的刚需,3-5年就能冲击百万年薪! 而随着学术界和工业界的目光投向端到端这个技术领域,我们发现了很多问题。UniAD是端到端的最终解吗?显然不是!一系列算法如雨后春笋般冒出: 技术栈多?入门困难? 去年我们推出了《首个面向工业级的端到端算法与实战教程》,今年很多小伙伴反馈技术发展太快了,先前的技术方案已经不适合当下的大环境。端到端目前发 展出多个领域技术的方向,需要掌握多模态大模型、BEV感知、强化学习、视觉Trans ...
筹备了半年!端到端与VLA自动驾驶小班课来啦(一段式/两段式/扩散模型/VLA等)
自动驾驶之心· 2025-07-09 12:02
与传统模块化方法不同,端到端系统实现了从传感器输入到车辆规划/控制信息的直接建模,避免了模块化 方法间的误差累积。BEV感知打通了模块化方法间的壁垒,在统一的上帝视角下实现了技术的一次跃迁。 之后UniAD统一了各个感知和规划任务,所有的模块第一次在一个模型中运行起来,至此端到端时代来临~ 而随着学术界和工业界的目光投向端到端这个技术领域,我们发现了很多问题。UniAD是端到端的最终解 吗?显然不是!一系列算法如雨后春笋般冒出: 技术栈多?入门困难? 去年我们推出了《首个面向工业级的端到端算法与实战教程》,今年很多小伙伴反馈技术发展太快了,先 前的技术方案已经不适合当下的大环境。端到端目前发展出多个领域技术的方向,需要掌握多模态大模 型、BEV感知、强化学习、视觉Transformer、扩散模型等相关的知识。学习端到端自动驾驶,是一个一站 式强化多领域知识的好机会。但这样的学习路径往往非常痛苦。同时掌握多个领域的知识已经足够困难, 而各领域的论文数量繁多、知识碎片化,入门者往往还没了解各个领域就已然放弃。如何从零散论文中提 炼框架、掌握领域发展趋势,是初学者的常见挑战。同时学习目标驱动导航需要结合实际任务完成 ...
自动驾驶黄埔军校,一个死磕技术的地方~
自动驾驶之心· 2025-07-06 12:30
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 当前自动驾驶技术正处于从辅助驾驶(L2/L3)向高阶无人驾驶(L4/L5)跨越的关键阶段。如果你对自动驾驶 有浓厚的兴趣,并且想找业内最专业的大佬交流,那么这个圈子一定没错!技术迭代的浪潮下暗藏职业焦虑。 对职场老人而言 ,传统以激光雷达为核心的感知算法工程师可能面临路线冲击——特斯拉的纯视觉方案依托成 本优势和算法革新,正在撼动多传感器融合的主流地位;而规划控制领域从PID到强化学习的转型,也让依赖传 统控制理论的从业者陷入技能升级的紧迫感。 学生新手则陷入"选择困难症" :感知算法赛道因头部企业技术垄 断加剧内卷,数据闭环工程师需要同时掌握分布式计算与AI模型调优能力,而新兴的车路协同方向又要求跨界 融合通信与交通系统工程知识。当禾赛科技将激光雷达成本降至200美元、比亚迪宣布自研体系内价格再降70% 时, 技术红利背后实则是从业者必须持续奔跑的生存法则,这种技术路线的不确定性与知识体系的重构压力, 正在重塑自动驾驶人才市场的竞争格局。 后处理,写逻辑建议转行业可以,不要换方向,gap还是蛮大。现在很多人 ...
一个气泡水广告,为何几十万人围观?原来整个都是Veo 3生成的
机器之心· 2025-07-06 06:06
机器之心报道 机器之心编辑部 最近,一个完全由 AI 制作的广告在社交媒体上爆火,在 X 上有三十多万人观看。 这是一个叫 Too Short for Modeling 的团队发布在 LinkedIn 上的作品,不过它并不是一个商业作品,而是该团队为一直想合作的品牌制作的 概念影片。 距离 Veo 3 发布已经过去一个半月了,虽然此前模型视频生成已经能达到很逼真的状态,但 Veo 3 的「音画同步」功能,引领 AI 视频创作进 入了全新的声画一体化阶段。同时它也让 AI 视频生成进入了更有实践意义的阶段,极大地降低了视频创作的门槛。 我们先来看看这个广告效果怎么样。 来源: https://www.linkedin.com/posts/arielyoriginal_veo3-aicreative-fakeads-activity-7346271275020902400-P9fd 人物1:下午好,小伙子。 (Good afternoon, son.) 人物2:想猜猜我为什么让你靠边停车吗? (Wanna take a guess why I pulled you over?) 人物1:哦,不是你想的那样。 (O ...
本来决定去具身,现在有点犹豫了。。。
自动驾驶之心· 2025-07-05 09:12
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 具身智能无疑是这两年最的方向。从几年前的沉寂到去年的疯狂,再到25上半年开始逐渐冷静。大家慢慢回 过神来,具身机器人还远远未到生产力的阶段。 以下是 知识星球 内部一位双非同学的提问,非常有代表性: 各位大佬们好,我目前是一个双非的研究生,我的研究方向是多传感器融合定位的,然后学过python,深 度学习,ros,但都学的不是很精,现在想多学一点为以后找工作用,感觉算法岗我的学历可能不太行,请 问各位大佬们我应该往哪个方向学比较好呢?具身智能感觉也还不太成熟,不确定这波热度能到什么时 候?请问各位大佬后面应该学些什么知识呢? 星主回答:你的技术栈都比较偏机器人一些,SLAM和ROS这块都可以尝试一下和机器人/具身智能打交道。这 块需求也比较大,可以做一些优化、集成类工作~ 另一方面,我们了解到大一些的公司各家的hc都不是很高,要求基本上都是端到端、大模型、VLA、强化学 习、3DGS这些比较前沿的方向。如果你做的是这块,是有机会的,很多tire 1的公司或者主机厂也正在follow前 沿的技术,大概是从无图往 ...
ICCV 2025|降低扩散模型中的时空冗余,上交大EEdit实现免训练图像编辑加速
机器之心· 2025-07-05 02:46
本论文共同第一作者闫泽轩和马跃分别是上海交通大学人工智能学院 2025级研究生,以及香港科技大学 2024级博士生。目前在上海交通大学EPIC Lab进行科研实习,接受张林峰助理教授指导,研究方向是 高效模型和AIGC。 本文主要介绍张林峰教授的团队的最新论文: EEdit ⚡ : Rethinking the Spatial and Temporal Redundancy for Efficient Image Editing。 这是首个用于加速匹配流模型上兼容多种引导方案的图像编辑框架。该框架速度提升显著,较原始工作 流可加速2.4倍;并且输入引导条件灵活,支持包括参考图像引导,拖拽区域引导,提示词引导的多种 编辑任务;该框架采用免训练的加速算法,无需微调和蒸馏。 该论文已经入选ICCV 2025。 论文链接: https://arxiv.org/pdf/2503.10270 论文已开源: https://github.com/yuriYanZeXuan/EEdit 最近,基于流匹配( Flow Matching)的扩散模型训练方式逐渐成为扩散模型的热点,以其优雅简洁 的数学形式和较短时间步的生成能力吸引 ...
物理学家靠生物揭开AI创造力来源:起因竟是“技术缺陷”
量子位· 2025-07-04 04:40
不圆 发自 凹非寺 量子位 | 公众号 QbitAI AI的"创造力"居然是一种技术缺陷?? 两位 物理学家 以 生物系统自我组装的过程 为参考,提出并验证了一个大胆的假设—— 扩散模型的去噪过程就像细胞的分化重组,图像生成AI无法精确"复制"的原因也可能和它 的"基因"(架构)有关。 在一篇已被ICML 2025接收的论文中,这两位研究者通过建立有扩散模型特性的数学模型证 明: AI的"创造力"本质上是一种确定性过程——是模型架构直接且必然产生的结果。 他们的假设从何而来?他们又做了什么来证明这个假设? 让我们一起来看。 事情的起因:算法的独特创造力 人工智能系统在进化的过程中越来越模仿人类的思维能力,并展现出了一种独特又怪诞的"创 造力"天赋。 (所谓AI味?) 以扩散模型为例,作为DALL·E、Imagen和Stable Diffusion等图像生成工具的核心,其设 计初衷是精确拟合训练数据的分布,生成与训练图像 完全一致 的副本。 然而在实践中,它们似乎在 即兴创作 ,将图像中的元素融合以创造出新的东西——不是无 意义的彩色团块,而是具有语义意义的连贯图像。 是什么赋予了它们即兴发挥的能力? 巴黎高等 ...
画到哪,动到哪!字节跳动发布视频生成「神笔马良」ATI,已开源!
机器之心· 2025-07-02 10:40
为了解决这一问题,字节跳动提出了 ATI ——一种全新的、以「轨迹为指令」的可控视频生成框架。 ATI 的核心理念是: 将用户在输入图像上手绘的任意轨迹,转化为驱动物体与摄像机运动的显式控制 信号,并以统一的潜在空间建模方式注入视频生成过程。 这使得视频创作从「参数调控」转变为「可 视化创意」,让用户「画到哪,动到哪」,以直观方式实现帧级精准控制。 Angtian Wang 是字节跳动的研究员,研究方向包括视频生成、3D 视觉、differentiable rendering。 博士毕业于约翰霍普金斯(Johns Hopkins University)大学。师从 Dr. Alan Yuille。 近年来,随着扩散模型(Diffusion Models)、Transformer 架构与高性能视觉理解模型的蓬勃发 展 , 视 频 生 成 任 务 取 得 了 令 人 瞩 目 的 进 展 。 从 静 态 图 像 生 成 视 频 的 任 务 ( Image-to-Video generation)尤其受到关注,其关键优势在于:能够以最小的信息输入生成具有丰富时间连续性与空间 一致性的动态内容。 然而,尽管生成质量不断提 ...
免费约饭!加拿大ICML 2025,相聚机器之心人才晚宴
机器之心· 2025-07-01 09:34
2025 年已经过半,AI 领域依旧发展迅速。 作为最直观、最具感官冲击力的技术方向之一,图像、视频生成也迎来了前所未有的突破与热潮。 以扩散模型为代表的生成方法不断刷新着图像合成的质量上限,使得 AI 创作在分辨率、风格控制、语义理 解等维度上实现跨越式提升。而在此基础上,视频生成进一步打开了人们的想象空间。比如 Google 最近发 布的 Veo 3,首次实现了原生音频的同步生成,真正将视频生成带入有声电影时代。 而这些技术的跃升,离不开研究者们不断的交流与合作。 ICML 作为 AI 领域最具影响力的学术会议之一,汇聚了世界顶尖的研究成果。今年 ICML 将于 7 月 13 日至 7 月 19 日在加拿大温哥华会议中心举行。 想必很多从业者将前往现场参会,除了密集高强度的会议日程之外,不妨也为自己预留一些时间,参与一 场更轻松、更自由的线下交流活动「云帆・ICML 2025 AI Talent Meetup」。 这是一次聚焦前沿技术与人才对话的特别聚会,由机器之心与上海人工智能实验室、东方菁汇、全球高校 人工智能学术联盟共同发起,诚邀大家参加「云帆・ICML 2025 AI Talent Meetup」 ...