Workflow
Computer Vision
icon
Search documents
多样化大规模数据集!SceneSplat++:首个基于3DGS的综合基准~
自动驾驶之心· 2025-06-20 14:06
以下文章来源于3D视觉之心 ,作者3D视觉之心 3D视觉之心 . 3D视觉与SLAM、点云相关内容分享 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 评估协议的关键局限性 三维计算机视觉领域高度关注于捕捉场景的几何和视觉外观,以及理解其内容。近年来,三维高斯溅射(3D Gaussian Splatting, 3DGS)因其独特的能力——能够以一种紧凑的形式联合编码场景的几何、外观和理解属性 (该形式可以有效地从二维带位姿的图像中优化得到)——已成为最理想的三维表示方法。此外,视觉-语言推 理代表了三维场景理解最具前景的方向,因为它将场景的视觉和几何属性与我们用来定义、描述和推理概念的语 言连接起来。因此,本文专注于利用 3DGS 进行视觉-语言场景理解。 语言高斯溅射(Language Gaussian Splatting, LGS)最相关的方法可分为三类。前两类方法首先使用视觉-语言基 础模型(例如 CLIP)从所有训练图像中提取二维特征。第一类随后执行基于梯度的单场景优化,将特征向量分 配给每个三维高斯基元(primitive),并优化它们,使其渲染 ...
无需昂贵设备,单目方案生成超逼真3D头像,清华&IDEA新研究入选CVPR2025
量子位· 2025-05-22 14:29
HRAvatar团队 投稿 量子位 | 公众号 QbitAI 创建3D头像化身对于电影、游戏、沉浸式会议、AR/VR等领域至关重要。在这些应用中,头像化身必须满足几个要求:可动画化、实时、高 质量和视觉上逼真。 然而,从易获取的单目视频中创建高度逼真且可动画化的头像仍然具较大的挑战性。尽管基于3D 高斯(3DGS)的方法在可动画性和实时渲 染方面取得进展,但其重建质量仍受三方面限制。 几何变形灵活性不足 :现有方法依赖通用参数模型(3DMM)驱动高斯点变形,难以准确捕捉个性化表情变化; 表情追踪不准确 :训练前通过2D关键点拟合获取表情参数不够准确,直接优化表情参数则泛化性差,需在测试时进行后优化; 在数字人、虚拟主播、AR/VR等场景快速发展背景下,如何高效生成真实、可动、可重光照的3D头像成为关键。 来自 清华 和 IDEA 的研究团队,联合开发了 HRAvatar (High-Quality and Relightable Gaussian Head Avatar),一种基于单目视频 的3D高斯头像重建方法。采用 可学习形变基和线性蒙皮技术 ,实现灵活且精确的几何变形,并通过精准的表情编码器减少追踪误差 ...
ICML 2025 Spotlight | 用傅里叶分解探讨图像对抗扰动,代码已开源
机器之心· 2025-05-18 04:25
本文作者分别来自中国科学院大学和中国科学院计算技术研究所。第一作者裴高政为中国科学院大学博士二年级学生,本工作共同通讯作者是中国科学院大学马 坷副教授和黄庆明教授。 对抗净化旨在测试阶段将对抗图像还原为其原始的干净图像。现有的基于扩散模型的对抗净化策略试图通过前向过程将对抗扰动淹没在各向同性噪声中,随后通 过逆向过程恢复干净图像。 然而,现有策略在时域(即像素空间)无法对干净像素与对抗扰动进行解耦,导致破坏对抗扰动的同时不可避免地损害原始干净图像 的语义信息。 因此,本文从时域转向频域进行研究。具体来说,本文利用傅里叶分解技术将图像分解为幅度谱和相位谱,探讨了对抗扰动的分布特征:结果表明,对抗扰动更 倾向于破坏高频幅度谱和相位谱。基于这一实验观察,本文提出在扩散模型的逆向过程中注入原始样本的低频信息作为先验,以引导干净样本的生成。这种方法 不仅能够有效去除对抗扰动,同时极大地保留了原始图像的语义内容和结构信息,使得净化后的图像尽可能保持与干净样本的语义相似性。 论文题目:Diffusion-based Adversarial Purification from the Perspective of the F ...
CVPR 2025 Oral | DiffFNO:傅里叶神经算子助力扩散,开启任意尺度超分辨率新篇章
机器之心· 2025-05-04 04:57
本文由圣路易斯华盛顿大学与北京大学联合完成,第一作者为圣路易斯华盛顿大学的刘晓一,他在北京大学访问期间完成了该项研究;通讯作者为北京大学计算 机学院唐浩助理教授 / 研究员。 从单张低分辨率(LR)图像恢复出高分辨率(HR)图像 —— 即 "超分辨率"(SR)—— 已成为计算机视觉领域的重要挑战。近年来,随着医疗影像、卫星遥感、 视频监控和游戏渲染等应用对图像细节的需求不断提升,该技术的应用愈发广泛。传统深度学习超分模型(如 SRCNN、EDSR)在固定放大倍数下表现优异,但 要么无法支持任意放大尺度,要么在大倍率和复杂纹理场景中常出现细节模糊和伪影。扩散模型能有效恢复高频细节,却因需多次迭代去噪而推理缓慢,难以满 足实时应用需求。为彻底打破 "高质量重建" 与 "快速推理" 之间的矛盾,算子学习在运算效率和分辨率不变性方面的提升为该领域带来了新的机遇。 圣路易斯华盛顿大学和北京大学团队提出的 DiffFNO(Diffusion Fourier Neural Operator)以神经算子赋能扩散架构。该方法支持高质、高效、任何连续倍率(如 2.1、11.5 等)的超分。它的优秀表现来源于三大组件:【1】加权傅 ...