Workflow
3D AIGC
icon
Search documents
干货超标!腾讯混元3D负责人郭春超:真正的3D AIGC革命,还没开始!
AI科技大本营· 2025-05-16 01:33
分享嘉宾 | 郭春超 责编 | 梦依丹 出品丨AI 科技大本营(ID:rgznai100) 现在这个时代,我们玩的游戏、看的电影、甚至未来的虚拟世界,都离不开精细逼真的三维(3D)模型。然而,制作这些 3D 内容,过去常常意味着 耗时数周甚至数月的人工建模,成本高昂且效率低下。就像平面设计曾被 Photoshop 改变一样,人工智能正在瞄准 3D 领域,试图彻底革新数字内容 的生产方式。 在这场由 AI 驱动的 3D 生成浪潮中,腾讯混元团队推出的开源项目 Hunyuan 3D 成为了全球开发者社区的焦点。它不仅在 GitHub 上迅速积累了超过 9.6k 的 Star,跻身 3D 生成开源项目的第一梯队,更凭借其出色的模型生成效果,赢得了"几乎没有变形的 Image to 3D,恐怖如斯"这样的用户评 价。 AI 生成 3D 的能力发展到什么阶段了?它离真正改变游戏、影视、数字人等行业还有多远? 在 4 月 18-19 日举行的 2025 全球机器学习技术大会 (ML-Summit)上,腾讯混元 3D 负责人 郭春超 对此进行了详尽解读,并在会后接受了 CSDN 专访。 令人意外的是,尽管当前 3D AIG ...
AI无限生成《我的世界》,玩家动动键盘鼠标自主控制!国产交互式世界模型来了
量子位· 2025-05-13 03:01
明敏 发自 凹非寺 量子位 | 公众号 QbitAI 用 AI无限扩展《我的世界》 ,动动鼠标、键盘即可搞定! 一直前进、砍掉树木,后面别有洞天的世界,都是由用户与环境交互、AI实时生成的。 也就是说,在砍掉树木之前,树后面的内容还是不存在的。 用鼠标切换视角、环顾环境,丝滑生成连贯画面内容。 哪怕是跳跃,画面也非常稳定,且符合自然世界物理规律。 Minecraft中森林、沙滩、沙漠、冰川、河流、平原等场景都可搞定。 支持基础运动(前后左右)、复合运动、视角移动、跳跃、攻击等细节操作。 而且不局限于《我的世界》, 类Unreal Engine场景泛化 也不在话下。 生成的雨天后的街道,已经非常逼真。 无限逼近画面细节也不崩: 以上,就是 交互式世界模型 最新的重大更新! Matrix-Game ,面向游戏世界建模,专为开放世界生成高质量内容而来。 它 由 昆仑万维 带来,可以让用户通过简单的键鼠指令,自由探索、创作细节丰富且符合现实世界物理规律的虚拟内容; 以 极 低 操作 门 槛, 释放 物理 真实 感 与 创作 自由 度 的 双重 潜力。 要知道,传统方法构建类似效果,往往需要手写代码、渲染视觉效果,耗时 ...
单图直出CAD工程文件!CVPR 2025新研究解决AI生成3D模型“不可编辑”痛点|魔芯科技NTU等出品
量子位· 2025-04-14 09:09
CADCrafter团队 投稿 量子位 | 公众号 QbitAI 单 张图直接就能 生成可编辑的CAD工程文件 ! 来自魔芯科技、NTU等的研究人员提出图生3D新框架,名为 CADCrafter 。 CADCrafter和过去得到网格 (Mesh) 或3D高斯泼溅 (3DGS) 的图生3D方法大不相同。 不管是零件渲染图,还是拍摄的3D打印零件,甚至是随意拍摄的日常生活中的物体,CADCrafter均能够生成的对应的原始CAD文件 (以 CAD指令的方式表示,包括表征每个几何特征的指令和对应参数) 。 并且 通过 C AD编译器进行编译 ,可得到直接生产加工的3D文件 (如STP格式的文件) 。 用户可以通过编辑CAD指令实现对物体的编辑 (下图右) 。 实验中,从落地实用性、表面质量等特点来看,CADCrafter相较于目前的图生3D方法均有显著提升。 这项研究的作者来自KOKONI 3D (魔芯科技) 、新加坡南洋理工大学、新加坡A*STAR、西湖大学、德州大学奥斯汀分校和浙江大学。 通讯作者为魔芯科技创始人Tianrun Chen和新加坡A*STAR研究科学家Fayao Liu。 论文已被CVPR 20 ...
速递|全球首个多模态交互3D大模型来了,GPT-4o都没做到的,它做到了
Z Potentials· 2025-04-14 02:30
在更具挑战性的 3D AIGC 领域, DreamTech 近期推出 Neural4D 2o 多模态大模型, 支持文本及图像输入,实现基于自然语言的交互编辑, 这是全球首个 支持多模态交互的 3D 大模型。 Neural4D 2o 通过文本、图像、 3D 、 motion 等联合训练多模态 transformer encoder 及 3D DiT decoder , 在一个大模型中实现了 3D 生成的上下文一致 性、高精准局部编辑、角色 ID 保持、换装、风格迁移等能力。 此外, Neural4D 2o 也提供了 MCP 协议的支持,部署了 Neural4D Agent(alpha ),帮助用 户更加便捷、高质量地完成 3D 内容创作。 实测效果: 我们上传一张图。 输入 prompt:"保持他的长相、表情和穿着,生成一个全身的Q版形象。" 前些天, GPT-4o的多模态生图上线之后,引发全球AI社区广泛的关注,吉卜力图画全网风靡。 GPT-4o 采用联合文本、图像、语音和视频进行训练,在一个大模型中同时支持了文本、图像、语音等多个模态, 而且其 高度可控,在特征保持,上下文 理解等重要功能使图像生成进入到了 ...