量子位

Search documents
CVPR 2025 Tutorial:从视频生成到世界模型 | MMLab@NTU团队&快手可灵等联合呈现
量子位· 2025-06-05 08:32
MMLab@NTU团队 投稿 量子位 | 公众号 QbitAI 图像生成已经"卷"入日常,视频生成也不再是最初的"抖动幻影",而是跃升为能够讲故事、控制动作、进行较长时推理的高质量动态内容。 视频生成是否能成为通往世界模型的桥梁? 它是否具备成为可执行、可交互、可推理的智能中枢? 它是否正在走向支撑具身智能(Embodied Intelligence)的核心能力? 这些问题将在 CVPR 2025 Tutorial 《From Video Generation to World Models – 从视频生成到世界模型》中深入探讨。 如何将视频生成作为强大的视觉先验,赋能 AI 感知世界、理解交互、推理物理,从而迈向更通用、更具具身智能能力的世界模型。 本Tutorial(教程)汇聚来自学术界与产业界的一线研究者: 他们将在生成建模、3D理解、强化学习与物理推理等方向展开分享,探讨如何将生成能力转化为感知、预测与决策的智能基座。 日程安排一览(CVPR 2025 |6 月 11 日) | Time (GMT-5) | Programme | | --- | --- | | 09:20 - 09:30 | Ope ...
推理时间减少70%!前馈3DGS「压缩神器」来了,浙大Monash联合出品
量子位· 2025-06-05 08:32
比如编码器容量有限,难以处理密集的多视角输入。 而 ZPressor ,一种即插即用的轻量级模块——可以无缝集成到现有的前馈3DGS模型中,增强模型密集视角扩展性和性能。 在36个输入视图下提升4.65dB,推理时间减少70%,显存占用减少80%,并拓展可输入的视图数目到接近500个。 ZIP Lab和Monash团队 投稿 量子位 | 公众号 QbitAI 在增强现实(AR)和虚拟现实(VR)等前沿应用领域,新视角合成 (Novel View Synthesis,NVS) 正扮演着越来越关键的角色。3D高 斯泼溅 (3D Gaussian Splatting,3DGS) 凭借其革命性的实时渲染能力和卓越的视觉质量,迅速成为NVS领域备受关注的技术方案。 现有的前馈3D高斯泼溅 (Feed-Forward 3D Gaussian Splatting,3DGS) 模型,虽然在实时渲染和高效生成3D场景方面取得了显著进 展,但仍存在一些关键缺陷。 信息过载:前馈3DGS的"甜蜜负担" 深入分析现有前馈3DGS模型的架构,可以发现其核心症结在于编码器容量的有限性。 当输入视图变得密集时,编码器难以有效处理随之而来的 ...
抽象小视频秒变特效大片:原视频精髓不变角色环境任意换,Luma出品
量子位· 2025-06-05 08:32
AI爆改视频可以有多夸张? 这么抽象的"过家家"小船,AI直接给原地飞升为在汹涌海浪中前行的帆船。 不仅画面精细、大片视效果,还保留了原视频的动作运镜。 鹭羽 明敏 发自 凹非寺 量子位 | 公众号 QbitAI 或者是进行风格迁移,"给手部扫个X光"。 动作、位置都与原视频几乎一致。 这感觉,自己在家就能当导演手搓CG大片了。 还要什么动捕、建模、特效渲染啊,AI直接全部搞定。 △ 康伯巴奇如何"成为"史矛革巨龙 这就是AI视频模型最新玩法, Modify Video ,直译就是改造视频,由 Luma AI 推出。 它能 重新"想象" 任何视频,类似于人类拍个草稿,AI负责搞定你想要的各种后期视效。 最关键是能对角色、场景、动作进行精准控制,只编辑你想编辑的元素,不会篡改本来的人物动作。 背着孩子骑大马,现在也能秒变驯龙高手。 要知道,现在很多AI视频生成模型都被诟病不受控制,容易让生成的人物、物体动作诡异或者不符合物理规律。 △ 右边为runway效果,人物凭空产生一件夹克 一经发布,这个玩法就在推特火了。 大家在惊呼amazing同时,也自己试玩了一把,效果确实非常nice。 先看下面这个小哥,本来在停 ...
大模型公司挖墙脚哪家强?报告:Anthropic人才吸引力是OpenAI的8倍,留存率达80%
量子位· 2025-06-05 05:00
这一数据来自风险投资公司 Signa lFir e 最新发布的2025人才趋势报告。 西风 发自 凹非寺 量子位 | 公众号 QbitAI 大模型公司挖墙脚哪家强,Anthropic才是最大赢家? 不仅 顶尖AI人才的留 存率达到80 % ,而且工程师从OpenAI跳槽到Anthropic的可能性是从Anthropic转投OpenAI的 8倍 。 不止OpenAI,大型科技公司也是Anthropic主要的人才猎场。 谷歌、Meta、微软、亚马逊和Stripe,不少资深研究员和工程师都被Anthropic挖走了。 其智能引擎Beacon AI平台追踪着超6.5亿专业人士和8000万家组织。 网友看完数据后感叹: Anthropic吸引AI人才就像猫薄荷吸引猫咪一样。 所以,Anthropic到底有什么秘诀啊? 报告详情 Anthropic留存率一马当先 首先来看顶尖AI实验室2021-2023年期间所有新招聘员工的留存率 (2023年2月之后招聘的员工不在统计范围内) 。 留存率指的是两年前入职某公司的员工在第二年年末仍留在公司的占比。 在人才高流动率著称的AI行业中,Anthropic 80%的高留存率尤为亮 ...
大神Karpathy炮轰复杂UI应用没有未来,Adobe首当其冲,网友:不提供文本交互,就是在阻挡AI浪潮
量子位· 2025-06-05 05:00
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 在人与AI高度协同的时代,只有大量复杂UI界面的应用将会被淘汰。 大神Karpathy给出了对于应用程序未来的预言,并特别点名 Adobe、CAD将首当其冲 。 △ ngmi是not gonna make it的缩写 这样说的原因,Karpathy解释, 只有复杂的UI界面而不提供文本交互,就无法和大模型形成有效的人机协同 。 换言之,这类软件没办法满足准专业用户的"氛围式编程"需求。 按照应用当中UI和文本含量的不同,Karpathy还给一些常见的应用划分出了 四个"风险等级" 。 其中提到的部分软件,长这样: 还有人表示,现在Agent的水平已经与人类相当,所以软件开发者要同时考虑人类和AI,甚至是只考虑AI。 看到有人如此强调后端接口的地位,有网友直接给出灵魂拷问—— Karpathy还补充, 虽然AI在UI界面操作上也会取得进步,但开发者如果守株待兔,照样不会有好的发展 。 只有UI界面=没有未来? Karpathy的这番犀利言论,一经发出就引发了广泛的讨论。 支持者Karpathy的人表示, 仅仅依赖复杂的可视化UI,而没有可脚本化的后端的产品 ...
曝苹果AirPods推出睡眠检测等5大新功能,iOS系统也有12年来首次界面设计大改
量子位· 2025-06-05 05:00
苹果AirPods被曝即将迎来五大新功能! 而且大部分都和 用AirPods直接控制iPhone 有关。 一水 发自 凹非寺 量子位 | 公众号 QbitAI 用AirPods控制iPhone相机; 睡眠自动暂停; 支持通过头部动作控制AirPods; 新增"录音室品质"麦克风模式; 在教室场景中,简化AirPods连接到同一iPad的方式。 据9to5Mac爆料,在即将到来的WWDC25大会上,苹果很有可能为AirPods装配以下新功能: 此番上新也直接拉满了一众网友对AirPods的期待值~ 而除了AirPods,9to5Mac也透露了苹果WWDC25大会的更多看点,其中就包括了"自iOS 7以来最大规模的操作系统重新设计"。 Okk,下面咱们一起抢先吃瓜—— AirPods或将新增五大能力 首先声明,对于上述AirPods新功能,照苹果的性子届时可能会选择推迟或部分调整发布。 不过在9to5Mac看来,即使苹果只推出其中的部分功能也"意义非凡"了: 这意味着苹果在现有设备上增加了新功能,而非新功能只出现在新发布的硬件上。 就是说,对老用户更友好一点了~ 下面详细展开几项新功能。 第一,用AirPods控 ...
上海AI实验室造出首个「通才」机器人大脑:看懂世界+空间推理+精准操控全拿下
量子位· 2025-06-05 05:00
上海人工智能实验室联合多家单位提出了一种全新的 通用 具身智能大脑框架:Visual Embodied Brain,简称 VeBrain 。 该模型通过 同时集成视觉感知、空间推理和机器人控制能力 ,可实现多模态大模型(MLLM)对物理实体的直接操控,使机器人能像人类一 样"看到-思考-行动"。 相比现有的MLLM和视觉-语言-动作(VLA)模型,VeBrain具备以下亮点: 统一三类任务的语言建模范式 将机器人控制转化为MLLM中常规的2D空间文本任务,通过关键点检测与具身技能识别等任务,打通感知、推理、控制三大能力的建模路 径; 提出"机器人适配器"实现闭环控制 由关键点追踪、动作控制、技能执行和动态接管模块组成,实现从文本决策到真实动作的精准映射; 构建高质量多能力数据集VeBrain-600k VeBrain团队 投稿 量子位 | 公众号 QbitAI 机器人的新大脑框架来了! 涵盖60万条指令数据,覆盖多模态理解、视觉-空间推理、机器人操作三类任务,辅以多模态链式思维(Multimodal CoT)标注,提升模 型组合推理能力; 卓越的多模态和真机性能 同时实现匹配同参数量下最强开源模型QwenVL ...
突破视频时长限制!Manus上架视频生成功能,网友:比Sora更好
量子位· 2025-06-04 09:14
一水 发自 凹非寺 量子位 | 公众号 QbitAI Manus疯狂更新,视频生成也来了! △ 源自:Manus官方账号 和大多数视频生成AI不同,Manus这次 可以通过连续拼接突破视频时长限制 。 举个栗子,虽然Manus"自述"目前只能通过文本/参考图像生成5s视频,但面对用户提出的15s视频请求,它能根据主题单独生成3个5s视频, 并最终自动合成一个完整故事。 △ 源自:@いしたにまさき 按照官方的说法,仅需一个提示: Manus就能规划每个场景、制作视觉效果,并将您的愿景生动地呈现。 在这种颇具 "智能体style" 的全新视频生成方式中,视频生成开始与Manus平台的其他功能组合发挥作用。 比如根据上图中的提示词,生成《山海经》中的神话形象,并且还需要创建一个类似TikTok的短视频平台来展示。 最终效果be like: 不过 目前该功能仅限Manus会员使用 ,普通用户还要再等等。 第一波网友测试repo 与此同时,第一波氪金选手的测试也新鲜出炉了。 分享更多例子之前,我们先来康康 Manus生成视频需要经历几个步骤 。 比如最终结果是下面这个视频: △ 源自:@いしたにまさき 制作一部日式风格 ...
清华推出AI数学家!独立完成数学理论难题,自动调用基本定理、构建证明思路
量子位· 2025-06-04 09:14
清华AIM团队 投稿 量子位 | 公众号 QbitAI AI数学家 来了!清华团队出品—— 他们推出 AI Mathematician(AIM)框架 ,推理模型也能求解前沿理论研究,并且证明完成度很高。 比如一道吸收边界条件问题。这是分析中涉及方程的经典理论问题,通过构造人工边界得到较为精确的近似解。 AIM部分求解过程如下: AIM给出了方程的能量估计,这是求解这个问题的关键的中间结论。它不仅正确推导了这个结论,在后续证明中加以运用。 这是AIM对于方程的近似解的构造和存在唯一性的证明过程。尽管部分运算细节并没有展示出来,但是这里的证明思路和定理运用都是正确 的,也得到了整个问题中的关键结论。 本次成果的作者包括刘远航、黄砚星、王彦桥、李鹏、刘洋,其中刘远航、黄砚星、王彦桥为论文共同第一作者。 AIM数学家智能体 传统大语言模型在数学领域的突破长期局限于竞赛级问题,LRMs快速发展的数学推理能力也让人类数学工作者期待可以使用大模型进行前沿 数学研究。 当前数学理论的研究主要有以下两大挑战: 数学研究的证明内容需要经过严格验证和精确的分析,而自然语言证明的评估一直缺乏有效方法。 基于此,AIM框架首次将LRM ...
陶哲轩转发!华人数学博士后反超DeepMind AI,停滞18年数学问题1个月内3次突破
量子位· 2025-06-04 09:14
DeepMind于5月14日宣布 AlphaEvolve ,不仅改进了矩阵乘法算法,还取得一系列成果,打破 集合和差问题 (Sums and differences of sets problem)自2007年来的纪录也是其中之一。 这一次,人类方法使用测度集中性来计算渐近值, 只需要少量的计算机辅助 。 不到一个月时间,这个 停滞18年 的问题在人类与AI共同努力下3 次取得突破 。 陶哲轩转发评价道: 对我来说,这生动展示了处理数学问题时,大量计算机辅助、适度计算机辅助和传统"纸笔"方法未来的相互作用,这些模式各有优缺 点。 例如当前的AlphaEvolve很难处理后续论文中使用的渐近构造。 但另一方面,如果不先进行类似AlphaEvolve的半自动化搜索,人类方法也很难找到这些改进的机会。 梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 数学家出手反击AI!对AlphaEvolve在"集合和差问题"上的成果进一步改进。 最新成果来自西班牙数学科学研究所ICMAT的博士后 Fan Zheng , 这次他通过构造一系列特殊的集合U,在极限情况下将集合和差问题θ的下界提升至1.173077。 集合和差问 ...