Workflow
量子位
icon
Search documents
无需NeRF/高斯点后处理,视频秒变游戏模型成现实!新方法平均每帧仅需60秒 | ICCV 2025
量子位· 2025-07-19 05:15
V2M4团队 投稿 量子位 | 公众号 QbitAI 只需一段视频,就可以直接生成 可用 的4D网格动画?! 在该工作中,V2M4首次展示了利用原生3D生成模型,从单目视频生成可用4D网格动画资产的可能性,并展现了其视觉效果与实用性。 V2M4提出一套系统化的五阶段方法,直接从单目视频构建可编辑的4D网格动画资产。该方法以"生成高质量显式网格+拓扑一致+纹理统一"为 目标,从结构、外观、拓扑和时序角度逐步优化模型,输出可直接用于图形/游戏引擎的4D动画文件。 来自KAUST的研究团队提出全新方法V2M4,能够实现从单目视频直接生成高质量、显式的4D网格动画资源。这意味着无需NeRF/高斯点后 处理,可直接导入游戏/图形引擎。 该方法构建了一个系统化的多阶段流程,涵盖相机轨迹恢复、外观优化、拓扑统一、纹理合成等关键步骤,让视频"秒变模型",大幅提升动画 与游戏内容的生成效率与可用性。 论文已被ICCV 2025正式接收。 结果显示,其生成的外观和结构高度还原,平均每帧仅需约60秒处理,比现有方法显著提速;而且还支持「长视频」,在300帧时长的视频上 依然表现优异 视频生成4D动画模型有多难? 从一段视频生成连续 ...
AI“压力面”,DeepSeek性能暴跌近30% | 清华&上海AI Lab
量子位· 2025-07-19 05:15
REST 团队 投稿 量子位 | 公众号 QbitAI 给AI一场压力测试,结果性能暴跌近30%。 来自上海人工智能实验室、清华大学和中国人民大学的研究团队设计了一个全新的"压力测试"框架—— REST (Reasoning Evaluation through Simultaneous Testing) 。 该框架在一个prompt里同时抛给模型多个问题,模拟真实世界中复杂的、多任务并行的推理场景。 如今的大模型在各种推理能力测试中动辄拿下接近满分的成绩。 如果让模型一次做好几道题,它还会那么"神"吗? 团队认为,当前大模型的评测模式普遍存在三大痛点: 区分度低 :在许多基准测试中,顶尖模型的得分已趋于饱和,难以分出高下。例如,7B参数的DeepSeek-R1-Distill-Qwen-7B和671B参数 的DeepSeek-R1在MATH500上的准确率分别为93.0%和97.0%,看似相差不大,但推理能力仍有显著区别。 成本高昂 :由于现有的数学题几乎已经被纳入了大模型的训练数据。为了有效评估,社区不得不持续投入大量人力物力去开发更新、更难的 测试题。但设计这样的测试题需要极高水平的人类专家,一年也出不 ...
大神Karpathy都投的AI实时视频生成模型:直播都能立即转,无限时长几乎零延迟
量子位· 2025-07-19 05:15
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 大神Karpathy都忍不住投资的AI初创,带来首个实时扩散视频生成! 用扫帚当麦克风,用盒子当混音台,无需昂贵设备就能开一场沉浸式直播。 喜欢游戏类型但不喜欢游戏的画面?简单,实时给它改个风格是不是就舒服多了~ 以上,就是AI初创公司Decart的最新 视频模型 MirageLSD 的演示效果,这是首个实现 零延迟无限实时视频生成 的AI模型。 只要你有想象力,Mirage就能实时生成视频流,为你打造专属的魔法世界~ 输入支持直播、游戏、视频通话、相机拍摄、点播等多种形式,可以说是能转尽转了。 主要是Mirage和其他等待时间很久但只能生成5-10秒视频的模型不一样,它 没有时长限制,延迟还降到了40毫秒 以下,说是零延迟也不为 过吧。 响应速度比之前的模型 快16倍 ,实现了 每秒24帧 的实时视频生成,还允许在视频生成过程中进行持续的提示、转换和编辑。 做到了"你随时想,我随时转"! 于是,AI大神 卡帕西 也出来力挺:实时! 同时他还透露自己也是Decart的天使投资人(非常小)。 在视频生成过程中,由于自回归模型每一帧都依赖于前一帧,一个位置偏移 ...
宇树王兴兴,A股上市辅导公告了
量子位· 2025-07-19 05:15
鹭羽 白交 发自 凹非寺 量子位 | 公众号 QbitAI 稚晖君之后,王兴兴也来到了资本市场门口。 创业九年,宇树科技终于走到IPO门前。这次不再是传闻。 中国证监会官网信息,宇树已在浙江证监局办理辅导备案,并且公布了首次公开发行股票 (IPO) 并上市辅导案报告。 这标志着宇树科技正式冲刺A股上市。 王兴兴持股也随即曝光,直接持股23.82%,并通过有限合伙平台合计控制34.76%股权。 关于"具身智能第一股"花落谁家,又开始有了悬念。 宇树科技启动IPO 顺利的话,最快将于2025年10月对公司进行综合评估,形成符合要求的上市申请文件。 | 辅导对象 | 杭州宇树科技股份有限公司(以下简称"字树科技"、"公司") | | | | --- | --- | --- | --- | | 成立日期 | 2016年8月26日 | | | | 注册资本 | 36,401.7906 万元 | 法定代表人 | 王兴兴 | | 注册地址 | 浙江省杭州市滨江区西兴街道东流路 88号 1幢 306 室 | | | | 控股股东及持 | 公司控股股东、实际控制人为王兴兴先生,其直接持有公司 | | | | 股比例 | 23. ...
DeepSeek终于丢了开源第一王座,但继任者依然来自中国
量子位· 2025-07-18 08:36
| | Rank (UB) ↑ Model 14 | | Score fJ | | 95% Cl (±) 1J Votes 1 | Organization 14 | License ?! | | --- | --- | --- | --- | --- | --- | --- | --- | | | 1 | G gemini-2.5-pro | 1462 | +41-5 | 19,209 | Google | Proprietary | | | 2 | 03-2025-04-16 | 1452 | +3/-4 | 25,442 | OpenAl | Proprietary | | | 3 | S chatgpt-4o-latest-20250326 | 1443 | +3/-3 | 26,230 | OpenAl | Proprietary | | | 3 | S gpt-4.5-preview-2025-02-27 | 1437 | +4/-5 | 15,271 | OpenAl | Proprietary | | | 3 | X grok-4-0709 | 1437 | +6/-7 | 5,725 | X ...
8个月晋升独角兽,欧洲版Cursor估值18亿美元
量子位· 2025-07-18 08:36
时令 发自 凹非寺 量子位 | 公众号 QbitAI 成立仅8个月已成为 最新独角兽 , 估值飙升至 18亿美元 。 目前已拥有超 230万 免费活跃用户、 18万 付费订阅者,付费用户首月留存率甚至已 超ChatGPT 。 这不是硅谷神话,而是来自瑞典的AI新星—— L ovab le ,正在用自然语言重塑编程方式。 近日,这家公司完成了瑞典史上最大规模的A轮融资,成功筹集2亿美元。 上线数月,Lovable一直好评如潮。 有人表示Lovable让他感到惊艳,在尝试了一些开发平台(Bolt,V0,Replit)都无法完成的情况下,它竟然在短短几个小时内就生成了一个 完整的产品网站。 还有人用它生成一款新游戏。 欧洲版Cursor 与Cursor一样,Lovable也致力于利用大模型帮助用户开发应用,但它瞄准的是一个潜力更大的用户群体——那些不会编程的人。 甚至有人计划用它在30天内建立一家初创公司,整个过程全程公开。 公司在一份新闻稿中表示,这类用户及其测试活动,很可能构成了迄今为止平台上创建的1000万个项目的主要来源。 公司联合创始人兼首席执行官Osika称 : 我们的使命是让任何人都能构建。 借助大模 ...
7B模型“情商”比肩GPT-4o,腾讯突破开放域RL难题,得分直翻5倍
量子位· 2025-07-18 06:16
Core Insights - The article discusses the challenges and solutions in optimizing large models for emotional intelligence in multi-turn dialogues using Reinforcement Learning (RL) [2][4][5] - The proposed RLVER framework integrates a user simulator that acts as both the interaction environment and the reward source, addressing the three main challenges of RL in this context [2][5][11] Group 1: Challenges in RL for Emotional Intelligence - The three main challenges identified are: 1. Environmental challenge: Creating a realistic and diverse interaction environment for the model [2][4] 2. Reward challenge: Converting subjective user satisfaction into stable, long-term rewards [2][11] 3. Training challenge: Achieving stable and efficient multi-turn online RL training on large language models (LLMs) [2][4] Group 2: RLVER Framework - The RLVER framework utilizes a user simulator that embodies diverse user profiles and interaction scenarios, allowing for a rich and dynamic learning environment [7][8] - This simulator updates its emotional state based on the model's responses, providing personalized feedback that enhances the model's learning experience [9][10] Group 3: Performance Outcomes - The Qwen2.5-7B model, trained using RLVER, achieved a score of 79.2 on the Sentient-Benchmark, a significant increase from 13.3, positioning it alongside top commercial models like GPT-4o and Gemini 2.5 Pro [16][17] - The model maintained its general capabilities in areas like mathematics and coding, avoiding "catastrophic forgetting" [17] Group 4: Insights from Training - The introduction of explicit "think-then-say" prompts improved the model's ability to understand and respond empathetically, leading to two distinct paths towards empathy: "thinking models" and "reactive models" [20][21] - The choice of optimization algorithms (PPO vs. GRPO) revealed that focusing on specific dimensions of emotional intelligence can yield better overall performance [23][27] Group 5: User Simulator Insights - The RLVER team created two types of user simulators, with findings indicating that a more forgiving environment (Vanilla simulator) is beneficial for early-stage model growth compared to a more challenging environment [29][30] - Models with explicit thinking structures demonstrated greater robustness in challenging environments, suggesting that reasoning capabilities can mitigate training instability [33]
大模型IMO25数学竞赛成绩公布了
量子位· 2025-07-18 06:16
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI Gemini 2.5 Pro拔得头筹,大模型挑战IMO 2025的成绩出炉了! 经过人工评判, Gemini以超30%的总成绩断崖式领先 ,超出第二名89%。 o3和o4-mini则位列第二、三名,Grok 4得分只有11.9,但成本比Gemini还高出了22%。 还有网友想到了之前拿下IMO银牌的AlphaProof,好奇如果让它来挑战结果会怎样。 下面就来了解下这场测试的详细情况~ 统一环境,双人匿名评估 这场测试由 MathArena 组织,基于模其在MathArena竞赛中的既往表现,选择的被测模型包括Gemini 2.5 Pro、o3(high)、o4-mini (high)、Grok 4和DeepSeek-R1(0528)。 为了公平,测试对所有被测模型采用统一的提示词模板,该模板与Open Proof Corpus评估相同。 每个模型均使用推荐的超参数运行,最大Token数量限制为64000。 | Your task is to write a proof solution to the following problem. Your pr ...
Meta全新AI组织架构曝光,这范儿有点字节
量子位· 2025-07-18 06:16
编辑部 发自 纽凹非寺 量子位 | 公众号 QbitAI 就在Meta内部一系列组织调整后,全新的架构正在初步浮出水面。不过不看不知道,一看真是哪里见过…… 都知道小扎用人均上亿美元薪酬包组队"超级智能实验室",不过最新消息是内部围绕这个实验室,已经整合出了3400多人的新组织。这个新组 织的头号负责人是 Alexandr Wang (亚历山大·王) ,title是首席人工智能官 (CAIO) ,副手是前GitHub首席执行官Nat Friedman,主 要分管AI产品和应用。 扎克伯格哐哐哐挖人,现在算是大概清楚了。 这个调整之后,AI三巨头之一的图灵奖得主 Yann LeCun ,都转向97年MIT本科辍学的亚历山大汇报了。 不过这确实不是重点,重点是这3400多人都被如何重新分工。 据说总共有4组: 这这这,不就是扎克伯格这几年朝思暮想、咬牙切齿的字节跳动的AI架构吗? 吴永辉领导的Seed,搞最前沿的AGI研究。也有基础模型技术和架构。 然后产品团队在AI基台上应用和打造产品。 唯一不同的是Meta还有一个新团队搞Llama 5,因为亚历山大在开源和闭源这件事上正在动摇小扎,所以可能会搞出两条腿走路— ...
突破户外RGB-only SLAM尺度漂移难题,精确定位+高保真重建 | ICCV'25开源
量子位· 2025-07-18 06:16
S3PO-GS团队 投稿 量子位 | 公众号 QbitAI 户外SLAM的尺度漂移问题,终于有了新解法! 香港科技大学(广州) 的研究的最新成果: S3PO-GS ,一个专门针对户外单目SLAM的3D高斯框架,已被ICCV 2025接收。 项工作的亮点在于首次实现了RGB单目SLAM的全局尺度一致性。在Waymo、KITTI和DL3DV三大户外基准测试中,S3PO-GS不仅在新视角 合成任务中刷新了SOTA纪录,更是在DL3DV场景中将跟踪误差降低了77.3%。 这篇文章做了什么? 在自动驾驶、机器人导航及AR/VR等前沿领域,SLAM技术的鲁棒性直接影响系统性能。 当前基于3D高斯(3DGS)的SLAM方案虽在室内场景表现卓越,但在仅依赖RGB输入的无界户外环境中仍面临严峻挑战: 单目系统固有的深度先验缺失导致几何信息不足,而引入单目深度估计或端到端点云模型(如MASt3R)作为几何先验时,又因帧间尺度不一 致性引发系统级尺度漂移,该问题在复杂户外场景尤为突出。 针对这一双重瓶颈,香港科技大学(广州)研究团队提出创新框架 S3PO-GS ,首次实现RGB单目SLAM的全局尺度一致性。 该方案通过三大核心技术 ...