Workflow
量子位
icon
Search documents
无需昂贵设备,单目方案生成超逼真3D头像,清华&IDEA新研究入选CVPR2025
量子位· 2025-05-22 14:29
HRAvatar团队 投稿 量子位 | 公众号 QbitAI 创建3D头像化身对于电影、游戏、沉浸式会议、AR/VR等领域至关重要。在这些应用中,头像化身必须满足几个要求:可动画化、实时、高 质量和视觉上逼真。 然而,从易获取的单目视频中创建高度逼真且可动画化的头像仍然具较大的挑战性。尽管基于3D 高斯(3DGS)的方法在可动画性和实时渲 染方面取得进展,但其重建质量仍受三方面限制。 几何变形灵活性不足 :现有方法依赖通用参数模型(3DMM)驱动高斯点变形,难以准确捕捉个性化表情变化; 表情追踪不准确 :训练前通过2D关键点拟合获取表情参数不够准确,直接优化表情参数则泛化性差,需在测试时进行后优化; 在数字人、虚拟主播、AR/VR等场景快速发展背景下,如何高效生成真实、可动、可重光照的3D头像成为关键。 来自 清华 和 IDEA 的研究团队,联合开发了 HRAvatar (High-Quality and Relightable Gaussian Head Avatar),一种基于单目视频 的3D高斯头像重建方法。采用 可学习形变基和线性蒙皮技术 ,实现灵活且精确的几何变形,并通过精准的表情编码器减少追踪误差 ...
AI十周找到不治之症潜在新疗法,核心流程完全自主驱动
量子位· 2025-05-22 14:29
西风 发自 凹非寺 量子位 | 公众号 QbitAI 无特效疗法、无法根治的疾病,现在被「AI科学家」发现了潜在新疗法。 核 心流程完全由 AI驱动 ,人类研究员仅执行了实验室实验和最终论文撰写的那种。 最近非营利性组织Future House宣布了一个最新成果: 可以致盲的眼部疾病—— 干 性年龄相关 性黄斑变性 (dAMD) ,或许有救了。 他们用一个 多智能体系统 ,成功锁定 Ripasudil 这种已在日本获批用于临床治疗青光眼的ROCK抑制剂,对这种病具有潜在治疗效果。 团队咨询了多位有关此疾病领域的专家,均对这一发现的创新性和价值持认可态度。 重要的是,除实验室实际物理实验操作和最终手稿撰写外,论文形成所需的核心环节均由智能体完成,包括提出假设、实验设计、数据分析到 迭代优化的全流程。 甚至Agent还协助完成了论文图表的绘制。 整个研究仅耗时约10周 ,远短于研究团队手动完成所有计算机模拟环节的时间。 团队还特别说明,他们此前从未在其他文献中发现有人提出使用ROCK抑制剂治疗dAMD: 如果没有这些Agent,我们很难提出这一假设。 另外研究团队还表示, 将在下周开源代码和数据 。 这一成果公布 ...
小学数学题,大模型集体不及格!达摩院推出新基准VCBench
量子位· 2025-05-22 14:29
大模型做数学题的能力很强,可是它们真的能够理解基本的数学原理吗? 拿小学生的数学题进行测试,人类平均得分为93.30%,而大模型的表现让人意外: 闭源模型中Gemini2.0-Flash(49.77%)、Qwen-VL-Max(47.03%)、Claude-3.7-Sonnet(46.63%)的综合表现最佳,但仍未突破50% 准确率。 why? 因为大模型可能并不能真正理解基本数学元素和视觉概念。 现有的视觉数学基准测试主要集中在知识导向的评估上,容易受到大型语言模型中预先嵌入的知识的影响。 上述结论来自达摩院推出的新基准 VCBench ——这是一个专为评估 具备显式视觉依赖性的多模态数学推理任务 而设计的综合基准。 VCBench团队 投稿 量子位 | 公众号 QbitAI 该基准主要面向小学 1-6 年级的数学问题,即 并不涉及复杂的数学或几何推理,但高度依赖于显式的视觉依赖性 的问题。 解决这种问题,需要模型识别和整合图像中的视觉特征,并理解不同视觉元素之间的关系。 △ 论文标题:Benchmarking Multimodal Mathematical Reasoning with Explicit ...
首个AI翻译实战榜单出炉!GPT-4o稳坐天花板,文化方面Qwen系列一马当先丨开源
量子位· 2025-05-22 14:24
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI AI替咱打工搞翻译,到底谁家最好用? 终于,有人来统一翻译江湖的标准了: 首个应用型AI翻译测评榜单TransBench在OpenCompass上线 。 它由阿里国际AI Business团队联合上海人工智能实验室、北京语言大学共同发布。 与传统的翻译测评体系相比,TransBench 增加了幻觉率、文化禁忌词、敬语规范等指标 ,专门针对大模型翻译最容易出错的关键问题进行 实战考核。 比如: 这是首次针对行业的细分领域构建评测数据和评测方法。这些指标均来自真实场景的使用反馈,由此来测评大模型是否符合大规模应用的标 准。 目前, TransBench评测方法与数据集已全面开源 ,也已发布了首期测评结果。 欢迎各个AI翻译机构去打榜,一较高下~ GPT-4o稳坐"翻译AI天花板" 官网表示,TransBench数据集中涵盖中、英、法、日、韩、西班牙等多种语言。 此外,还在不断持续更新海量小语种。 TransBench评测体系中的数据集,根据"通用标准""电商文化""文化特性"三个大类,整理了不同的数据集。 目前,TransBench多语言翻译评测榜单首期已经出 ...
雷军发布小米自研3nm芯片系列新品:首搭手机平板和手表,基带模块也亮相了
量子位· 2025-05-22 14:24
克雷西 西风 发自 凹非寺 量子位 | 公众号 QbitAI 刚刚,小米 自研SoC芯片玄戒O1 终于揭开神秘面纱! 采用最先进的 第二代 3nm制 程 ,能效表现位列第一梯队—— 发布全程,雷军都在将这块芯片与苹果最先进手机芯片做对标。 玄戒O1 采用双超大核设计,CPU多核性能跑分超越苹果A18 Pro,GPU曼哈顿帧率更是比A18 Pro提升了43%。 与此同时,搭载玄戒O1的小米15S Pro手机也同步发售,16+512GB售价5499。 雷军官宣玄戒O1采用的是3nm制程之时,关键词"3nm"一度登上热搜榜首,连续在榜时间达到了近9个小时。 今天,与小米相关的话题占据了多个热搜词条,"小米发布会"也曾登上首位。 多项指标超越苹果A18 Pro 作为小米首款自主研发的SoC,玄戒O1采用了当前最先进的第二代3nm制程,在109mm²的空间内堆下了190亿颗晶体管。 核心方面,玄戒O1采用了10核4Cluster架构,与苹果一样采取了双超大核结构,包含了两颗Arm最新的X95超大核。 先看综合成绩,玄戒O1芯片的安兔兔实验室综合跑分已经超过了300万,位列第一梯队。 超大核主频达到了3.9GHz,拥有2 ...
一场对话,我们细扒了下文心大模型背后的技术
量子位· 2025-05-22 12:34
金磊 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI "我们已经过渡到了可以进行复杂推理的下一个模型范式。" OpenAI CEO奥特曼在年度总结中,给出了他关于大模型未来发展的论断。 推理模型的重要性正在上升,成为了继基础模型之后各家厂商厮杀的新战场。 推理模型百家争鸣,究竟 哪家能力 更强?最近,这个问题有了答案。 近期, 中国信息通讯研究院 (信通院)发布了一项最新的大模型推理能力评估成绩,结果显示—— 文心X1 Turbo 在24项能力评估中,16项达5分、7项达4分、1项达3分,综合评级获当前 最高级"4+级" 。 而且还是国内首款,也是唯一通过该测评的大模型。 为什么文心能够入围"4+级"? 在百度刚刚举办的 AI Day 活动中, 百度集团副总裁吴甜 深入浅出地对其最新大模型,从模型、数据、应用等诸多方面做了深度解析和科 普,我们也与 她进行了一番对话 。 不妨从中来挖掘这个问题的答案。 △ 百度集团副总裁,吴甜 多模态融合,模仿人类思考 演讲中,吴甜介绍了文心大模型最新进展,也就是其在上个月发布的 文心4.5 Turbo 和 文心X1 Turbo : 两个新模型的核心亮点,也代表了文心 ...
奥特曼64亿美元联手强纳肾:OpenAI冲刺硬件iPhone时刻
量子位· 2025-05-22 03:21
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 苹果元老级人物、前首席设计官初创公司,OpenAI斥巨资收入囊中! 我希望我们能够带来我 30 年前第一次使用苹果电脑时所感受到的那份喜悦、惊奇和创造力 。 随后又在上激情发帖: 在我看来,Jony是世界上最伟大的设计师! 很兴奋来尝试创造新一代的AI计算机。 抓马又搞笑的事情是,这条推文下面首评写道: Jony Ive (中国果粉们称他为" 强纳肾") ,这位曾主导设计iMac、iPod系列、iPhone、iPad、MacBook系列的传奇设计师,一手创立的 AI硬件 初创公司, 现在 以64亿美元身价 ,卖身OpenAI。 Jony Ive本人也被招至麾下,担任OpenAI创意总监,全面负责OpenAI产品的设计工作,包括软硬件设计。 据了解,OpenAI特地新设了一个专用于开发AI硬件的部门。 在OpenAI放出的2人近10分钟的谈话视频中提到, 就在明年,二者合作的第一代产品将面世推出。 奥特曼对Jony以及双方要做的事不吝溢美之词。 先是在OpenAI官网公开信中表示: 使用技术的意义可以发生深刻的变化。 我一开始以为这是Veo 3生成的视频…… ...
AI也能当情感大师?腾讯发布最新AI社交智能榜单,最新版GPT-4o拿下第一
量子位· 2025-05-22 03:21
腾讯混元AI数字人团队 投稿 量子位 | 公众号 QbitAI 判断AI是否智能,评价维度如今已不仅限于刷榜成绩。 SAGE :每个感知智能体都有"人生剧本" 当大模型在"IQ"上不断实现新的突破,"懂人心"、"解人意"开始成为实际应用中,人们对大模型新的要求。 所以,AI的"EQ"又该如何评价? 由腾讯混元AI数字人团队打造的全新自动化评估框架—— SAGE(Sentient Agent as a Judge) ,回答了以下的两个问题: 在该框架下,最新版GPT-4o表现最好,GPT-4.1、Gemini-2.5系列紧随其后。 SAGE:让AI模拟"有感情的人",来评测另一个AI SAGE不只是看模型答得好不好,而是构造一个 模拟人类心理的"有感知力的"AI智能体 ,让它像人一样参与多轮对话、模拟情绪变化、生成 内心独白,并最终评估对话质量。 可以拆解出两个关键词: 这位"AI人类",每轮对话都会认真思考: 甚至,它还会给出聊天过程中的"内心独白": 是不是有点像我们和那些"听了半天还是不懂我意思"的朋友聊天的真实感受? 如何评价AI是否真正具有"共情力"?—— TA能否理解我的情绪、洞察我的潜台词、在我脆 ...
24B模型编程超DeepSeek全家桶,32G内存苹果电脑就能跑,专门针对真实GitHub Issue训练
量子位· 2025-05-22 03:21
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI Mistral沉默好久,果然在憋大招。 刚刚发布最新开源编程模型 Devstral ,在软件工程任务上一举超过DeepSeek全家桶和Qwen3 235B。 并且参数只有24B,可以在单卡RTX4090甚至32G内存的Mac上运行。 Devstral专为编程智能体推出,解决传统大模型只擅长碎片化的编程任务,难以解决现实世界软件工程的问题。 它 针对真实的GitHub Issue训练 ,重点在大型代码库中代码的上下文理解、识别不同组件间的关系,以及识别复杂函数中的细微错误。 最新开源代码模型实际表现 合作开发方All Hands AI联创分享了Devestral给他带来的"惊喜时刻": 当被要求写一个待办事项列表APP时,AI没有直接开始写,而是询问用户想要使用哪些技术栈。 在包含500个真实GitHub Issue问题的SWE-Bench Verified基准测试中,Devstral不仅成为开源SOTA,还优于许多同等参数规模的闭源模 型。 Devstral由Mistral AI和All Hands AI合作开发,使用Apache2.0开源许可。与上一款代 ...
全球智能体榜单新SOTA!中国公司登顶,Office三件套一键生成,全程可控可溯源,打工人直接拿来用
量子位· 2025-05-22 02:01
左超Manus,右跨Genspark,GAIA榜单上又一家中国公司登顶! 白交 发自 凹非寺 量子位 | 公众号 QbitAI 天工超级智能体(Skywork Super Agents) ,出自昆仑万维,今日刚一上线即霸榜。 Agent赛道开始热闹之后,GAIA就成为大家摩拳擦掌的竞技场。 作为一个评估Agent解决实际问题能力的基准,它包括450个问题,这些问题需要不同级别的工具支持和自主能力,为此它还划分了三个Level 水平。 结果能够看到,天工超级智能体(Skywork Super Agents)在前两个Level都以较大分数超过Manus和OpenAI的Deep Research,最后一 个较高难度的Level 3,能力与Manus持平。 另外,它还在SimpleQA排行榜上,实现了对OpenAI和当前SOTA的超越。 除了在排行榜表现惊艳,它还有很多与其他产品不同的细节点。 摘一个最重要的(对打工人最友好的)来说。 它支持五种模态一站式生成,包括Office三件套(Word、PPT、Excel)、网站、网页、播客,一应俱全。 而且生成的结果可溯源、可编辑,还有类似NotebookLM的在线私人知识 ...