量子位

Search documents
端到端GUI智能体首次实现“犯错-反思-修正”闭环,模拟人类认知全过程
量子位· 2025-06-11 08:07
端到端多模态GUI智能体有了"自我反思"能力!南洋理工大学MMLab团队提出框架GUI-Reflection。 随着多模态大模型的发展, 端到端GUI智能体 在手机、电脑等设备上的自动化任务中展示出巨大潜力。它们能够看懂设备屏幕,模拟人类去 点击按钮、输入文本,从而完成复杂的任务。 然而,当前端到端GUI多智能体的训练范式仍存在明显的瓶颈:当前模型往往使用几乎完美的离线演示轨迹进行训练,使得模型缺乏反思和改 正自身错误的能力,并进一步限制了通过在线强化学习激发和提升能力的可能。 GUI-Reflection 的核心思想是在智能体的各个训练阶段引入 "反思与纠错"机制 ,这一机制贯穿 预训练、监督微调和在线训练 全过程,模 拟了人类 "犯错→反思→重试" 的认知过程。 1. GUI预训练阶段: GUI-Reflection 团队 投稿 量子位 | 公众号 QbitAI 提出GUI-Reflection Task Suite任务套件, 将反思纠错能力进一步分解,让模型在预训练阶段框架让模型初步接触反思类任务,为后续打 下基础。 2. 离线监督微调阶段: 构建自动化数据管道,从已有离线无错轨迹中构建带有反思和纠错的 ...
MSRA清北推出强化预训练!取代传统自监督,14B模型媲美32B
量子位· 2025-06-11 08:07
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI "预测下一个token" ——这个支撑LLM的核心训练机制,正在被强化学习颠覆。 微软亚洲研究院 (MSRA) 联合清华大学、北京大学提出全新预训练范式 RPT (强化预训练) ,首次将强化学习深度融入预训练阶段,让 模型在预测每个token前都能先"动脑推理",并根据推理正确性获得奖励。 传统预训练依赖海量文本进行自监督学习,模型通过简单预测下一个token建立语言能力,作者将之比喻为一块蛋糕胚,而RL只是作为上面点 缀的一颗樱桃。 现在RPT要做的就是 用樱桃直接做蛋糕 ,即将这一过程重构为推理任务,促进模型更深层次理解和提升下一个token的预测准确度。 | | Qingxiu Dong* # | | Li Dong* † | | | --- | --- | --- | --- | --- | | Yao Tang1 Tianzhu YeTs | | Yutao Sun18 | Zhifang Sui+ | Furu Weit | | | 1 Microsoft Research | | | | | | + Peking University | | ...
百度推出真·AI相机,拍照存储管理一步到位
量子位· 2025-06-11 08:07
西风 发自 凹非寺 量子位 | 公众号 QbitAI 百度网盘、文库又双叒联合上新了—— 真· A I相机 来了, 拍 照、存储、管理一 体 。 此AI相机"即拍即存",拍完的照片自动归档至云相册,不用担心手机因空间不足要删照片。 进入相册即可触发智能 分类管理,无需手动翻找陈年旧照,一句话描述就能精准检索目标图片。 更多技能来看官方展示。 它可以秒变美颜相机,修图效果自然,一键定格颜值高光: 拍摄花鸟鱼虫,会触发识别解锁科普: 拍摄简笔画,还能帮你生成创意涂鸦,手残党也能秒变灵魂画手: 在办公场景中,你还可以拍摄发票,立马完成智能扫描;拍摄手写表格图片,一键转为可编辑电子图表;拍照翻译等功能也包含在内。 GenFlow超能搭子升级2.0 背后是百度网盘、文库联合发布的行业首个 全模态的输入、处理、输出 的系统化完整交付。 | . . . | | | --- | --- | | 文 百度文库 × ○ 百度网盘 | | | AI MAU 9700w+ APP MAU超1.5亿 | | | 14亿专业内容资源 登顶AI产品榜 服务10亿用户 | | | | | | 全模态、全格式输入 键盘、AI麦克风、Al相机、 ...
华为版《黑客帝国》首次亮相:训推复杂AI前先“彩排”,小时级预演万卡集群
量子位· 2025-06-11 05:13
训练阶段:类似猛踩油门,但算力、内存、通信如果搭配不当,效率会暴跌; 而数字化风洞在这个过程中起到的作用,就像是一位让AI算力"少踩坑、跑得更快更稳"的智能调度专家。 金磊 发自 凹非寺 量子位 | 公众号 QbitAI 就在刚刚, 华为 首次亮相了一套 "虚" 的技术—— 数字化风洞 ,一个在正式训推复杂AI模型之前,可以在电脑中"彩排"的 虚拟环境平台 。 这套有种《黑客帝国》意味般的技术 (都是通过虚拟世界预演现实) ,是由 华为马尔科夫建模仿真团队 构建,可以 小时级预演万卡集群 方案 。 而之所以要在真枪实弹训推复杂AI模型之前来这么一个步骤,是因为华为研究团队发现,超过60%的算力浪费在硬件资源错配与系统耦合 上。 于是,就像汽车设计师用风洞测试新车性能一样,华为通过这个平台在电脑里模拟AI大模型训练和推理的过程,便提前发现问题并优化配 置。 一言蔽之,为的就是 避免浪费时间和算力 。 更具体来看,如果把运行大模型类比成开一辆高性能赛车,那么当下的痛点就主要集中在三点: 并且是对上述三大痛点逐一击破的那种。 Sim2Train:小时级自动寻优 训练大模型这件事可以说是越来越复杂,例如由于参数量越发 ...
“甲方快乐模型”诞生,拿下平面设计新SOTA!多条件一键生成,还能独立调整元素 | 复旦&字节
量子位· 2025-06-11 05:13
平面设计师有救了! CreatiDesign团队 投稿 量子位 | 公众号 QbitAI 复旦大学和字节跳动团队联合提出 CreatiDesign 新模型,可实现高精度、多模态、可编辑的AI图形设计生成。 △ CreatiDesign能生成各种类型的平面设计图,如电影海报、品牌促销、产品广告和社交媒体图。 AI虽然在文生图领域已取得了很大的突破,但以往方法在处理图形设计时,要么"偏科",要么缺乏精准的可控性。 而CreatiDesign推出了 统一多条件控制的扩散Transformer架构 ,并配套构建了40万样本的大规模多条件标注数据集,满足实际设计需 求。 挑战:需求多、数据少、控制难 在真实的平面设计场景中,用户往往会同时提供: 主视觉元素:(如产品图/LOGO,需保持高度一致性) 辅助装饰元素:(如装饰品,用于衬托主体,需按指定位置排版) 文本内容(如Slogan,需按指定位置排版) 这种"多条件异质融合"对先前的扩散模型提出了三大挑战: CreatiDesign基于MM-DiT(Multimodal Diffusion Transformer)框架,采用极简架构调整,实现了多种异质条件的协同控制: ...
o3绞尽脑汁仅答对40%的题目,开源模型基本乱猜?MMSI-Bench:多图空间智能试金石
量子位· 2025-06-11 05:13
MMSI-Bench团队 投稿 量子位 | 公众号 QbitAI AI能看图,也能讲故事,但能理解"物体在哪""怎么动"吗? 空间智能,正是大模型走向具身智能的关键拼图。 面对1000道多图推理题,开源大模型集体失守——准确率不到30%,甚至不如瞎猜!就连最强的OpenAI o3,也只答 对了41%。 这一专为多图像空间智能设计的 MMSI-Bench 由上海人工智能实验室、香港中文大学、浙江大学、清华大学、上海 交通大学、香港大学以及北京师范大学的研究者们共同完成。 多图像空间智能VQA基准测试 MLLM在连接语言视觉、理解物理世界方面进展飞速,是通往具身AGI的关键。其中,空间智能(即理解物体位置、运 动等空间关系的能力)至关重要,是自动驾驶、机器人导航与操作等应用的基础。 因此,缺乏能检验真实多图像推理的基准,就无法可靠衡量和提升MLLM的空间认知。为此,MMSI-Bench的提出正 是为了弥补这一评测空白。 2. 低估真实世界复杂性 真实空间理解需跨多图像追踪、关联实体。 3. 多图像覆盖不足 现有少数多图像基准对空间智能的覆盖既不全面也不深入。 4. 模板化与合成数据 MMSI-Bench是一个用于 ...
医学领域也有世界模型了:精准模拟肿瘤演化,还能规划治疗方案
量子位· 2025-06-11 05:13
MeWM团队 投稿 量子位 | 公众号 QbitAI 医学领域,也有自己的世界模型了。 来自香港科技大学(广州)、约翰霍普金斯大学等机构的学者联合提出了提出 医学世界模型 (Medical World Model, MeWM) ,赋予了 AI"预演"疾病发展的能力。 MeWM可以 基于临床治疗决策,模拟未来肿瘤演化过程 ,可以为个性化治疗提供可视化、可评估、可优化的辅助。 初始阶段会并行生成B个治疗组合 (称为protocol beams) ,覆盖不同策略空间。 随后, 动态模型 (Dynamics Model) 会针对每个候选方案,利用3D条件扩散模型模拟治疗后肿瘤形态,逐步构建方案执行轨迹。生成的 每一组术后肿瘤候选将交由启发式函数评估。 在这一过程当中, 逆动态模型 (Inverse Dynamics Model) 还会在每一步中对所有候选肿瘤图像进行生存风险的打分。 基于启发式函数输出风险值,并动态替换掉风险最高的beam方案,从而实现低风险方案的优先保留与高风险方案的迭代优化。 具体来说,MeWM主要有三大核心功能: 什么是医学世界模型? MeWM引入了世界模型 (WM) 的理念,构建了"观察–模拟 ...
新“SOTA”推理模型避战Qwen和R1?欧版OpenAI被喷麻了
量子位· 2025-06-11 05:13
然而再一次遭到网友质疑:怎么又不跟最新版Qwen和DeepSeek R1 0528对比? (此前该公司发布Ministral 3B/8B时,声称"始终优于同行",却没有对比Qwen2.5) 闻乐 发自 凹非寺 量子位 | 公众号 QbitAI "欧洲的OpenAI"Mistral AI终于发布了首款推理模型—— Magistral 。 在该模型发布的前几个小时,Mistral AI的CEO Arthur Mensch在接受炉边访谈时声称即将发布的Magistral能够与其他所有竞争对手相抗 衡。 在官方展示的基准测试结果中, DeepSeek-R1 的数据确实不是最新的 (在AIME-25数学测试中,DeepSeek-R1-0528的准确率已经从旧 版的70%提升至87.5%) ,并且比较行列里完全不见 Qwen 的身影。 不过,与同公司初期模型 Mistral Medium 3 相比,该框架在AIME-24上的准确率提升了50%。 此次Magistral发布了两种版本: Magistral Small ——24B参数的开源权重版本,可在Apache 2.0许可下自行部署。 Magistral Medium ...
小扎开9位数薪酬新建AI团队!砸千亿收购华人初创公司,Llama 4太拉胯急坏了
量子位· 2025-06-11 02:27
一边 开出7-9位数的薪酬从谷歌OpenAI等公司挖人 ,组建新的AI实验室。 另一边豪掷148亿美元 (约1063亿人民币) , 收购初创公司Scale AI 49%的股份,还挖来了CEO 。 新实验室在Meta内部被称为"超级智能小组", 大部分成员都是由小扎亲自招募 。 据介绍,小扎这一个月都在频繁接触AI研究人员,试图把他们挖到Meta。 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 对Llama 4表现太失望,Meta CEO扎克伯格急了。 这个实验室的组建, 也将作为Meta AI业务大规模重组计划的一部分 。 有网友调侃说,前COO Sheryl离职后小扎不得不亲自运营Meta。 同时,之前一些问题总有借口蒙混过关,但现在小扎已经学会了马斯克的砸钱模式。 小扎亲自挖人,LeCun动向不明 据介绍,Meta打算建立的新实验室,目标就是研究"超级智能"。 小扎希望借助这个新平台,使Llama模型能够得到改进,并开发出更强大的语音和个性化AI工具。 实验室的 预计规模大约是50人,包括一名主管 ,主管的人选可能是Meta这次收购的Scale AI的CEO。 知情人士透露,小扎已经安排调整了M ...
o3-pro正式推出!说声“嗨”就花了80美元,思考1+1用时16分钟
量子位· 2025-06-11 02:27
而且同一时间,o3模型降价80%不降智。 官方测评结果显示,在专家评估中,所有人一致更偏爱o3-pro而非o3的回答。 一水 发自 凹非寺 量子位 | 公众号 QbitAI OpenAI深夜放大招,正式推出 "最新最强版"推理模型o3-pro ! 此外,o3-pro也一举超越o3、o1-pro,成为当前最擅长数学、科学和编程的OpenAI模型。 OpenAI CEO奥特曼也第一时间激动表示: 这真是太聪明了!我第一次看到它相对于o3的胜率时,简直不敢相信。 目前o3-pro已取代o1-pro,面向ChatGPT的 Pro和Team用户 开放,Enterprise和Edu用户将在下周获得使用权限。 而对开发者来说,o3-pro已经可以通过API接入: 每百万输入tokens收费20美元 (约合人民币143元) ,每百万输出tokens收费80美元 (约合人民币574元) 。 有多贵呢? 温馨提醒,据称一句简单的"嗨"就花了网友80美元(doge)。 或许OpenAI也意识到这个价格确实有点贵,所以另一边赶紧宣布o3降价80%。 o3降价80%不降智 官网显示,o3的最新API价格如下: 每百万输入tokens收 ...