Workflow
机器之心
icon
Search documents
南大联合LibLib.ai、中科院自动化所,共同提出布局推理与精准编辑「海报设计大模型」PosterCopilot
机器之心· 2025-12-10 08:13
来自南京大学 PRLab 的魏佳哲、李垦,在准聘助理教授司晨阳的指导下,提出专业级海报设计与编辑大模型 PosterCopilot 。本研究联合了 LibLib.ai 、 中国科学院自动化研究所等多家顶尖机构,共同完成了首个解耦布局推理与多轮可控编辑的图形设计框架研发。PosterCopilot 能够实现专业设计级的版式 生成、语义一致的多轮编辑,并具备高度可控的创作能力。 此外,受华为-南京大学鲲鹏昇腾科教创新孵化中心支持,该模型已完成对国产昇腾算力平台的适配与部署,进一步推动了国产 AI 设计技术的发展与落地。 行业痛点: 从生成式失控到多模态「盲推」 平面设计是视觉传达的基石,但要实现真正的自动化专业设计,目前仍面临巨大挑战。尽管以 Stable Diffusion 为代表的文生图(T2I)模型在图像合成上 表现强劲,但在实际的工业设计流中,它们因无法处理分层结构,往往导致用户素材失真且无法进行精细化控制。 论文标题: Poster Copilot: Toward Layout Reasoning and Controllable Editing for Professional Graphic Des ...
告别专家依赖,让机器人学会自我参考,仅需200步性能飙升至99.2%
机器之心· 2025-12-10 05:10
Core Insights - The article discusses the development of the Self-Referential Policy Optimization (SRPO) framework, which enhances the performance of Visual Language Action (VLA) models in robotic tasks by addressing the challenges of sparse rewards and dependency on expert demonstrations [3][11]. Motivation and Contribution - Recent research indicates that reinforcement learning (RL) can significantly improve VLA models' performance both within and outside their training distribution. However, the challenge of sparse reward signals remains, particularly in VLA tasks where high computational costs and inefficient use of failure trajectory information hinder training efficiency [6][11]. - The SRPO framework alleviates the dependency on expert demonstrations and task-specific reward engineering by utilizing self-generated successful trajectories to provide progressive rewards for failed attempts [11][12]. Technical Approach - SRPO employs a "learn from success" paradigm, where trajectories generated during policy inference are collected and categorized into successful and failed attempts. The framework uses a potential world representation to model behavior similarity and calculate progressive rewards [14][16]. - The framework formalizes the robotic decision-making process as a partially observable Markov decision process (POMDP), introducing a world model-driven reward modeling mechanism that provides progressive reward signals for failed trajectories [18][19]. Experimental Results - SRPO achieved a success rate of 99.2% with only 200 steps of reinforcement learning, significantly outperforming baseline models that rely on sparse rewards or require manual reward design [27]. - In the LIBERO-Plus generalization tests, SRPO demonstrated a performance improvement of 167%, even without training on any generalized scenario data [30]. Efficiency and Real-World Application - The efficiency of SRPO is highlighted by its ability to improve success rates from 17.3% to 98.6% in long-term tasks with minimal training steps, showcasing its superior information utilization compared to traditional methods [34]. - The reward modeling of SRPO has been tested in real-world environments, showing significant success rate improvements for various tasks [37]. Conclusion - SRPO represents a significant advancement in VLA reinforcement learning, enabling robots to transition from imitation to autonomous exploration without the need for expensive data labeling or complex reward designs [51].
Mistral再开源!发布代码模型Devstral 2及原生CLI,但大公司被限制商用
机器之心· 2025-12-10 05:10
机器之心报道 编辑:Panda 刚刚,「欧洲的 DeepSeek」Mistral AI 再次开源,发布了其下一代代码模型系列: Devstral 2 。 该系列开源模型包含两个尺寸:Devstral 2 (123B) 和 Devstral Small 2 (24B)。用户目前也可通过官方的 API 免费使用它们。 此外,Mistral AI 还发布了自家的原生 CLI: Mistral Vibe 。 Mistral AI 的进击速度令人咋舌。仅仅一周前, 他们才发布 Mistral 3 系列模型 ,被视为欧洲正式以此跻身 AI 前沿竞争的序幕。仅仅过了 7 天,Devstral 2 系列与 Mistral Vibe 便紧随其后问世,这种高频的发布节奏,似乎正在印证人们对欧洲 AI 崛起的判断。 考虑到 Mistral 近期在欧洲的大幅扩张,以及图灵奖得主 Yann LeCun 回到欧洲创业的消息,欧洲大陆这片 AI 热土的未来风景,或许值得我们投入更多期待。 亮点汇总 下面是 Mistral 官方总结的核心亮点: 下面来具体看看 Mistral AI 今天新发布的模型和工具。 Devstral:下一代 SOT ...
一手实测 | 智谱AutoGLM重磅开源: AI手机的「安卓时刻」正式到来
机器之心· 2025-12-10 05:10
Core Viewpoint - The article discusses the launch of Open-AutoGLM, an open-source AI assistant framework that enables users to automate tasks on their smartphones using natural language commands, marking a significant advancement in AI technology and user interaction [6][10][42]. Group 1: Introduction to AutoGLM - AutoGLM is a project developed by Zhipu AI, aiming to create an intelligent agent that can not only "speak" but also "act" on smartphones, representing a milestone in AI's ability to use tools [12]. - The framework consists of a Phone Agent and a 9B model, AutoGLM-Phone-9B, which allows for complex task automation through voice and touch commands [6][19]. Group 2: Technical Implementation - The Phone Agent relies on three core technologies: ADB (Android Debug Bridge) for device control, a visual-language model (VLM) for understanding screen content, and intelligent planning for task execution [17][18][19]. - AutoGLM's ability to analyze UI layouts and perform actions like a human is a key feature that distinguishes it from traditional automation scripts [12][31]. Group 3: Practical Applications - The article provides examples of AutoGLM successfully executing tasks such as sending messages and updating applications, demonstrating its robust performance and adaptability [22][28][30]. - AutoGLM can handle multi-step operations and interact with various applications, showcasing its versatility as an AI assistant [33]. Group 4: Open Source and Privacy - The open-source nature of Open-AutoGLM allows developers and users to run the AI model locally, ensuring data privacy and transparency [36][39]. - This approach contrasts with existing AI assistants that often rely on cloud processing, which raises concerns about data security [37][38]. Group 5: Industry Impact - The launch of Open-AutoGLM is seen as a potential turning point in the AI assistant market, democratizing access to advanced automation tools and reducing reliance on proprietary platforms [39][42]. - The article suggests that this development could lead to a new era of human-computer interaction, where AI assistants become integral to everyday tasks [42].
Percept-WAM:真正「看懂世界」的自动驾驶大脑,感知到行动的一体化模型
机器之心· 2025-12-10 02:09
在过去几年,自动驾驶圈流行一句话: 「大模 型会说话,但不会开 车。」 一方面,大规模视觉语言模型(VLM)在文本理解和逻辑推理上突飞猛进;另一方面,一旦把它们放到真实道路上,让它们处理长尾场景、远距离目标和复杂博 弈时,这些 "聪明大脑" 却常常犯低级错误:看不清、定位不准、反应不稳定。深层原因在于 —— 现有 VLM 在空间感知和几何理解上的能力,远远跟不上它们在 语义层面的 "表达能力" 。 为了让大模型真的能 "看懂世界",在很多现有方案中,研究者会在训练中加入一些 "感知类 QA" 问题,比如问 "左前方有没有车""两车距离有多远"。但这类监督 更多停留在语义标签和粗略相对关系层面,并没有让模型真正学会可用于控制决策的强 2D/3D 感知能力 —— 例如精确、稳定的检测框、分割结果和 BEV 感知信 息。换句话说,今天很多 VLA 仍然停留在「会回答关于世界的问题」,而不是「真的看清这个世界」。这种 "弱感知的大模型",显然不足以支撑自动驾驶和广义 具身智能对空间理解的高要求。 近日,来自引望智能与复旦大学的研究团队联合提出了一个面向自动驾驶的新一代大模型 ——Percept-WAM(Percept ...
大模型「有心了」:首个情感大模型Echo-N1,32B胜过200B
机器之心· 2025-12-10 02:09
机器之心报道 机器之心编辑部 长期以来,大模型圈流传着一个诅咒:LLM 懂微积分、会写 Python,但在情感这件事上,它们全是「直男」。 即使是 GPT-4,在面对人类细腻的情感崩溃时,往往也只能吐出 "多喝热水"、"别难过,一切都会好起来的" 这种正确的废话。原因很简单:「情商」没有标准答 案,传统的强化学习(RL)根本无从下手。 但今天,这个诅咒被打破了。 近日, 来自 NatureSelect(自然选择)的研究团队 Team Echo 发布了 首个情感 大模型 E cho-N1 ,提出了一套全新的「情感模型训练方法」,成功将 RL 用在了 不可验证的主观情感领域。 结果相当震撼: 1. 无法量化 : 用户一句 「I'm fine」 背后可能藏着崩溃、无奈甚至拒绝沟通,传统的标量奖励根本无法有效捕捉这种细微的情绪信号。 2. Reward Hacking : 模型为了拿高分自然学会了堆砌华丽辞藻,经常说些不痛不痒的美丽的废话,对缓解用户情绪不仅毫无帮助,甚至可能适得其反。 3. 评测失真 : 通过基于 SOTA 闭源模型(GPT-4,Claude-4.5-sonnet,Gemini-2.5-pro)的打 ...
Light-X来了!全球首个「镜头×光照」双控4D视频生成框架,单目视频秒变电影级
机器之心· 2025-12-09 08:41
仅凭一段随手拍摄的单目视频,是否能够让镜头在空间中自由飞行,让光线随意变换,让原本固定的真实场景在全新的视角与照明条件下被再次「拍摄」?这一 过去被视作科幻设想的问题,如今迎来了明确答案。 近日,新加坡南洋理工大学 S-Lab、北京智源人工智能研究院(BAAI)、华中科技大学、清华大学智能产业研究院(AIR)等多家科研机构联合推出 Light-X —— 全球首个实现「镜头 × 光照」双维度可控 的 4D 视频生成框架 。Light-X 让「按用户意图重新导演一段视频」成为现实:既能自由规划镜头轨迹、生成任意新视角 内容,也能灵活调整光源方向、亮度与风格 —— 从电影级布光到赛博霓虹氛围,都能在一段普通视频中轻松实现。 研究背景 现实世界的视觉体验由几何、运动和光照共同构成,而我们日常拍摄的单目视频,只是这一复杂四维时空的二维投影。若能在拍摄后重新控制镜头位置、自由调 节光照条件,那么普通视频就能具备「可重拍摄」、「可再导演」的能力。无论是电影制作、虚拟拍摄,还是 AR/VR 内容生成,都将受益匪浅。 现有研究大多沿着两条彼此独立的路线发展: 论文名称:Light-X : Generative 4D Video ...
地平线首曝BPU「黎曼」架构,用数学流形重构AI计算
机器之心· 2025-12-09 08:41
机器之心报道 机器之心编辑部 2012 年 12 月,美国太浩湖畔 Harrah's 酒店的 731 房间,一场足以载入 AI 史册的秘密竞拍正在进行。 彼时,余凯代表百度,与 Google、微软以及当时还名不见经传的 DeepMind,共同竞购「深度学习之父」杰夫·辛顿(Geoff Hinton)及其学生组成的初 创团队。那场竞拍最终以 Google 胜出告终,但正如余凯在《深度学习革命》序言中所写,那是「深度学习推动全球科技产业变革的发令枪」。 正是在那段时期,余凯敏锐地观察到:GPU 虽然让深度学习成为了可能,但它本质是为图形渲染设计,「无心插柳」的效率并不极致。「如果专门为深度 学习设计加速芯片,会不会效率更高?」这个反思,直接促成了地平线的诞生。 13 年后的今天,站在从「数字智能」向「物理智能」跨越的拐点,余凯似乎再次扣动了扳机。 在深圳前海的聚光灯下,地平线创始人余凯博士并没有直接抛出参数,而是先谈起了一场跨越十年的「星际探索」:2015 年 7 月 14 日,人类探索宇宙的 历程迎来了另一个里程碑,NASA 的「新视野号」(New Horizons)探测器飞掠冥王星,将人类的认知边疆推向了太阳 ...
谷歌TPU杀疯了,产能暴涨120%、性能4倍吊打,英伟达还坐得稳吗?
机器之心· 2025-12-09 08:41
选自A.I News Hub 机器之心编译 英伟达的「护城河」正在崩塌?谷歌TPU凭什么让巨头们疯狂倒戈? 摩根士丹利直接把预测往上猛调, 2027 年 TPU 产量将达到 500 万块,2028 年更是要冲到 700 万块 。要知 道,之前的预测可是 300 万块和 320 万块,这波上调幅度分别高达 67% 和 120%。换句话说,未来两年谷歌 要生产 1200 万块 TPU,而过去四年加起来才生产了 790 万块。 这笔生意有多赚?摩根士丹利给出一个测算, 谷歌每卖出 50 万块 TPU 芯片,2027 年就能进账约 130 亿美 元,每股收益增加 0.40 美元 。 战略层面看,谷歌的打法也很明确,直接向第三方数据中心销售 TPU,作为谷歌云平台 (GCP) 业务的重要 补充。虽然大部分 TPU 仍会用在谷歌自家的 AI 训练和云服务上,但如此大的产能储备,显然是在为更广 泛的商业化做准备。 摩根士丹利认为,这些迹象都是谷歌 TPU 销售战略的早期信号。眼下全行业对先进 AI 算力需求爆棚,谷 歌显然不想错过这波红利。 受 AI 芯片需求强劲的影响,摩根士丹利顺手把联发科评级上调至「增持」,理由是整个 ...
没了遥控器,还被扔进荒野,具身智能该「断奶」了
机器之心· 2025-12-09 03:17
机器之心原创 作者:吴昕 翻车是真的,希望也是真的。 香港中文大学的一处山间小道,流水小桥,树影斑驳,青苔攀附在陡峭连绵的石梯上。 无人机视野下500 米的定向越野路线。 一只人形机器人跨过三十度的小桥,走上一段石路,迈过两段台阶。好不容易来到一个九十度的弯,重 心一歪,仰面倒下。 全程 500 米的定向越野,它只能走完开头。 到了90度分叉路口,就躺平罢工 。 第二天,它又出现在大学的岭南体育场,尝试户外分拣垃圾。 草地秃噜,每一步都像踩进人生陷阱,还没碰到桌上的垃圾,就扑通倒地。 在第五届 ATEC 科技精英赛——全球首个 全自主、全真实户外场景 的机器 人竞技场上,类似画面不 断上演。离开遥控器、走到户外,机器人还能不能工作? 其实,跳舞、空翻、端咖啡,这些「展台神迹」从来不是真实水平。离开温室和遥控器,一块秃草地、 一只普通水壶就能瞬间「放倒」它们 。 1X NEO,别说让它亲手洗碗了,就连把干干净净的锅碗瓢盆放进洗碗机里,都挺艰难。 过去两三年,人们普遍高估了人形机器人的通用能力。很多人喊着,它们将走进家庭,承担家务, 「这个事情绝对是高估的。」 ATEC 2025 专家委员会主席、香港工程院院士刘 ...