机器之心
Search documents
Thinking Machines首款产品重大更新:K2 Thinking、Qwen3-VL都可以微调了
机器之心· 2025-12-15 10:00
| 机器之心编辑部 | | --- | | 当前,AI 领域的研究者与开发者在关注 OpenAI、Google 等领先机构最新进展的同时,也将目光投向了由前 OpenAI CTO Mira Murati 创办的 Thinking Machines | | Lab。 | | 今年早些时候,他们推出了首款产品 Tinker :这是一个 API,用于帮开发者 / 研究人员微调语言模型。你只需要专注于训练数据和算法,而你不擅长的关于 Infra | | 的部分 —— 调度、调优、资源管理和 Infra 可靠性 —— 统统由 Tinker 来搞定,从而大大简化了 LLM 的后训练过程。 | | 此前,Tinker 仅向研究人员和开发者开放内部测试;而如今,Thinking Machines 宣布 正式取消候选名单,所有用户都可以直接使用 Tinker 。 | | 除此以外,Tinker 还带来了其他三项更新: | | 首先,更强推理能力:用户现在可以在 Tinker 上 对 Kimi K2 Thinking 进行微调 。 Kimi K2 拥有万亿参数规模,是 Thinking Machines 目前规模最大的模型,专为 ...
NeurIPS 2025|指哪打哪,可控对抗样本生成器来了!
机器之心· 2025-12-15 08:10
近日,在全球人工智能领域最具影响力的顶级学术会议 NeurIPS(神经信息处理系统大会)上, 清华大学和蚂蚁数科联合提出了一种名为 Dual-Flow 的新型对抗攻 击生成框架。 简单来说,Dual-Flow 是一个能够从海量图像数据中学习 "通用扰动规律" 的系统,它不依赖目标模型结构、不需要梯度,却能对多种模型、多种类别发起黑盒攻 击。其核心思想是通过 "前向扰动建模 — 条件反向优化" 的双流结构,实现对抗样本的高可迁移性与高成功率,同时保持极低的视觉差异。 可以把它理解为一个" 可控的对抗样本生成器 ", 只需指定想攻击的图像类别(如狗类、人类),模型就能自动生成该类别下逼真且有效的攻击图像 ,为 AI 安全 带来了前所未有的挑战。 研究背景与意义 论文标题:Dual-Flow: Transferable Multi-Target, Instance-Agnostic Attacks via In-the-wild Cascading Flow Optimization 作者:Yixiao Chen, Shikun Sun, Jianshu Li, Ruoyu Li, Zhe Li, Junliang ...
国产芯片也能跑AI视频实时生成了,商汤Seko 2.0揭秘幕后黑科技
机器之心· 2025-12-15 08:10
机器之心报道 编辑:杨文 自 Sora 2 发布以来,各大科技厂商迎来新一轮视频生成模型「军备竞赛」,纷纷赶在年底前推出更强的迭 代版本。 视频来自 Seko 官网,创作者:噪维 AIGC 谷歌推出 Veo 3.1,通过首尾帧控制和多图参考解决了以往视频生成「抽卡」随机性太强的问题;Runway 拿 出 Gen-4.5,强化了物理模拟和表情动作迁移;快手祭出 Kling 2.6,实现了原生音画同步…… 各家都在炫技,但一个更本质的问题却常被忽略:这些模型距离真正的生产力工具,究竟还有多远? 12 月 15 日,商汤科技产品发布周正式开启,第一天就重磅上线了全新的 Seko 2.0 版本 ,让 AI 短剧创作真 正实现「一人剧组」。 比如只需输入一句简单的提示词,它立马就能策划剧本大纲,生成分镜和视频,整个过程相当麻溜。 视频来自 Seko 官网,创作者 : 小铭 AI 百宝箱 无论是 1 分半钟的 3D 艺术风格的动画短片: 还是唇形同步精准的数字人音乐 MV,Seko 2.0 也都能在最短时间内信手拈来。 视频来自 Seko 官网,创作者 : AI 制片人 Webb 作为行业首个创编一体、多剧集生成智能体 ...
Veo何止生成视频:DeepMind正在用它模拟整个机器人世界
机器之心· 2025-12-15 08:10
机器之心报道 机器之心编辑部 随着通用型(Generalist)机器人策略的发展,机器人能够通过自然语言指令在多种环境中完成各类任务,但这也带来了显著的挑战。 一方面,真实世界评估成本极高,需要系统性地覆盖常规场景、极端情况、分布外(OOD)环境以及各类安全风险,通常需要进行成百上千次真实硬件实验,不 仅耗时、昂贵,还可能存在操作风险。 1)在闭环、动作条件生成中容易产生伪影; 2)对接触动力学(如物体接触、碰撞)的仿真十分困难; 3)现代策略架构对多视角一致性提出了较高要求,而这在视频生成中并不容易满足。 论文地址:https://arxiv.org/pdf/2512.10675 另一方面,安全性评估尤为棘手,许多潜在的不安全行为(例如误夹人手、损坏设备或引发环境危险)本身就不适合在真实环境中反复测试,使得传统的硬件评 估方法在安全场景下往往难以实施。 传统的物理仿真器虽然有帮助,但在真实感、多样性、搭建成本和视觉一致性方面仍存在明显瓶颈。 另外,前沿视频模型为世界仿真提供了一种替代路径,有望解决前文提到的诸多挑战。然而,要真正发挥这一潜力面临很多困难,主要原因包括: 项目主页:https://veo-ro ...
AAAI 2026 | 革新电影配音工业流程:AI首次学会「导演-演员」配音协作模式
机器之心· 2025-12-15 01:44
机器之心报道 机器之心编辑部 你是否也觉得,AI 配音的语调总是差了那么点 "人情味"?它能把台词念得字正腔圆,口型分秒不差,但角色的喜怒哀乐却总是难以触及灵魂深处。 创新之道:三步还原真实配音 "心流" 问题出在哪里?答案或许藏在配音棚里那些看不见的导演与演员的互动中。在真实的电影工业里,配音绝非演员的独角戏。导演会提供参考片段、解读角色情 绪,引导演员 "入戏"—— 这个过程,正是将文字转化为有生命声音的核心。然而,现有 AI 配音模型却模拟了一个 "简化版" 流程,让 AI "演员" 直接对着脚本和 画面硬说,完全跳过了这个至关重要的 "导戏" 与 "揣摩" 环节。 这缺失的一环,正是 AI 配音缺乏情感表现力的症结所在。 内蒙古大学计算机学院、 人工智 能学院刘瑞教授牵头的语音理解与生成团队 在 AAAI 2026 上发表的论文《Towards Authentic Movie Dubbing with Retrieve- Augmented Director-Actor Interaction Learning》正式回应了这一问题。研究团队提出了一种 全新的检索增强导演 - 演员交互学习框架 ——Au ...
RL是「点金石」还是「挖掘机」?CMU 用可控实验给出答案
机器之心· 2025-12-15 01:44
机器之心报道 机器之心编辑部 近期,强化学习(RL)技术在提升语言模型的推理能力方面取得了显著成效。 然而, 后训练究竟是真正扩展了模型的推理能力,还是仅仅挖掘了预训练中已有的潜力? 目前尚不明确。 一个核心挑战在于现代训练流程缺乏可控性:大规模预训练语料库不够透明,中期训练往往缺乏充分研究,且 RL 目标函数与未知的先验知识之间存在复杂 的交互作用。 为了回答这个问题,来自卡耐基梅隆大学(CMU)的研究者通过构建 基于 GSM-Infinite 的可控合成数据框架 ,在完全解耦的环境下,定量分析了预训 练、Mid-training(中期训练/CPT)和 RL 三者对模型推理泛化能力的因果影响。旨在剥离并独立分析预训练、中期训练以及基于 RL 的后训练各自的因 果贡献。 https://x.com/xiangyue96/status/1998488030836044112 研究者从两个维度对模型进行评估:针对更复杂组合的外推泛化能力,以及跨越不同表层语境的情境泛化能力。利用该框架,研究者调和了关于 RL 有效性 的不同观点。 研究表明: 仅当预训练留有足够提升空间,且 RL 数据针对模型的能力边界(即那些虽具 ...
SIGGRAPH Asia 2025|30FPS普通相机恢复200FPS细节,4D重建方案来了
机器之心· 2025-12-14 04:53
硬件革新:异步捕捉,让相机 "错峰拍摄" 本文第一作者陈羽田,香港中文大学 MMLab 博士二年级在读,研究方向为三维重建与生成,导师为薛天帆教授。个人主页:https://yutian10.github.io 当古装剧中的长袍在武林高手凌空翻腾的瞬间扬起 0.01 秒的惊艳弧度,当 VR 玩家想伸手抓住对手 "空中定格" 的剑锋,当 TikTok 爆款视频里一滴牛奶皇冠般的溅 落要被 360° 无死角重放 —— 如何用普通的摄像机,把瞬间即逝的高速世界 "冻结" 成可供反复拆解、传送与交互的数字化 4D 时空,成为 3D 视觉领域的一个难 题。 然而,受限于硬件成本与数据传输带宽,目前绝大多数 4D 采集阵列的最高帧率仅约 30 FPS;相比之下,传统高速摄影通常需要 120 FPS 乃至更高。简单升级相机 硬件不仅价格高昂,还会带来指数级增长的数据通量,难以在大规模部署中落地。另一条改变的思路是在重建阶段 "补帧"。近期,例如 4D 高斯溅射(4D Gaussian Splatting)等动态场景重建方法能在简单运动中通过稀疏时序输入合成连续帧,变相提升帧率,但面对布料摆动、高速旋转等非线性复杂运动,中间 ...
谷歌创始人布林:当年发完Transformer论文,我们太不当回事了
机器之心· 2025-12-14 04:53
机器之心报道 机器之心编辑部 布林于 1993 年进入斯坦福工程学院,攻读计算机科学研究生。读研期间,他结识了拉里・佩奇。两人共同 开发了一种搜索算法,并于 1998 年创办了谷歌。 回顾谷歌的来时路, 布林 坦言 8 年前提出 Transformer 时,他们没有予以足够的重视,而且因为担心聊天 机器人说蠢 话而害怕将其展示给世人。但他同时认为,他们这些年也做了很多正确的事情,比如投资研发 TPU 并建立规模庞大的数据中心。 对于未来,布林也表达了一些自己的看法,比如认为 大学未来可能不应该再限制于某个地理位置,学界未 来应该投身更具探索性质的研究,材料等科研方向可能被低估了 …… 以下是这场对话内容的摘录。 Google 早期做对了什么? 学术基因、敢碰难题 校长:Google 已经是一家市值 4 万亿美元的公司,业务范围极其广泛。你们这些年肯定做了很多正确的决 定。有没有什么是你们在创建 Google 初期就做对的事情? 布林: 我觉得早期的话,Larry 一直非常有雄心。他现在也是。对你提出的每个计划,他几乎都会说「这不 够有野心」。我们确实很早就有了非常宏大的使命宣言 —— 整合全球信息。我认为这是 ...
1100多个模型殊途同归,指向一个「通用子空间」,柏拉图又赢一回?
机器之心· 2025-12-14 04:53
模型架构的重要性可能远超我们之前的认知。 最近,约翰斯・霍普金斯大学的一项研究发现: 1100 多个不同的神经网络,即使在完全不同的数据集上训练、用不同的初始化和超参数,最终学到的权重都会收 敛到一个共享的低维子空间。 这似乎是说明:存在一个「先验的」数学结构,所有神经网络都在逼近它。训练不是在「创造」什么,而是在「发现」一个早已存在的几何形式。换句话说,神 经网络「想学的东西」似乎高度一致,架构决定了它能学什么,比数据影响更大。 机器之心报道 编辑:张倩 这一发现有助于解释很多「神秘」现象,比如为什么过参数化的模型(参数远多于训练样本)还能泛化?为什么不同初始化最终学到相似的表示?为什么 LoRA、 权重共享这些技术能 work?如果神经网络确实在共享子空间内学习,这将为隐式正则化、可迁移性以及稀疏训练方法的有效性提供支持性解释,同时也为诸如高 效合并、新的优化技术、更快更高效的学习和推理等应用开辟道路。 这篇论文在 Alphaxiv、X 等平台上吸引了很多关注,一度攀升到 Alphaxiv 榜一的位置。 有人说,柏拉图又赢了一回。(注:柏拉图的理念论认为:我们看到的具体事物(桌子、马、圆形)都只是「理念」 ...
8B模型任务击败GPT-5?阶跃星辰开源Deep Think新框架,小模型解锁百万Token测试时计算
机器之心· 2025-12-14 02:49
8B 模型在数学竞赛任务上超越 GPT-5! 阶跃星辰 正式推出并行协同推理(PaCoRe, Parallel Coordinated Reasoning),这是一个全新的训练和推理框架,让大模型的能力不再受限于线性思维链的上下文窗 口大小(Context Window)和处理速度,而是基于大规模并行协同的方式,让模型进行前所未有的广度和深度思考。 强大性能的 Gemini Deep Think 模式仅隐约透露其采用"并行思考"扩展测试时计算的思路;而 PaCoRe 以卓越的表现验证了大规模扩展测试时计算的有效性,并完 整开源模型,训练数据,推理管线从而加速该领域的研究与创新。 基于该框架, 小模型 亦能解锁百万级 Token 测试时计算 (Test-Time Compute)。 经过大规模、基于结果的强化学习(Outcome-based RL)训练,阶跃星辰研究团队的 PaCoRe-8B 模型掌握了综合发散性推理轨迹的能力。在 HMMT 2025 数学基 准测试中,它取得了 94.5 的高分,一举超越了 GPT-5 的 93.2 分。这一成绩的取得,得益于模型在解决单个问题时,能够有效利用高达两百万 Tok ...