机器之心 - filings, earnings calls, financial reports, news

机器之心

Search documents

Thinking Machines首款产品重大更新：K2 Thinking、Qwen3-VL都可以微调了

机器之心· 2025-12-15 10:00

| 机器之心编辑部 | | --- | | 当前，AI 领域的研究者与开发者在关注 OpenAI、Google 等领先机构最新进展的同时，也将目光投向了由前 OpenAI CTO Mira Murati 创办的 Thinking Machines | | Lab。 | | 今年早些时候，他们推出了首款产品 Tinker ：这是一个 API，用于帮开发者 / 研究人员微调语言模型。你只需要专注于训练数据和算法，而你不擅长的关于 Infra | | 的部分 —— 调度、调优、资源管理和 Infra 可靠性 —— 统统由 Tinker 来搞定，从而大大简化了 LLM 的后训练过程。 | | 此前，Tinker 仅向研究人员和开发者开放内部测试；而如今，Thinking Machines 宣布正式取消候选名单，所有用户都可以直接使用 Tinker 。 | | 除此以外，Tinker 还带来了其他三项更新： | | 首先，更强推理能力：用户现在可以在 Tinker 上对 Kimi K2 Thinking 进行微调。 Kimi K2 拥有万亿参数规模，是 Thinking Machines 目前规模最大的模型，专为 ...

Artificial Intelligence

Tinker

Kimi K2 Thinking

Qwen3-VL

Artificial Intelligence

Tinker

Kimi K2 Thinking

Qwen3-VL

NeurIPS 2025｜指哪打哪，可控对抗样本生成器来了！

机器之心· 2025-12-15 08:10

近日，在全球人工智能领域最具影响力的顶级学术会议 NeurIPS（神经信息处理系统大会）上，清华大学和蚂蚁数科联合提出了一种名为 Dual-Flow 的新型对抗攻击生成框架。简单来说，Dual-Flow 是一个能够从海量图像数据中学习 "通用扰动规律" 的系统，它不依赖目标模型结构、不需要梯度，却能对多种模型、多种类别发起黑盒攻击。其核心思想是通过 "前向扰动建模 — 条件反向优化" 的双流结构，实现对抗样本的高可迁移性与高成功率，同时保持极低的视觉差异。可以把它理解为一个" 可控的对抗样本生成器 "，只需指定想攻击的图像类别（如狗类、人类），模型就能自动生成该类别下逼真且有效的攻击图像，为 AI 安全带来了前所未有的挑战。研究背景与意义论文标题：Dual-Flow: Transferable Multi-Target, Instance-Agnostic Attacks via In-the-wild Cascading Flow Optimization 作者：Yixiao Chen, Shikun Sun, Jianshu Li, Ruoyu Li, Zhe Li, Junliang ...

国产芯片也能跑AI视频实时生成了，商汤Seko 2.0揭秘幕后黑科技

机器之心· 2025-12-15 08:10

机器之心报道编辑：杨文自 Sora 2 发布以来，各大科技厂商迎来新一轮视频生成模型「军备竞赛」，纷纷赶在年底前推出更强的迭代版本。视频来自 Seko 官网，创作者：噪维 AIGC 谷歌推出 Veo 3.1，通过首尾帧控制和多图参考解决了以往视频生成「抽卡」随机性太强的问题；Runway 拿出 Gen-4.5，强化了物理模拟和表情动作迁移；快手祭出 Kling 2.6，实现了原生音画同步…… 各家都在炫技，但一个更本质的问题却常被忽略：这些模型距离真正的生产力工具，究竟还有多远？ 12 月 15 日，商汤科技产品发布周正式开启，第一天就重磅上线了全新的 Seko 2.0 版本，让 AI 短剧创作真正实现「一人剧组」。比如只需输入一句简单的提示词，它立马就能策划剧本大纲，生成分镜和视频，整个过程相当麻溜。视频来自 Seko 官网，创作者：小铭 AI 百宝箱无论是 1 分半钟的 3D 艺术风格的动画短片：还是唇形同步精准的数字人音乐 MV，Seko 2.0 也都能在最短时间内信手拈来。视频来自 Seko 官网，创作者： AI 制片人 Webb 作为行业首个创编一体、多剧集生成智能体 ...

Veo何止生成视频：DeepMind正在用它模拟整个机器人世界

机器之心· 2025-12-15 08:10

机器之心报道机器之心编辑部随着通用型（Generalist）机器人策略的发展，机器人能够通过自然语言指令在多种环境中完成各类任务，但这也带来了显著的挑战。一方面，真实世界评估成本极高，需要系统性地覆盖常规场景、极端情况、分布外（OOD）环境以及各类安全风险，通常需要进行成百上千次真实硬件实验，不仅耗时、昂贵，还可能存在操作风险。 1）在闭环、动作条件生成中容易产生伪影； 2）对接触动力学（如物体接触、碰撞）的仿真十分困难； 3）现代策略架构对多视角一致性提出了较高要求，而这在视频生成中并不容易满足。论文地址：https://arxiv.org/pdf/2512.10675 另一方面，安全性评估尤为棘手，许多潜在的不安全行为（例如误夹人手、损坏设备或引发环境危险）本身就不适合在真实环境中反复测试，使得传统的硬件评估方法在安全场景下往往难以实施。传统的物理仿真器虽然有帮助，但在真实感、多样性、搭建成本和视觉一致性方面仍存在明显瓶颈。另外，前沿视频模型为世界仿真提供了一种替代路径，有望解决前文提到的诸多挑战。然而，要真正发挥这一潜力面临很多困难，主要原因包括：项目主页：https://veo-ro ...

机器人策略评估

视频建模

世界仿真

Artificial Intelligence

Artificial Intelligence

Veo

AAAI 2026 | 革新电影配音工业流程：AI首次学会「导演-演员」配音协作模式

机器之心· 2025-12-15 01:44

机器之心报道机器之心编辑部你是否也觉得，AI 配音的语调总是差了那么点 "人情味"？它能把台词念得字正腔圆，口型分秒不差，但角色的喜怒哀乐却总是难以触及灵魂深处。创新之道：三步还原真实配音 "心流" 问题出在哪里？答案或许藏在配音棚里那些看不见的导演与演员的互动中。在真实的电影工业里，配音绝非演员的独角戏。导演会提供参考片段、解读角色情绪，引导演员 "入戏"—— 这个过程，正是将文字转化为有生命声音的核心。然而，现有 AI 配音模型却模拟了一个 "简化版" 流程，让 AI "演员" 直接对着脚本和画面硬说，完全跳过了这个至关重要的 "导戏" 与 "揣摩" 环节。这缺失的一环，正是 AI 配音缺乏情感表现力的症结所在。内蒙古大学计算机学院、人工智能学院刘瑞教授牵头的语音理解与生成团队在 AAAI 2026 上发表的论文《Towards Authentic Movie Dubbing with Retrieve- Augmented Director-Actor Interaction Learning》正式回应了这一问题。研究团队提出了一种全新的检索增强导演 - 演员交互学习框架 ——Au ...

RL是「点金石」还是「挖掘机」？CMU 用可控实验给出答案

机器之心· 2025-12-15 01:44

机器之心报道机器之心编辑部近期，强化学习（RL）技术在提升语言模型的推理能力方面取得了显著成效。然而，后训练究竟是真正扩展了模型的推理能力，还是仅仅挖掘了预训练中已有的潜力？目前尚不明确。一个核心挑战在于现代训练流程缺乏可控性：大规模预训练语料库不够透明，中期训练往往缺乏充分研究，且 RL 目标函数与未知的先验知识之间存在复杂的交互作用。为了回答这个问题，来自卡耐基梅隆大学（CMU）的研究者通过构建基于 GSM-Infinite 的可控合成数据框架，在完全解耦的环境下，定量分析了预训练、Mid-training（中期训练/CPT）和 RL 三者对模型推理泛化能力的因果影响。旨在剥离并独立分析预训练、中期训练以及基于 RL 的后训练各自的因果贡献。 https://x.com/xiangyue96/status/1998488030836044112 研究者从两个维度对模型进行评估：针对更复杂组合的外推泛化能力，以及跨越不同表层语境的情境泛化能力。利用该框架，研究者调和了关于 RL 有效性的不同观点。研究表明：仅当预训练留有足够提升空间，且 RL 数据针对模型的能力边界（即那些虽具 ...

SIGGRAPH Asia 2025｜30FPS普通相机恢复200FPS细节，4D重建方案来了

机器之心· 2025-12-14 04:53

硬件革新：异步捕捉，让相机 "错峰拍摄" 本文第一作者陈羽田，香港中文大学 MMLab 博士二年级在读，研究方向为三维重建与生成，导师为薛天帆教授。个人主页：https://yutian10.github.io 当古装剧中的长袍在武林高手凌空翻腾的瞬间扬起 0.01 秒的惊艳弧度，当 VR 玩家想伸手抓住对手 "空中定格" 的剑锋，当 TikTok 爆款视频里一滴牛奶皇冠般的溅落要被 360° 无死角重放 —— 如何用普通的摄像机，把瞬间即逝的高速世界 "冻结" 成可供反复拆解、传送与交互的数字化 4D 时空，成为 3D 视觉领域的一个难题。然而，受限于硬件成本与数据传输带宽，目前绝大多数 4D 采集阵列的最高帧率仅约 30 FPS；相比之下，传统高速摄影通常需要 120 FPS 乃至更高。简单升级相机硬件不仅价格高昂，还会带来指数级增长的数据通量，难以在大规模部署中落地。另一条改变的思路是在重建阶段 "补帧"。近期，例如 4D 高斯溅射（4D Gaussian Splatting）等动态场景重建方法能在简单运动中通过稀疏时序输入合成连续帧，变相提升帧率，但面对布料摆动、高速旋转等非线性复杂运动，中间 ...

4D重建

视频扩散模型

Computer Vision

异步采集 + 视频扩散模型修复的4D重建方案

4D重建

视频扩散模型

Computer Vision

异步采集 + 视频扩散模型修复的4D重建方案

谷歌创始人布林：当年发完Transformer论文，我们太不当回事了

机器之心· 2025-12-14 04:53

机器之心报道机器之心编辑部布林于 1993 年进入斯坦福工程学院，攻读计算机科学研究生。读研期间，他结识了拉里・佩奇。两人共同开发了一种搜索算法，并于 1998 年创办了谷歌。回顾谷歌的来时路，布林坦言 8 年前提出 Transformer 时，他们没有予以足够的重视，而且因为担心聊天机器人说蠢话而害怕将其展示给世人。但他同时认为，他们这些年也做了很多正确的事情，比如投资研发 TPU 并建立规模庞大的数据中心。对于未来，布林也表达了一些自己的看法，比如认为大学未来可能不应该再限制于某个地理位置，学界未来应该投身更具探索性质的研究，材料等科研方向可能被低估了 …… 以下是这场对话内容的摘录。 Google 早期做对了什么？学术基因、敢碰难题校长：Google 已经是一家市值 4 万亿美元的公司，业务范围极其广泛。你们这些年肯定做了很多正确的决定。有没有什么是你们在创建 Google 初期就做对的事情？布林：我觉得早期的话，Larry 一直非常有雄心。他现在也是。对你提出的每个计划，他几乎都会说「这不够有野心」。我们确实很早就有了非常宏大的使命宣言 —— 整合全球信息。我认为这是 ...

1100多个模型殊途同归，指向一个「通用子空间」，柏拉图又赢一回？

机器之心· 2025-12-14 04:53

模型架构的重要性可能远超我们之前的认知。最近，约翰斯・霍普金斯大学的一项研究发现： 1100 多个不同的神经网络，即使在完全不同的数据集上训练、用不同的初始化和超参数，最终学到的权重都会收敛到一个共享的低维子空间。这似乎是说明：存在一个「先验的」数学结构，所有神经网络都在逼近它。训练不是在「创造」什么，而是在「发现」一个早已存在的几何形式。换句话说，神经网络「想学的东西」似乎高度一致，架构决定了它能学什么，比数据影响更大。机器之心报道编辑：张倩这一发现有助于解释很多「神秘」现象，比如为什么过参数化的模型（参数远多于训练样本）还能泛化？为什么不同初始化最终学到相似的表示？为什么 LoRA、权重共享这些技术能 work？如果神经网络确实在共享子空间内学习，这将为隐式正则化、可迁移性以及稀疏训练方法的有效性提供支持性解释，同时也为诸如高效合并、新的优化技术、更快更高效的学习和推理等应用开辟道路。这篇论文在 Alphaxiv、X 等平台上吸引了很多关注，一度攀升到 Alphaxiv 榜一的位置。有人说，柏拉图又赢了一回。（注：柏拉图的理念论认为：我们看到的具体事物（桌子、马、圆形）都只是「理念」 ...

通用权重子空间假说

柏拉图理念论

Artificial Intelligence

Artificial Intelligence

LoRA

ResNet - 50

Mistral - 7B

8B模型任务击败GPT-5？阶跃星辰开源Deep Think新框架，小模型解锁百万Token测试时计算

机器之心· 2025-12-14 02:49

8B 模型在数学竞赛任务上超越 GPT-5！阶跃星辰正式推出并行协同推理（PaCoRe, Parallel Coordinated Reasoning），这是一个全新的训练和推理框架，让大模型的能力不再受限于线性思维链的上下文窗口大小（Context Window）和处理速度，而是基于大规模并行协同的方式，让模型进行前所未有的广度和深度思考。强大性能的 Gemini Deep Think 模式仅隐约透露其采用"并行思考"扩展测试时计算的思路；而 PaCoRe 以卓越的表现验证了大规模扩展测试时计算的有效性，并完整开源模型，训练数据，推理管线从而加速该领域的研究与创新。基于该框架，小模型亦能解锁百万级 Token 测试时计算（Test-Time Compute）。经过大规模、基于结果的强化学习（Outcome-based RL）训练，阶跃星辰研究团队的 PaCoRe-8B 模型掌握了综合发散性推理轨迹的能力。在 HMMT 2025 数学基准测试中，它取得了 94.5 的高分，一举超越了 GPT-5 的 93.2 分。这一成绩的取得，得益于模型在解决单个问题时，能够有效利用高达两百万 Tok ...