机器之心 - filings, earnings calls, financial reports, news

机器之心

Search documents

Snapchat提出Canvas-to-Image：一张画布集成 ID、姿态与布局

机器之心· 2025-12-09 03:17

Canvas-to-Image 是一个面向组合式图像创作的全新框架。它取消了传统「分散控制」的流程，将身份参考图、空间布局、姿态线稿等不同类型的控制信息全部整合在同一个画布中。用户在画布上放置或绘制的内容，会被模型直接解释为生成指令，简化了图像生成过程中的控制流程。作者：Yusuf Dalva, Guocheng Gordon Qian*, Maya Goldenberg, Tsai-Shien Chen, Kfir Aberman, Sergey Tulyakov, Pinar Yanardag, Kuan-Chieh Jackson Wang 通讯作者：Guocheng Gordon Qian 机构：¹Snap Inc. ²UC Merced ³Virginia Tech 论文标题：Canvas-to-Image: Compositional Image Generation with Multimodal Controls 项目主页： https://snap-research.github.io/canvas-to-image/ arXiv ：arxiv.org/abs/2511.216 ...

全图与切片并非等价？LLaVA-UHD-v3揭示差异推出高效全图建模方案

机器之心· 2025-12-09 03:17

随着多模态大模型（MLLMs）在各类视觉语言任务中展现出强大的理解与交互能力，如何高效地处理原生高分辨率图像以捕捉精细的视觉信息，已成为提升模型性能的关键方向。然而，主流的视觉编码范式往往难以兼顾性能与效率：基于切片的编码方法虽能降低计算开销，却牺牲了全局上下文感知能力；而全局原生分辨率编码在提升整体性能的同时，又带来了巨大的计算负担。同时，现有的视觉压缩策略与特征提取过程相对独立，难以在编码早期有效控制信息冗余，缺乏一个兼顾细粒度建模与计算效率的统一架构。针对如何在高清原生分辨率下，保持图像全局理解能力的同时，还能快速推理这一核心问题，来自清华大学、中科院的研究团队正式发布 LLaVA-UHD v3 ！ LLaVA-UHD-v3 提出了全新的渐进式视觉压缩框架 —— Progressive Visual Compression（PVC），由 Refined Patch Embedding（RPE）与 Windowed Token Compression（WTC）两个核心组件构成。该框架在保持全局语义一致性的前提下，显著减少视觉 Token 数量，从根本上提升原生高分辨率视觉编码的效率。依论 ...

Progressive Visual Compression（PVC）

Progressive Visual Compression（PVC）

刚上市的摩尔线程，即将揭晓新一代GPU架构

机器之心· 2025-12-09 03:17

机器之心发布机器之心编辑部 2025 年 12 月 19 日至 20 日，摩尔线程首届 MUSA 开发者大会（MUSA Developer Conference，简称 MDC 2025）将在北京中关村国际创新中心拉开帷幕。作为国内首个聚焦全功能 GPU 的开发者盛会，大会以「创造、链接、汇聚（Create, Connect, Converge）」为核心理念，直面技术自立自强与产业升级的时代命题，旨在汇聚全球 AI 与 GPU 领域开发者、技术领袖、产业先锋及行业数智化转型实践者，共同探索国产算力的突破路径，擘画自主计算生态的崭新蓝图。 MDC 2025 不仅是摩尔线程 MUSA 技术体系与全栈能力的集中呈现，更致力于打造一个连接技术创新、开发者共创与产业应用的战略平台。大会将围绕 MUSA 统一系统架构，全面展示从硬件到软件、从技术到场景的全栈能力与生态进展，加速推动国产全功能 GPU 技术扎根千行百业，筑牢智能时代的坚实算力底座。主论坛：揭晓新一代 GPU 架构与路线图大会主论坛将聚焦驱动千行百业数智化转型的核心引擎—— 智能算力。摩尔线程创始人、董事长兼 CEO 张建中将首次系统阐述 ...

ICLR 2026还会好吗？300篇投稿50篇含幻觉，引用example.com竟也能过审

机器之心· 2025-12-08 10:11

机器之心报道编辑：杜伟、Panda 这届 ICLR 的烦心事还没有结束。最近一段时间，对于 ICLR 2026 来说，真可谓是一波未平、一波又起。先是第三方机构对审稿意见的系统性统计发现，其中有 21% 完全由 AI 生成；后有 OpenReview 评审大开盒，波及到了 ICLR 2026 超过 10000 篇投稿。今天，ICLR 2026 的审稿又被揭开一块遮羞布。事情是这样的： AI 生成内容检测平台 GPTZero 扫描了 300 篇投稿论文，发现其中有 50 篇在论文引用上至少包含一处明显的幻觉内容。甚至有些幻觉引用还非常离谱，达到了匪夷所思的程度，就好像投稿者完全不检查一样。比如下面 GPTZero CTO 和联创 Alex Cui 在 X 分享的这个例子，投稿者给出的引用链接竟然是默认示例链接 example.com ！而在下面的例子中，作者名单就只是一串大写字母。更令人担忧的是，这些存在幻觉内容的投稿已经经过了 3-5 名领域专家的同行评审，但他们中的绝大多数都未能识别出这些虚假的引用。这意味着，如果这些投稿没有其他外部干预，就可能会被 ICLR 会议接收。部分投稿 ...

人工智能幻觉

同行评审

人工智能

GPTZero幻觉检测（Hallucination Check）工具

人工智能幻觉

同行评审

人工智能

GPTZero幻觉检测（Hallucination Check）工具

AAAI 2026 Oral | 手机传感器正在泄露隐私？PATN实时守护隐私安全

机器之心· 2025-12-08 10:11

本文的作者分别来自西安交通大学和东京科学大学。第一作者宋天乐是来自西安交通大学的博士生，研究方向聚焦于人机交互行为安全，生物特征识别，隐私保护。通讯作者为西安交通大学蔺琛皓教授。移动应用通过 Android 和 iOS 的接口能够获取加速度计、陀螺仪等运动传感器数据，这些数据支撑了活动识别、计步和手势交互等重要功能，已成为移动服务的关键基础。然而，传感器数据的细粒度特性也带来了隐私隐患。研究表明，其可以被用来推断用户性别、年龄等敏感属性，使用户在不知情的情况下遭受隐私泄露。因此，如何在保持传感器数据实用性的同时有效保护用户隐私，已成为移动应用生态中亟需解决的问题。在 AAAI 2026 上，西安交通大学与东京科学大学提出了移动传感器隐私保护框架 PATN 。该框架基于对抗攻击思想，通过微小扰动实现隐私保护同时不影响数据语义和时序结构。为应对实时防护和时间错位问题，PATN 设计了两大核心技术：利用历史传感器数据的生成网络实现未来扰动的即时预测与施加，解决实时扰动生成；引入历史感知 top-k 优化策略，缓解扰动与攻击序列的时间错位。该框架在多种数据场景下提供高保真、连续的隐私防护，有效抑制 ...

斯坦福最火CS课：不让学生写代码，必须用AI

机器之心· 2025-12-08 10:11

机器之心报道编辑：泽南、陈陈「0 代码」计算机课在教啥东西？这就是现代的软件开发吗？在这门课上，主讲 Mihail Eric 告诉学生们，课程的主旨就是教你在不编写一行代码的情况下进行编程开发，「如果你能在整个课程中不写一行代码，那就太棒了。」这不是开玩笑，听课的学生必须在提交 Git 的作业里附带和 AI 的对话记录。在这里，老师教的不是 AI 的原理或是调优方法，而是教你如何 Vibe Coding，具体来说是使用 Cursor 和 Claude 等 AI 代码工具，并在开发的过程中应对 AI 的幻觉。CS146S 在 9 月份第一次上线，直接被斯坦福的学生们挤爆，候补名单超过了 200 人，看起来在快速发展的大语言模型（LLM）的冲击下，最令人焦虑的不再是 AI 写作业、写论文会不会认定为作弊，而是如何面对充满 AI 的世界了。目前，CS146S 的 Slide 已经更新到了最后一周：Week 10: What's Next for AI Software Engineering，感兴趣的同学可以去观摩一下。谁也想不到，斯坦福大学计算机系今年最热门的课程，居然明牌不鼓励你写代码。近 ...

从分钟级等待到20倍超速：LightX2V重写AI视频生成速度上限

机器之心· 2025-12-08 04:27

今年以来，开源项目 LightX2V 及其 4 步视频生成蒸馏模型在 ComfyUI 社区迅速走红，单月下载量超过 170 万次。越来越多创作者用它在消费级显卡上完成高质量视频生成，把 " 等几分钟出一段视频 " 变成 " 边看边出片 " 。 LightX2V 背后并不是单一模型的优化，而是一整套面向低成本、强实时视频生成的推理技术栈：从步数蒸馏与轻量 VAE ，到低比特算子、稀疏算子、多卡并行与分级 Offloading ，目标只有一个 —— 在主流硬件上，把视频生成推到 1:1 实时。 GitHub：https://github.com/ModelTC/LightX2V Hugging Face：https://huggingface.co/lightx2v 项目主页：https://light-ai.top 1:1 实时，远超现有框架在很多视频生成框架中，生成 5–10 秒视频依然需要几分钟时间。LightX2V 在相同分辨率和硬件条件下，通过极少步数的推理和系统级优化，将生成时间压缩到与视频时长接近的水平 (如上图端到端耗时所示)，实现接近 1:1 的实时体验。 Phased DMD 步数蒸馏 ...

DeepSeek V3到V3.2的进化之路，一文看全

机器之心· 2025-12-08 04:27

Core Insights - DeepSeek has released two new models, DeepSeek-V3.2 and DeepSeek-V3.2-Speciale, which have generated significant interest and discussion in the AI community [2][5][11] - The evolution from DeepSeek V3 to V3.2 includes various architectural improvements and the introduction of new mechanisms aimed at enhancing performance and efficiency [10][131] Release Timeline - The initial release of DeepSeek V3 in December 2024 did not create immediate buzz, but the subsequent release of the DeepSeek R1 model changed the landscape, making DeepSeek a popular alternative to proprietary models from companies like OpenAI and Google [11][14] - The release of DeepSeek V3.2-Exp in September 2025 was seen as a preparatory step for the V3.2 model, focusing on establishing the necessary infrastructure for deployment [17][49] Model Types - DeepSeek V3 was initially launched as a base model, while DeepSeek R1 was developed as a specialized reasoning model through additional training [19][20] - The trend in the industry has seen a shift from hybrid reasoning models to specialized models, with DeepSeek seemingly reversing this trend by moving from specialized (R1) to hybrid models (V3.1 and V3.2) [25] Evolution from V3 to V3.1 - DeepSeek V3 utilized a mixed expert model and multi-head latent attention (MLA) to optimize memory usage during inference [29][30] - DeepSeek R1 focused on Reinforcement Learning with Verifiable Rewards (RLVR) to enhance reasoning capabilities, particularly in tasks requiring symbolic verification [37][38] Sparse Attention Mechanism - DeepSeek V3.2-Exp introduced a non-standard sparse attention mechanism, which significantly improved efficiency in training and inference, especially in long-context scenarios [49][68] - The DeepSeek Sparse Attention (DSA) mechanism allows the model to selectively focus on relevant past tokens, reducing computational complexity from quadratic to linear [68] Self-Verification and Self-Correction - DeepSeekMath V2, released shortly before V3.2, introduced self-verification and self-correction techniques to improve the accuracy of mathematical reasoning tasks [71][72] - The self-verification process involves a verifier model that assesses the quality of generated proofs, while self-correction allows the model to iteratively improve its outputs based on feedback [78][92] DeepSeek V3.2 Architecture - DeepSeek V3.2 maintains the architecture of its predecessor, V3.2-Exp, while incorporating improvements aimed at enhancing overall model performance across various tasks, including mathematics and coding [107][110] - The model's training process has been refined to include updates to the RLVR framework, integrating new reward mechanisms for different task types [115][116] Performance Benchmarks - DeepSeek V3.2 has shown competitive performance in various benchmarks, achieving notable results in mathematical tasks and outperforming several proprietary models [127]

百万人围观的「萌娃教训小狗」视频火了，结果都是AI生成的｜附教程

机器之心· 2025-12-07 04:33

视频来自 X 博主 @Doggy7233 另一个小孩则因为柯基抢走了她的糖果，揪着柯基的脖子大声呵斥：「看着我，别叫了，我说了不行，你拿了糖，现在还笑，一点都不好笑，我们先谈谈，真糟糕，去找你妈妈，我很忙……」柯基一脸无辜地看着她，旁边还传来一阵大人的笑声。机器之心报道编辑：杨文人类总是对可爱的小东西毫无抵抗力。最近社交平台冒出一堆萌娃与「汪星人」温馨互动的视频，简直把人萌化。不夸张地说，每一帧都精准击中老夫那颗尘封已久、半死不活的心。有小孩一本正经教训小狗的。比如一个扎着辫子的小女孩站在厨房里，用手指指着金毛犬「教训」它：「你给我听好了，大狗，不许把我放在桌上的饼干拿走，那太淘气了，哼！别对着我呲牙，你知道自己在做坏事，哼！别找借口，你有自己的零食。」狗狗则乖乖看着她，时不时「汪」一声以示抗议。视频来自 X 博主 @Ndi_Muvenda_ 有小孩和小狗对汪后亲亲抱抱的。狗狗朝小孩「汪」了声，小孩奶声奶气地说「别叫唤，我们是朋友，我们彼此相爱」。还有小狗逗弄、安慰、陪小孩玩的。更搞笑的是他们一起捣蛋。一个穿着连体睡衣的小宝宝和一只金毛幼犬正看着手机，听到妈妈开门的声音，立马趴下装睡。 ...

LLM强化学习不稳定之谜，被Qwen团队从「一阶近似」视角解开

机器之心· 2025-12-07 04:33

机器之心报道机器之心编辑部如今，强化学习（RL）已成为提升大语言模型（LLM）复杂推理与解题能力的关键技术范式，而稳定的训练过程对于成功扩展 RL 至关重要。由于语言具有强烈的上下文属性，LLM 的 RL 通常依赖序列级奖励 —— 即根据完整生成序列给一个标量分数。然而，主流 RL 算法（如 REINFORCE 与 GRPO）普遍采用基于 token 的优化目标。这种「奖励在序列级、优化在 token 级」的不匹配引发了对于它们理论健全性与训练稳定性的担忧，因此已经有研究尝试直接使用序列级优化目标。此外，token 级优化目标在混合专家（MoE）模型的 RL 训练中带来了新的挑战，比如 MoE 的动态专家路由机制可能破坏 token 级重要性采样比的有效性。由此引出的关键问题是：在什么条件下，用 token 级目标优化序列级奖励是合理的？有效程度又是怎样的？针对这些问题，阿里千问团队提出了一种针对 LLM 的全新 RL 公式化方法。核心洞察是：为了优化序列级奖励的期望值，可以使用一个替代（surrogate）token 级目标作为其一阶近似。这一近似在以下两种偏差都足够小的条件下才成立 ...

强化学习

大语言模型

一阶近似

Artificial Intelligence

Artificial Intelligence

阿里千问

Previous Next