Workflow
机器之心
icon
Search documents
Snapchat提出Canvas-to-Image:一张画布集成 ID、姿态与布局
机器之心· 2025-12-09 03:17
Canvas-to-Image 是一个面向组合式图像创作的全新框架。它取消了传统「分散控制」的流程,将身份参考图、空间布局、姿态线稿等不同类型的控制信 息全部整合在同一个画布中。用户在画布上放置或绘制的内容,会被模型直接解释为生成指令,简化了图像生成过程中的控制流程。 作者 :Yusuf Dalva, Guocheng Gordon Qian*, Maya Goldenberg, Tsai-Shien Chen, Kfir Aberman, Sergey Tulyakov, Pinar Yanardag, Kuan-Chieh Jackson Wang 通讯作者 :Guocheng Gordon Qian 机构 :¹Snap Inc. ²UC Merced ³Virginia Tech 论文标题 :Canvas-to-Image: Compositional Image Generation with Multimodal Controls 项目主页 : https://snap-research.github.io/canvas-to-image/ arXiv :arxiv.org/abs/2511.216 ...
全图与切片并非等价?LLaVA-UHD-v3揭示差异推出高效全图建模方案
机器之心· 2025-12-09 03:17
随着多模态大模型(MLLMs)在各类视觉语言任务中展现出强大的理解与交互能力,如何高效地处理原生高分辨率图像以捕捉精细的视觉信息,已成为提升模型 性能的关键方向。 然而,主流的视觉编码范式往往难以兼顾性能与效率:基于切片的编码方法虽能降低计算开销,却牺牲了全局上下文感知能力;而全局原生分辨率编码在提升整 体性能的同时,又带来了巨大的计算负担。同时,现有的视觉压缩策略与特征提取过程相对独立,难以在编码早期有效控制信息冗余,缺乏一个兼顾细粒度建模 与计算效率的统一架构。 针对如何在高清原生分辨率下,保持图像全局理解能力的同时,还能快速推理这一核心问题,来自清华大学、中科院的研究团队正式发布 LLaVA-UHD v3 ! LLaVA-UHD-v3 提出了全新的渐进式视觉压缩框架 —— Progressive Visual Compression(PVC) ,由 Refined Patch Embedding(RPE) 与 Windowed Token Compression(WTC) 两个核心组件构成。该框架在保持全局语义一致性的前提下,显著减少视觉 Token 数量,从根本上提升原生高分辨率视觉编码的效率。依 论 ...
刚上市的摩尔线程,即将揭晓新一代GPU架构
机器之心· 2025-12-09 03:17
机器之心发布 机器之心编辑部 2025 年 12 月 19 日至 20 日,摩尔线程首届 MUSA 开发者大会(MUSA Developer Conference,简称 MDC 2025)将在北京中关村国际创新中心拉 开帷幕。 作为国内首个聚焦全功能 GPU 的开发者盛会,大会以「创造、链接、汇聚(Create, Connect, Converge)」为核心理念,直面技术自立自强与 产业升级的时代命题,旨在汇聚全球 AI 与 GPU 领域开发者、技术领袖、产业先锋及行业数智化转型实践者,共同探索国产算力的突破路径,擘画自主计 算生态的崭新蓝图。 MDC 2025 不仅是摩尔线程 MUSA 技术体系与全栈能力的集中呈现,更致力于打造一个连接技术创新、开发者共创与产业应用的战略平台。 大会将围绕 MUSA 统一系统架构,全面展示从硬件到软件、从技术到场景的全栈能力与生态进展,加速推动国产全功能 GPU 技术扎根千行百业,筑牢智能时代的坚实 算力底座。 主论坛: 揭晓新一代 GPU 架构与路线图 大会主论坛将聚焦驱动千行百业数智化转型的核心引擎—— 智能算力 。摩尔线程创始人、董事长兼 CEO 张建中将首次系统阐述 ...
ICLR 2026还会好吗?300篇投稿50篇含幻觉,引用example.com竟也能过审
机器之心· 2025-12-08 10:11
机器之心报道 编辑:杜伟、Panda 这届 ICLR 的烦心事还没有结束。 最近一段时间,对于 ICLR 2026 来说,真可谓是一波未平、一波又起。先是第三方机构对审稿意见的系统性统计发现,其中 有 21% 完全由 AI 生成 ;后有 OpenReview 评审大开盒 ,波及到了 ICLR 2026 超过 10000 篇投稿。 今天,ICLR 2026 的审稿又被揭开一块遮羞布。事情是这样的: AI 生成内容检测平台 GPTZero 扫描了 300 篇 投稿论文,发现其中有 50 篇在论文引用上至少包含 一处明显的幻觉内容。 甚至有些幻觉引用还非常离谱,达到了匪夷所思的程度,就好像投稿者完全不检查一样。比如下面 GPTZero CTO 和联创 Alex Cui 在 X 分享的这个例子,投稿者给 出的引用链接竟然是默认示例链接 example.com ! 而在下面的例子中,作者名单就只是一串大写字母。 更令人担忧的是, 这些存在幻觉内容的投稿已经经过了 3-5 名领域专家的同行评审,但他们中的绝大多数都未能识别出这些虚假的引用。 这意味着,如果这些投稿没有其他外部干预,就可能会被 ICLR 会议接收。部分投稿 ...
AAAI 2026 Oral | 手机传感器正在泄露隐私?PATN实时守护隐私安全
机器之心· 2025-12-08 10:11
本文的作者分别来自西安交通大学和东京科学大学。第一作者宋天乐是来自西安交通大学的博士生,研究方向聚焦于人机交互行为安全,生物特征识别,隐私保 护。通讯作者为西安交通大学蔺琛皓教授。 移动应用通过 Android 和 iOS 的接口能够获取加速度计、陀螺仪等运动传感器数据,这些数据支撑了活动识别、计步和手势交互等重要功能,已成为移动服务的关 键基础。然而,传感器数据的细粒度特性也带来了隐私隐患。研究表明,其可以被用来推断用户性别、年龄等敏感属性,使用户在不知情的情况下遭受隐私泄 露。因此,如何在保持传感器数据实用性的同时有效保护用户隐私,已成为移动应用生态中亟需解决的问题。 在 AAAI 2026 上,西安交通大学与东京科学大学提出了 移动 传感器 隐私保护框架 PATN 。该框架基于对抗攻击思想,通过微小扰动实现隐私保护同时不影响数 据语义和时序结构。为应对实时防护和时间错位问题,PATN 设计了两大核心技术:利用历史传感器数据的生成网络实现未来扰动的即时预测与施加,解决实时扰 动生成;引入历史感知 top-k 优化策略,缓解扰动与攻击序列的时间错位。该框架在多种数据场景下提供高保真、连续的隐私防护,有效抑制 ...
斯坦福最火CS课:不让学生写代码,必须用AI
机器之心· 2025-12-08 10:11
机器之心报道 编辑:泽南、陈陈 「0 代码」计算机课在教啥东西? 这就是现代的软件开发吗? 在这门课上,主讲 Mihail Eric 告诉学生们,课程的主旨就是教你在不编写一行代码的情况下进行编程开发,「如果你能在整个课程中不写一行代码,那就太棒 了。」这不是开玩笑,听课的学生必须在提交 Git 的作业里附带和 AI 的对话记录。 在这里,老师教的不是 AI 的原理或是调优方法,而是教你如何 Vibe Coding,具体来说是使用 Cursor 和 Claude 等 AI 代码工具,并在开发的过程中应对 AI 的幻 觉。CS146S 在 9 月份第一次上线,直接被斯坦福的学生们挤爆,候补名单超过了 200 人, 看起来在快速发展的大语言模型(LLM)的冲击下,最令人焦虑的不再是 AI 写作业、写论文会不会认定为作弊,而是如何面对充满 AI 的世界了。 目前,CS146S 的 Slide 已经更新到了最后一周:Week 10: What's Next for AI Software Engineering,感兴趣的同学可以去观摩一下。 谁也想不到,斯坦福大学计算机系今年最热门的课程,居然明牌不鼓励你写代码。 近 ...
从分钟级等待到20倍超速:LightX2V重写AI视频生成速度上限
机器之心· 2025-12-08 04:27
今年以来,开源项目 LightX2V 及其 4 步视频生成蒸馏模型在 ComfyUI 社区迅速走红,单月下载量超过 170 万次。越来越多创作者用它在消费级显卡上完成高质 量视频生成,把 " 等几分钟出一段视频 " 变成 " 边看边出片 " 。 LightX2V 背后并不是单一模型的优化,而是一整套面向低成本、强实时视频生成的推理技术栈:从步数蒸馏与轻量 VAE ,到低比特算子、稀疏算子、多卡并行与 分级 Offloading ,目标只有一个 —— 在主流硬件上,把视频生成推到 1:1 实时。 GitHub:https://github.com/ModelTC/LightX2V Hugging Face:https://huggingface.co/lightx2v 项目主页:https://light-ai.top 1:1 实时,远超现有框架 在很多视频生成框架中,生成 5–10 秒视频依然需要几分钟时间。LightX2V 在相同分辨率和硬件条件下,通过极少步数的推理和系统级优化,将生成时间压缩到与 视频时长接近的水平 (如上图端到端耗时所示),实现接近 1:1 的实时体验。 Phased DMD 步数蒸馏 ...
DeepSeek V3到V3.2的进化之路,一文看全
机器之心· 2025-12-08 04:27
Core Insights - DeepSeek has released two new models, DeepSeek-V3.2 and DeepSeek-V3.2-Speciale, which have generated significant interest and discussion in the AI community [2][5][11] - The evolution from DeepSeek V3 to V3.2 includes various architectural improvements and the introduction of new mechanisms aimed at enhancing performance and efficiency [10][131] Release Timeline - The initial release of DeepSeek V3 in December 2024 did not create immediate buzz, but the subsequent release of the DeepSeek R1 model changed the landscape, making DeepSeek a popular alternative to proprietary models from companies like OpenAI and Google [11][14] - The release of DeepSeek V3.2-Exp in September 2025 was seen as a preparatory step for the V3.2 model, focusing on establishing the necessary infrastructure for deployment [17][49] Model Types - DeepSeek V3 was initially launched as a base model, while DeepSeek R1 was developed as a specialized reasoning model through additional training [19][20] - The trend in the industry has seen a shift from hybrid reasoning models to specialized models, with DeepSeek seemingly reversing this trend by moving from specialized (R1) to hybrid models (V3.1 and V3.2) [25] Evolution from V3 to V3.1 - DeepSeek V3 utilized a mixed expert model and multi-head latent attention (MLA) to optimize memory usage during inference [29][30] - DeepSeek R1 focused on Reinforcement Learning with Verifiable Rewards (RLVR) to enhance reasoning capabilities, particularly in tasks requiring symbolic verification [37][38] Sparse Attention Mechanism - DeepSeek V3.2-Exp introduced a non-standard sparse attention mechanism, which significantly improved efficiency in training and inference, especially in long-context scenarios [49][68] - The DeepSeek Sparse Attention (DSA) mechanism allows the model to selectively focus on relevant past tokens, reducing computational complexity from quadratic to linear [68] Self-Verification and Self-Correction - DeepSeekMath V2, released shortly before V3.2, introduced self-verification and self-correction techniques to improve the accuracy of mathematical reasoning tasks [71][72] - The self-verification process involves a verifier model that assesses the quality of generated proofs, while self-correction allows the model to iteratively improve its outputs based on feedback [78][92] DeepSeek V3.2 Architecture - DeepSeek V3.2 maintains the architecture of its predecessor, V3.2-Exp, while incorporating improvements aimed at enhancing overall model performance across various tasks, including mathematics and coding [107][110] - The model's training process has been refined to include updates to the RLVR framework, integrating new reward mechanisms for different task types [115][116] Performance Benchmarks - DeepSeek V3.2 has shown competitive performance in various benchmarks, achieving notable results in mathematical tasks and outperforming several proprietary models [127]
百万人围观的「萌娃教训小狗」视频火了,结果都是AI生成的|附教程
机器之心· 2025-12-07 04:33
视频来自 X 博主 @Doggy7233 另一个小孩则因为柯基抢走了她的糖果,揪着柯基的脖子大声呵斥:「看着我,别叫了,我说了不行,你拿了糖,现在还笑,一点都不好笑,我们先谈谈,真糟 糕,去找你妈妈,我很忙……」柯基一脸无辜地看着她,旁边还传来一阵大人的笑声。 机器之心报道 编辑:杨文 人类总是对可爱的小东西毫无抵抗力。 最近社交平台冒出一堆萌娃与「汪星人」温馨互动的视频,简直把人萌化。不夸张地说,每一帧都精准击中老夫那颗尘封已久、半死不活的心。 有小孩一本正经教训小狗的。 比如一个扎着辫子的小女孩站在厨房里,用手指指着金毛犬「教训」它:「你给我听好了,大狗,不许把我放在桌上的饼干拿走,那太淘气了,哼!别对着我呲 牙,你知道自己在做坏事,哼!别找借口,你有自己的零食。」狗狗则乖乖看着她,时不时「汪」一声以示抗议。 视频来自 X 博主 @Ndi_Muvenda_ 有小孩和小狗对汪后亲亲抱抱的。 狗狗朝小孩「汪」了声,小孩奶声奶气地说「别叫唤,我们是朋友,我们彼此相爱」。 还有小狗逗弄、安慰、陪小孩玩的。 更搞笑的是他们一起捣蛋。一个穿着连体睡衣的小宝宝和一只金毛幼犬正看着手机,听到妈妈开门的声音,立马趴下装睡。 ...
LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开
机器之心· 2025-12-07 04:33
机器之心报道 机器之心编辑部 如今,强化学习(RL)已成为提升大语言模型(LLM)复杂推理与解题能力的关键技术范式,而稳定的训练过程对于成功扩展 RL 至关重要。由于语言具有强烈 的上下文属性,LLM 的 RL 通常依赖序列级奖励 —— 即根据完整生成序列给一个标量分数。 然而,主流 RL 算法(如 REINFORCE 与 GRPO)普遍采用基于 token 的优化目标。这种「奖励在序列级、优化在 token 级」的不匹配引发了对于它们理论健全性 与训练稳定性的担忧,因此已经有研究尝试直接使用序列级优化目标。 此外,token 级优化目标在混合专家(MoE)模型的 RL 训练中带来了新的挑战,比如 MoE 的动态专家路由机制可能破坏 token 级重要性采样比的有效性。由此引 出的关键问题是:在什么条件下,用 token 级目标优化序列级奖励是合理的?有效程度又是怎样的? 针对这些问题, 阿里千问团队提出了一种针对 LLM 的全新 RL 公式化方法 。核心洞察是: 为了优化序列级奖励的期望值,可以使用一个替代(surrogate)token 级目标作为其一阶近似 。这一近似在以下两种偏差都足够小的条件下才成立 ...