机器之心
Search documents
刚刚,DeepSeek又探索新架构了,开源OCR 2
机器之心· 2026-01-27 06:00
机器之心编辑部 嘿!刚刚,DeepSeek 又更新了! 这次是更新了十月份推出的 DeepSeek-OCR 模型(参见: 太强了!DeepSeek 刚刚开源新模型,用视觉方式压缩一切 )。 当时 DeepSeek-OCR 的出世,引起了大家对视觉压缩的关注与讨论,而这一次,DeepSeek 对视觉编码下手了。 可以说,刚刚发布的 DeepSeek-OCR 2 通过引入 DeepEncoder V2 架构,实现了视觉编码从「固定扫描」向「语义推理」的范式转变! 当然,和 DeepSeek 几乎每次发布一样,这一次同样也是模型和技术报告齐开源。 这种设计打破了传统模型必须按从左到右、从上到下的栅格顺序处理图像的限制,赋予了编码器根据图像语义动态重排视觉 Token 的能力。通过这种两级级联的 1D 因果推理结构(编码器重排与译码器解析),模型能够更精准地还原复杂文档(如带表格、公式和多栏布局)的自然阅读逻辑。 这就像是为机器装上了「人类的阅读逻辑」,让 AI 不再只是生搬硬套地扫描图像。对比之下,传统的 AI 就像一个死板的复印机,不管页面内容多复杂,都只能 从左上角到右下角按行扫描。 在维持极高数据压缩效率的同 ...
高效智能体的「幕后推手」是谁?一篇综述带你从记忆×工具学习×规划看透
机器之心· 2026-01-27 06:00
随着大模型能力的跃迁,业界关注点正在从 "模型能不能做" 快速转向 "智能体能不能落地"。过去一年可以看到大量工作在提升智能体的有效性(effectiveness): 如何让它更聪明、更稳、更会用工具、更能完成复杂任务。 但在真实应用里,另一个更 "硬" 的问题常常决定能否上线:高效性(efficiency)。智能体即便表现很好,如果每次都要消耗大量算力、时间与调用成本,也很难 在生产环境大规模部署。 基于这一视角,论文整理并撰写了一篇面向 "高效智能体" 的综述,系统梳理当前主要方法,并从三个最关键的机制出发组织全文框架: 记忆 — 工具学习 — 规 划 。论文从设计范式出发对代表性方法进行归纳总结,聚焦那些以效率为目标或能够提升效率的核心设计与实现路径,从而更清晰地呈现智能体在真实落地场景中 的成本 — 性能权衡。 论文地址:https://arxiv.org/abs/2601.14192 GitHub 地址:https://github.com/yxf203/Awesome-Efficient-Agents 一、智能体记 忆: 让 "会记" 更省 、更准、更可扩展 智能体要做长任务,离不开记忆。但把历史 ...
性能比肩Gemini 3 Pro!昨晚,阿里千问最强模型来了
机器之心· 2026-01-27 04:59
Core Viewpoint - The launch of Alibaba's Qwen3-Max-Thinking model marks a significant advancement in AI capabilities, positioning it among the top domestic models comparable to international leaders like GPT-5.2 and Gemini 3 Pro [1][5]. Performance Evaluation - Qwen3-Max-Thinking has achieved impressive scores across various benchmarks, including: - MMLU-Pro: 85.7 - MMLU-Redux: 92.8 - C-Eval: 93.7 - GPQA: 87.4 - LiveCodeBench v6: 85.9 - IMOAnswerBench: 83.9 - Overall, it has surpassed previous records in 19 mainstream evaluation benchmarks [4][5]. Model Specifications - The model boasts over 1 trillion parameters and has been trained on 36 trillion tokens, making it Alibaba's largest and most powerful reasoning model to date [4][5]. Innovative Features - Qwen3-Max-Thinking introduces a Heavy Mode for reasoning, allowing for iterative self-reflection and experience accumulation, which enhances problem-solving efficiency without significantly increasing token costs [13]. - The model integrates tool usage into the reasoning process, enabling it to perform complex tasks in a more strategic manner, thus reducing errors and improving real-world applicability [14]. Market Impact - As of January 2026, the Qwen series has achieved over 1 billion downloads on Hugging Face, establishing itself as one of the most popular open-source AI model series [15]. - The introduction of Qwen3-Max-Thinking signifies a shift in the AI market focus from merely intelligent chatbots to powerful intelligent agents capable of executing complex tasks [15].
蚂蚁具身研究首次亮相!就解决了机器人「看」透明玻璃这些难题,还开源了
机器之心· 2026-01-27 04:59
编辑|冷猫 众所周知,「具身智能」是连接数字世界和现实世界的桥梁。 真正的「具身智能」,是全面自主决策自主行动的通用机器人,需要建立在对物理世界完全理解的基础上。 空间视觉感知是自动驾驶、机器人操作等真实世界应用的底层能力,核心目标只有一个: 让机器能够理解并参与三维环境中的交互 。 这类机器人大多都以 RGB-D 相机获取真实世界视觉和深度信息,这是行业内综合了成本,精度,以及实用性后普遍的选择。 但物理世界是极为复杂的,要想让这些自主执行任务的机器人卡壳,只需要简单的一块玻璃。 家务机器人撞玻璃的翻车场面 对机器来说,玻璃几乎是世界里的幻影。人类会下意识地把反射、折射进行判断,但机器人并没有这种生活经验。玻璃这类又透明又反光的物体,恰好屏蔽了 RGB-D 相机获取的全部特征,深度和像素点都很难准确识别。 随着自动驾驶和智能机器人离我们的生活越来越近,这个现象已经逐渐成为一个亟需解决的痛点。 令人欣喜的是,我们发现刚刚开源的 全新具身智能感知模 型 Ling Bot-Depth ,非常针对性的解决了机器人识别真实世界的「玻璃问题」。 LingBot-Depth 是蚂 蚁灵波科技开源 的 高精度空间 感知 模 ...
刚刚,微软全新一代自研AI芯片Maia 200问世
机器之心· 2026-01-27 04:00
机器之心编辑部 一觉醒来,我们看到了微软自研 AI 芯片的最新进展。 微软原定于 2025 年发布的下一代 AI 芯片 Maia 200,终于在今天问世! 微软 CEO Satya Nadella 根据微软官方介绍,Maia 200 作为一款强大的 AI 推理加速器,旨在显著改善 AI token 生成的经济性。 Maia 200 基于台积电的 3 纳米工艺打造,配备原生 FP8/FP4 张量核心、重新设计的内存系统,拥有 216GB HBM3e 内存、7TB/s 带宽以及 272MB 片上 SRAM,并配有数据传输引擎,从而能够保证大规模模型高效、快速地进行数据流动。 这些使得 Maia 200 成为任何超级计算平台中表现最强的第一方硅片,其 FP4 性能是第三代 Amazon Trainium 的三倍,FP8 性能超越了谷歌第七代 TPU。 与此同时,Maia 200 还是微软迄今为止最高效的推理系统,每美元性能比该公司当前集群中的最新一代硬件提升了 30%。 Maia 200 是微软异构 AI 基础设施的重要组成部分,将为包括 OpenAI 最新 GPT-5.2 在内的多个大模型提供支持,为 Micro ...
跨境电商版Sora发布:全球首个AI原生电商视频Multi-Agent来了
机器之心· 2026-01-27 04:00
编辑|Youli 你的下一个视频团队,不一定非得是人。 做电商的朋友,一定对这样的时刻不陌生:前期找团队、磨脚本、 拍视频 ,筹备了半个月,好不容易在亚马逊或 TikTok 后台上新一款潜力爆款。谁想到,半夜在 TikTok 刷到竞品的一条爆火视频,作为行家,你一眼就看出这是泼天流量,你也想接住。 可粗略一算: 找模特、找摄影师、约场地、等剪辑,整套流程走完费用不低,且制作周期没半个月下不来…… 等把视频做出来,流量窗口早就关了,爆款也成了 库存。 这时候你一定幻想过: 如果有一个工具,能跳过所有拍摄流程,直接生成一条能出单的视频就好了。 你可能想到了 Sora。 还记得 Sora 刚发布时,全行业都在狂欢,以为这一时刻终于来了。但后来却被现实狠狠「打脸」:Sora 懂物理世界,懂光影,能生成惊艳画 面,可它不懂生意,不知道什么是「点击率」,更不知道什么是「卖点」。而且动辄几美元一秒的成本,让量产成了奢望。 但现在都 2026 年了,技术狂奔的当下,Sora 没能做到的事情, 一个由营赛 AI 发布的名为 inSai Hilight 的中国产品做到了 。 不需要任何拍摄素材,不需要复杂提示词,只「扔」进去一个 ...
大模型哪里出问题、怎么修,这篇可解释性综述一次讲清
机器之心· 2026-01-27 04:00
过去几年,机制可解释性 (Mechanistic Interpretability) 让研究者得以在 Transformer 这一 "黑盒" 里追踪信息如何流动、表征如何形成:从单个神经元到注意力头,再到 跨层电路。但在很多场景里,研究者真正关心的不只是 "模型为什么这么答",还包括 "能不能更稳、更准、更省,更安全"。 正是在这一背景下,来自 香港大学、 复旦大学 、慕尼黑大学、曼切斯特大学、腾讯 等机构的研究团队联合发布了 "可实践的机制可解释性" (Actio nable Mechanistic Interpretability) 综述。文章通过 "Locate, Steer, and Improve" 的三阶段范式,系统梳理了如何将 MI 从 "显微镜" 转化为 "手术刀",为大模型的对齐、能力增强和效 率提升提供了一套具体的方法论。 从 "显微镜" 到 "手术刀" 的范式转移 尽管大语言模型(LLM)近年来在多种任务上展现出了强大的能力,但其内部的运作机制依然在很大程度上不透明,常被视为一个 "黑盒"。围绕如何理解这一黑 盒,机制可解释性 (Mechanistic Interpretability, ...
DeepSeek-R1推理智能从哪儿来?谷歌新研究:模型内心多个角色吵翻了
机器之心· 2026-01-26 04:08
Core Insights - The article discusses the significant leap in reasoning capabilities of large models over the past two years, highlighting the advancements made by models like OpenAI's o series, DeepSeek-R1, and QwQ-32B in complex tasks such as mathematics and logic [1][2] - It emphasizes that the improvement in reasoning ability is not merely due to increased computational steps but rather stems from a complex, multi-agent-like interaction structure termed "society of thought," where models simulate internal dialogues among different roles to arrive at correct answers [2][3] Group 1: Reasoning Mechanisms - The research indicates that reasoning models exhibit higher diversity of perspectives compared to baseline models, activating a broader range of features related to personality and expertise during reasoning tasks [2][3] - Controlled reinforcement learning experiments show that even with reasoning accuracy as the only reward signal, base models spontaneously increase dialogic behaviors, suggesting that socialized thinking structures enhance exploration of solution spaces [3][4] Group 2: Dialogic Behaviors - The study identifies four types of dialogic behaviors in reasoning trajectories: question-answer sequences, perspective shifts, viewpoint conflicts, and viewpoint harmonization, which collectively enhance cognitive strategies [7][8] - The Gemini-2.5-Pro model's evaluations show high consistency with human scoring, indicating reliable identification of these dialogic behaviors [9][13] Group 3: Social Emotional Roles - The analysis categorizes social emotional roles in reasoning trajectories into 12 types, which are further summarized into four high-level categories, demonstrating a balanced interaction among roles rather than isolated usage [10][22] - The Jaccard index is used to measure the co-occurrence of roles, revealing that models like DeepSeek-R1 organize different roles in a more coordinated manner during reasoning processes [10][22] Group 4: Cognitive Behaviors - The study identifies four cognitive behaviors that influence reasoning accuracy, including information provision, information inquiry, positive emotional roles, and negative emotional roles [11][12] - The consistency of the Gemini-2.5-Pro model's evaluations with human scoring reinforces the reliability of these cognitive behavior classifications [13] Group 5: Experimental Findings - The findings demonstrate that even with similar reasoning trajectory lengths, models exhibit a higher frequency of dialogic behaviors and social emotional roles, particularly in complex tasks [16][23] - Experiments show that guiding dialogic features positively impacts reasoning accuracy, with a notable increase from 27.1% to 54.8% in a specific task when dialogic surprise features are positively reinforced [24][29] Group 6: Reinforcement Learning Insights - A self-taught reinforcement learning experiment indicates that dialogic structures can spontaneously emerge and accelerate the formation of reasoning strategies when only correct answers are rewarded [30]
5000万用户、5000万美金ARR,全球第一AI创作消费平台要做AI时代Roblox
机器之心· 2026-01-26 04:08
编辑|杨文 2026 年,AI 大模型的军备竞赛仍在继续。 各家公司争相发布更强大的模型版本,比拼参数量、推理速度、benchmark 得分,整个行业陷入了一种近乎狂热的「性能偏执」。在这种逻辑下,大部分人都认 为只要技术足够强,用户便会涌来。 然而,市场给出一个反直觉的反馈:用户侧出现了「智能过剩」。 刚刚履新腾讯 AI 首席科学家的姚顺雨首次公开露面时就表示: 对于 C 端用户,大部分人大多数时候并不需要用到这么强的智能 。 风投公司 Menlo Ventures 合伙人 @deedydas 也曾表达过同样的观点, 更广泛的用户群体其实并不太在意模型的智能水平 。 事实也佐证了这一点。截至目前,仍有大量用户坚持使用 Studio Diffusion 1.5 等「过时」模型进行创作。这也许从另一个层面说明了,用户真正消费的是风格、 情绪,并不是什么模型版本号。 过去两年,SeaArt 始终保持着每年用户规模与收入的高速增长。 2024 年,平台用户规模同比提升 7.7 倍,收入同比增长 5.5 倍。进入 2025 年,通过发力多模态与视频创作场景,平台流量与收入规模较 2024 年同期均实现 4-5 倍增长 ...
关于多模态大模型Token压缩技术进展,看这一篇就够了
机器之心· 2026-01-26 04:08
近年来多模态大模型在视觉感知,长视频问答等方面涌现出了强劲的性能,但是这种跨模态融合也带来了巨大的计算成本。高分辨率图像和长视频会产生成千上 万个视觉 token ,带来极高的显存占用和延迟,限制了模型的可扩展性和本地部署。 正是这种紧迫的需求催生了 MLLM Toke n Compression ,迅速成为研究爆点,两年内在该垂直领域产出了约 200 篇论文。但是随着研究工作的快速涌现,领域内 的方法也变得极其庞杂难以归类,进一步具体到落地场景里面,往往因为方法多样而难以选择。 针对这一背景, 来自 北京大学、中国科学技术大学等机构 的研究人员, 首先基于 压缩位置 对方法进行了系统归类,然后讨论了 对于特定的部署场景应该选择何 种压缩机制 ,最后探讨了目前的挑战和具有前景的方向。 Github 链接: https://github.com/yaolinli/MLLM-Token-Compression 论文链接: https://www.techrxiv.org/doi/full/10.36227/techrxiv.176823010.07236701/v1 图 1. MLLMs 中 T oken 压缩 ...