机器之心
Search documents
ICLR 2026 oral | AI代码真能进生产环境?SwingArena:从「写对代码Commit」到「通过CI审查」
机器之心· 2026-02-12 06:45
过去一年,大模型写代码的能力几乎以肉眼可见的速度提升。从简单脚本到完整功能模块,GPT、Claude、DeepSeek 等模型已经能够在几秒钟内生成看起来相当 "专业" 的代码。 这种能力的提升,让很多人开始认真思考一个问题: AI 能不能真正参与到软件工程的核心流程中? 但越接近真实开发,这个问题就越显得复杂。因为在工业界,"写出一段能跑的代码" 远远不够。 代码是否能被合并,取决于它能否通过完整的持续集成(Continuous Integration,简称 CI)流水线——这是一种在代码开发过程中,通过自动化的构建、测试和代 码检查,确保每一次改动都能在真实工程环境下稳定运行的机制。 此外,代码还需符合项目规范、经得起代码审查,并在多轮修改中保持稳定可靠。遗憾的是,现有主流代码评测基准,几乎都停留在"能否通过几个单元测试"的层 面。 SwingArena 的出发点,正是填补这块长期缺失的评测空白。 该论文已被 ICLR 2026 正式接收。目前,SwingArena 已实现 全栈开源。 在传统评测中,模型面对的是一个高度简化的问题:给定函数签名和说明,只要输出能通过测试的实现即可。这种设定对于衡量基础编程 ...
小红书,再造一个更有「声」命力的社区
机器之心· 2026-02-12 05:16
编辑|杜伟 2026 马年注定迎来一个「AI 味」最浓的春节。 一个与众不同的玩家进入我们的视线,它正是国内最有活人感的生活和消费社区 —— 小红书,卷起了「感知力」。 小红书围绕着发布、评论、搜索、社交等高频互动场景,开放了多种 AI 语音新玩法,包括 语音发布、语音评论、语音问一问、语音私信拜年 等。 这些新奇有趣的语音玩法,带来的直观效果是:用户之间的沟通媒介不再只是图文,而开始了「动嘴」模式。 语音回帖让以往冷冰冰的评论区有了「满满的活人感」 ,涌进世界各地的语言、中国各地的方言,还有人秀起歌喉以及各式各样的播音腔、磁性嗓、低音炮。 它与传统 AI 搜索最大的区别是将真人经验与 AI 总结结合了起来,你搜索到的每一个答案,都是真实用户的知识与经验沉淀。 在小红书里直接搜「语音问就有活人答案」进入活动页面,便能开启该功能 。这个春节,年货买什么、哪里好逛,开口问就行。 用户还可以参与「语音问一问抽新春小红盒、语音拜年、语音联欢会」等特色迎春活动, 互动起来更能感受到年味。 图源: @ 甜甜圈 图源: @ 牛角包大王 @ 别咬我兔耳朵 如果说语音评论增强了社交趣味性,这两天正式上线的「语音问一问」则是社区 ...
DeepAgent与DeepSearch双双霸榜!答案指向openJiuwen这一新兴开源项目
机器之心· 2026-02-12 05:16
Core Insights - The article highlights the emergence of advanced AI agents, particularly focusing on Clawdbot and its evolution into OpenClaw, reflecting a global desire for more sophisticated and reliable AI systems [1] - The year 2025 is referred to as the "Year of AI Agents," with numerous agents being developed and evaluated against rigorous benchmarks like GAIA and BrowseComp-Plus [1][2] - DeepAgent and DeepSearch, built on the openJiuwen platform, have achieved top rankings in the GAIA and BrowseComp-Plus benchmarks, respectively, showcasing their advanced capabilities [2][25] GAIA Benchmark Insights - DeepAgent achieved a score of 91.69%, surpassing competitors like NVIDIA's Nemotron, indicating its strong performance in general agent capabilities [4][13] - GAIA evaluates agents on 12 core abilities, including long-term task planning and multi-modal understanding, with a scoring system that emphasizes real-world task difficulty [8][10] - The average success rate for human participants in GAIA is around 92%, while leading AI models like GPT-4 perform significantly lower, highlighting the challenge faced by AI agents [9] DeepAgent's Capabilities - DeepAgent's design allows it to dynamically adjust plans based on real-time feedback, ensuring task completion even in changing environments [17] - It features a multi-layered context engine that maintains consistency and traceability in reasoning, crucial for complex tasks [19][21] - The agent's ability to execute tasks, such as analyzing YouTube cooking videos and purchasing ingredients, demonstrates its practical application in real-world scenarios [15] BrowseComp-Plus Benchmark Insights - DeepSearch achieved an accuracy of 80%, leading the BrowseComp-Plus ranking, which assesses deep search and web browsing capabilities [26][29] - The BrowseComp-Plus benchmark focuses on multi-hop retrieval and cross-source information integration, emphasizing the agent's ability to extract relevant information from vast datasets [29][30] - The scoring mechanism is designed to ensure fairness and reproducibility, using a fixed human-validated corpus to avoid biases from real-time web dynamics [30] DeepSearch's Capabilities - DeepSearch employs a multi-branch reasoning approach, allowing it to explore various potential solutions simultaneously, enhancing search efficiency [35] - It features an intelligent action exploration system that balances the depth of search with the diversity of paths taken, addressing the challenges of noise and misinformation [37][39] - The system's design mimics human expert reasoning, enabling it to adaptively prioritize search actions based on real-time evaluations [39][40] openJiuwen Platform Insights - Both DeepAgent and DeepSearch leverage the openJiuwen platform, which provides a comprehensive framework for developing high-precision, controllable AI agents [41][42] - The platform supports multi-agent collaboration and self-evolution, allowing for continuous improvement and adaptability in task execution [43] - openJiuwen has been commercialized in various sectors, including finance and manufacturing, indicating its broad applicability and potential for industry transformation [43] Conclusion - The article concludes that the AI agent landscape is at a pivotal point, distinguishing between basic language-interactive agents and advanced systems capable of planning, resource scheduling, and self-repair [46] - The success of DeepAgent and DeepSearch underscores the importance of robust architectural design in achieving high performance in stringent evaluations [46][48]
速度提升,能力却暴跌?扩散模型做智能体的残酷真相
机器之心· 2026-02-12 04:00
基于自回归语言模型的智能体已在许多场景中展现出完成复杂任务的能力,但高昂的推理成本和低下的执行效率问题仍然是制约智能体工作流(Agentic Workflow)发展的关键瓶颈。 与传统的自回归式语言模型不同,扩散语言模型(Diffusion-Based Language Models)采用并行解码机制,显著提升了生成速度,似乎为突破这一瓶颈 带来了全新的可能性。 现有的关于 Llada、Dream 等扩散语言模型的研究中,这类模型在大幅度提高生成效率的同时,在 MMLU、GSM8K 等基准任务上保持了与自回归语言模 型相当的通用能力。然而其在智能体任务上的表现尚缺乏系统性的评估。 这项工作揭示了一个深刻的教训(Bitter Lesson):尽管扩散语言模型实现了高效的并行推理,但也显著 削弱了其因果推理和反思能力 ,难以可靠地执行 具身智能体的长链推理任务;同时,并行解码机制使得输出具有 更高的不确定性 ,这对于精确性要求极高的工具调用任务造成了重大挑战。 论文标题:The Bitter Lesson of Diffusion Language Models for Agentic Workflows: AC ...
刚刚,MOSS孙天祥创业,直播AI4AI大规模科研
机器之心· 2026-02-12 04:00
在春节来临之际,又一支神秘的华人创业团队,在悄悄的搞大事! 就在刚刚,机器之心发现了一条来自创业公司 Analemma 的首条推文,宣布了一个在过年期间,令人不可思议的直播活动: Analemma 在推文中声称,他们将 面向全球公 开直播部 署端到端 AI 研究系统 FARS 。 他们的目标,是在直播中全自动 完成 100 篇论文 。直播预期将持续一个月,系统将持续自动运行直到生产完成论文输出目标后结束。 在新年之际,Analemma 将彻底揭秘完全由 AI 领衔的科研全流程。史无前例,别开生面的超长直播,开创了 AI 研究系统执行全公开的先河。 FARS:AI 自 进化的科研系 统 都说 AI 已经能够独立完成科研工作了,能够辅助人类,甚至自主进行探索的 AI4S 智能体可以说是层出不穷。一些智能体已经可以独立解决数学界的 Erdos 难 题,就连 陶哲轩都已在使用智能体进行自动化研究 。 但是,哪怕已经近在咫尺,使用 AI 来进行 AI 研究的智能体和相关工作仍是凤毛麟角。在 AI4S 已经相对成熟的当下,AI4AI 最具代表性的工作是去年 DeepMind 推出的 AlphaEvolve ,使用大模型自 ...
让机器人「秒懂人话」!中国电信TeleAI发布首个实时文本驱动人形机器人控制框架TextOp
机器之心· 2026-02-12 03:00
Core Viewpoint - The article discusses the revolutionary advancements in humanoid robotics, particularly focusing on the TextOp system developed by China Telecom's TeleAI team, which allows for real-time control of robots through natural language commands, moving away from pre-programmed actions to a more interactive and fluid user experience [2][10][36]. Group 1: Technological Innovations - TextOp introduces a streaming text command system that enables users to issue real-time instructions, allowing robots to seamlessly switch actions without pre-programming or remote control [2][10]. - The system employs a dual-layer architecture that separates high-level intention planning from low-level motion execution, ensuring that robots can maintain balance and coherence even when commands are modified mid-action [15][17]. - TextOp utilizes a unique motion representation tailored for robotic structures, ensuring that generated movements are both human-like and physically feasible [18][21]. Group 2: Performance Metrics - The research team conducted extensive real-world testing on the Unitree G1 humanoid robot, demonstrating its ability to perform a variety of skills, including dance and martial arts, with impressive fluidity and responsiveness [22][25]. - Quantitative evaluations showed that TextOp achieved a high success rate in action execution and trajectory quality, with user interaction latency measured at just 0.73 seconds, establishing a strong foundation for real-time applications [34]. Group 3: Application Prospects - TextOp has the potential to redefine human-robot interaction across various scenarios, such as live performance adjustments, sports training demonstrations, and intelligent remote operation in hazardous environments [36][37]. - The system addresses the long-standing challenge of mapping natural language to physical actions, paving the way for fully autonomous and versatile embodied intelligent robots [37][38].
当AI应用都在「撒钱」时,谁来扛住千亿交互背后的算力大考?
机器之心· 2026-02-12 03:00
机器之心发布 春节还未到,但各路 AI 应用的「战斗」号角已经吹响。 腾讯元宝先声夺人,豪掷 10 亿元现金红包;百度文心一言紧随其后,狂撒 5 亿元红包;字节跳动火山引擎则直接与春节流量大户春节联欢晚会「联名」;阿里 千问请客,诚邀广大网友喝奶茶,一度让服务器「崩溃」…… 但这还只是「前菜」,在大模型落地应用成为主流叙事的这一年,各大 AI 厂商或初创都在围绕谁将成为下一个「超级入口」狂奔。而在春节这一重要时间节 点,对于 AI 应用厂商来说,既是自我展示的好时机,也是接受网友检验的关键时刻,必须铆足了劲疯狂「秀肌肉」。 行业预测 数据显示 , 仅除夕当晚,主流 AI 应用的交互量可能突破千亿次,瞬时并发峰值或达 10 亿次 / 秒量级。 而每一次 AI 对话、每一帧图像生成、每一次实时交互,都在考验底层算力基础设施的弹性极限。 因此,对于大多数 AI 应用来说,「大考」之前需要思考一个重要命题: 当不确定性的流量高峰成为新常态,什么样的算力基础设施才能确保用户体验始终丝 滑? 有一家创业公司,在去年一场真实的「流量海啸」中,不仅稳稳接住了,还完成了一次漂亮的技术支撑。这个故事的主角,正是全球 3D 内容应 ...
复刻、长语音、对话、指令、音效全覆盖!模思智能推出MOSS-TTS Family!
机器之心· 2026-02-11 08:34
就在今天,模思智能及 OpenMOSS 团队再度上新,发布并开源了 MOSS-TTS Family ,一套面向 高保真、高表现力与复杂场景生成 的语音生成模型家族。 你可以用 MOSS-TTS Family 完成这些事情: 从这些真实、明确的实际需求,我们不难看出,模思推出的 TTS 全家桶,并不是单一能力的堆叠,而是一整套 可以直接接入创作流程、产品系统与交互场景的声 音生产工具链 。 语音生成模型家族:全维度能力覆盖 MOSS-TTS Family 并不是对 "一个更大的 TTS 模型" 的追求。 相反,我们选择将声音生产拆解为多个真实存在的创作与应用环节,并为每一个环节提供专门的模型支持,使它们既可以独立使用,也可以组合成完整的工作 流。 整个模型家族包含五个核心成员: 当一段语音不仅需要 "像某个人"、"准确地读出每个字", 还需要在不同内容中自然切换说话方式, 在几十分钟的叙述中持续稳定, 在对话、角色、实时交互等不 同形态下都能直接使用 —— 单一的 TTS 模型,往往已经不够用了。 它们共同构成了一个 覆盖 "稳定生成、灵活设计、复杂对话、情境补全、实时交互" 的声音创作生态闭环 。 MOSS- ...
马斯克xAI再失联合创始人,12人创始团队已有6人离场
机器之心· 2026-02-11 08:34
机器之心编辑部 马斯克于 2023 年与另外 11 位联合创始人共同创办的 xAI,如今已有 6 人离开。 最新消息,xAI 联合创始人 Jimmy Ba 周二表示,他已经离开了这家 AI 初创公司。 Jimmy 写道:这是我在 xAI 的最后一天。xAI 的使命是推动人类提升卡尔达舍夫等级(Kardashev tech tree)。我非常荣幸能在公司创立之初共同参与这一历程。由 衷感谢 @elonmusk 将我们聚集在一起,开启了这段不可思议的旅程。我为 xAI 团队所取得的成就感到无比自豪,未来也将作为团队的朋友继续保持紧密联系。感 谢大家一起并肩奋斗的岁月,和同事情谊才是我真正的财富。2026 年注定将是疯狂的一年,也极有可能是人类物种未来最繁忙(且最具影响力)的一年。 据知情人士透露,Jimmy 直接向马斯克汇报工作,并在去年年底之前一直负责公司相当大的一部分业务。直到去年晚些时候,他的多项职责被拆分,分别交由另 外两位联合创始人吴宇怀(Tony Wu,已经官宣离职)和 Guodong Zhang 负责。 Jimmy 是在不到 48 小时内第二位离开 xAI 的联合创始人。吴宇怀已于周一晚间宣布从这家 ...
决定了:过年攻略全都不过脑子,让AI去想
机器之心· 2026-02-11 08:34
或许 AI 的事还是用 AI 来解决,今年春节的安排,必须得上「深度研究」了。 说来也巧,我们发现美团大模型 LongCat 刚刚上线了这个功能。 编辑 | 泽南、杨文 春节还没到,「过年的气氛」已经渗入科技圈每个人的毛孔。单说 AI 大模型这一块,刚刚发布的有 kimi 2.5 和 Step 3.5 Flash,即将发布的据说还有 DeepSeek V4,GPT-5.3、 Claude Sonnet 5、 Qwen 3.5,GLM-5,说不定一觉醒来,现有的技术就要被颠覆。 再看看千问和元宝发的红包,组团上春晚的机器人,所有厂商在春节期间都摆出一副志在必得的架势。 正因为如此,我们在这个临近长假的时间段,又遭遇了很多的变数。很多人的行程调了又调,不到最后一刻不知道哪几天有空,难不成这场 AI 的革命,反 而会让我们忙到忘了过节? 这一次的 「深度研究」(DeepResearch)上,LongCat 又把实用化推向新的高度。 LongCat(龙猫)系列大模型,最近才火起来的,在 AI 圈里它的口碑主要是 速度快,工具调用出色,走「实用主义」路线 。 正好,我们就用它来安排一下春节的事儿。 值得注意的是,该功能 ...