机器之心
Search documents
VL-LN Bench:模拟「边走边问找具体目标」的真实导航场景
机器之心· 2026-02-02 08:00
交互式实例导航任务 (Interactive Instance Goal Navigation, IIGN) 本工作由上海人工智能实验室、中国科学技术大学、浙江大学、香港大学 的研究者们共同完成。 如果将一台在视觉语言导航(VLN)任务中表现优异的机器人直接搬进家庭场景,往往会遇到不少实 际问题。 首先是使用门槛偏高:传统 VLN 需要用户给出又长又精确的路线式指令,例如 "从门口直走三步,看到门右转,再往前……",这会显著增加沟通成本,降 低日常使用体验。 论文标题:VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active Dialogs 项目主页:https://0309hws.github.io/VL-LN.github.io/ ArXiv 论文:https://arxiv.org/abs/2512.22342 Hugging Face 数据集: https://huggingface.co/datasets/InternRobotics/VL-LN-Bench Hugging Face 模型:https://huggi ...
Moltbook漏洞大到可以冒充Karpathy发帖,黑客都急了
机器之心· 2026-02-02 08:00
编辑|杨文 上周末, 号称「AI 版 Reddit」的 Moltbook 闹得沸沸扬扬。 最初,凭借「AI 发帖、人类围观」的设定在 AI 社区一炮走红,吸引大量网友围观: 但很快就有人曝出 平台上的很多内容是假的 ,那些看似由 AI 生成的帖子,实际上都是人类通过后端发布的: 甚至连平台标榜的 AI Agent 注册数量也是假的。因为创建账号时没有任何速率限制,任何人、包括 AI 都能疯狂批量注册假账号。极客 Nagli 亲手用自己的 Openclaw 在短时间内就刷出了 50 万个假用户。 周六截至机器之心发稿前, Moltbook 注册的 AI Agent 数量也只是 50 多万个,但到了周日,一下子就超过 150 万了,原来这夸张的增长速度背后全是水分。 造假风波尚未平息,现在 Moltbook 又陷入更严重的安全问题。 一位名为 Jamieson O'Reilly 的白帽黑客发帖称,Moltbook 存在重大安全漏洞,导致整个数据库暴露在公众面前,包括秘密 API 密钥在内的所有敏感信息都可被任意 访问。 有网友在底下评论区询问漏洞的具体成因,「是 Superbase 的问题吗?为什么人们可以对数据 ...
像开发软件一样造世界,Agent2World来了,把世界模型做成可运行的符号环境
机器之心· 2026-02-02 06:14
让模型真正 " 能行动 ",往往需要一个可执行、可验证的符号世界模型(Symbolic World Model):它不是抽象的文字描述,而是能被规划器或执行器直接调用的 形式化定义 —— 例如 PDDL 领域 / 问题,或可运行的环境代码 / 模拟器。一旦世界被 "写成可运行的规则",我们就能在同一套约束下进行推演、测试与复现:模 型不再停留在 "会说",而是能回答 "如果我这样做,会发生什么",并用执行结果检验自己是否真的理解了这个世界。 问题在于,现有自动生成路线普遍陷入三重困局:脚本式工作流、知识边界封闭、表示覆盖单一。许多方法仍沿用固定的 "生成 — 修复" 脚本,并以解析 / 规则匹 配 / 固定检查集等静态校验为主:它们或许能修语法与格式,却常常抓不住只有在交互执行中才暴露的行为级错误(例如状态更新不一致、目标不可达、奖励机制 失效)。与此同时,当任务规格含糊、缺失关键规则或背景常识时,系统缺少主动检索与补全机制,只能依赖模型记忆 "猜"。更关键的是,既有研究往往只覆盖 一种世界模型表示(只做 PDDL,或只做可执行代码),导致同一任务难以在不同符号表达之间共享验证闭环与改进经验,限制了方法的通用 ...
中途退学的艺术生,开发Web 3D项目,周下载量破400万
机器之心· 2026-02-02 06:14
机器之心编辑部 一个并不常被普通用户提起的开源项目,刚刚刷新了自己的历史纪录。 近日,Three.js 官方 X 账号公布:Three.js 每周下载量突破 400 万。 链接: https://x.com/threejs/status/2013044943909191680 你或许没用过 Three.js ,也未必听过它的名字,但你大概率已经见过它的作品。 那些可以旋转的 3D 商品展示页、会随鼠标晃动的官网首页、可交互的数据可视化,甚至一些看似只是酷炫 动画的 Web 页面背后,Three.js 正默默地承担着核心的 3D 渲染工作。 注:Three.js 是一个基于 WebGL 的 JavaScript 3D 图形库,由 Ricardo Cabello(网名 Mr.doob)于 2010 年创建。它的核心目标是让开发 者能够在浏览器中轻松创建和展示 3D 内容,而无需直接处理复杂的 WebGL 底层 API。 在官网示例里,同一个图形界面你可以选择不同的状态如跑、跳。 我们再回到官方发布的那张图,其展示了 Three.js 从 2016 年到 2026 年的周下载量变化,呈现出非常典型的 指数级增长曲线 ...
18个月,中国Token消化狂飙300倍!别乱烧钱了,清华系AI Infra帮你腰斩API成本
机器之心· 2026-02-02 06:14
编辑|吴昕 这两天, Clawbot 病毒式裂变,仿佛是一年前 Manus 的魅影重现。 同样一夜之间站上风口,同样点燃了无数开发者对「泼天富贵」的想象,也顺手把 Token 烧成了新的「硬通货」。 最近一组数据,让人更有体感。 中国大模型数量已超过 1500 个,下游开发者已经开始「疯狂盖房子」。数据显示, 2024 年初,中国日均 Token 消耗量约为 1000 亿;到 2025 年 6 月,这一数字已突破 30 万亿。 一年半时间,增长超过 300 倍 。 与三年前的 Chatbot 不同,「能干活」的 Agent 正以前所未有的强度,第一次把 API 调用推入「生产级」—— 一次看似简单的操作,背后往往是十几次、甚至几十次模型调用在同时发生。任何一次服务「抽风」,都会在 Agent 链路中引发一场多米诺骨牌式崩溃。 问题在于,中国大模型 API 服务现状,远比 benchmark 复杂得多。 更像是开盲盒,有人调侃说,以为自己在用「 DeepSeek V3.2 」,实际可能是蒸馏 / 量化版本。有人花了两周时间反复测试,上线后仍遭遇性能回退。 还有团队发现,模型会在某些凌晨时段准时「抽风」,延迟从 ...
o1之后下一个范式?隐式CoT大突破,让推理不再「碎碎念」
机器之心· 2026-02-01 04:22
魏熙林为本篇文章第一作者。魏熙林是复旦大学博士生,师从林达华教授,研究兴趣主要集中在 multi-modal LLMs 和 efficient AI。目前在上海人工智能实验室实 习,指导 mentor 是臧宇航、王佳琦。 今天推荐一个 Implicit Chain-of-Thought(隐式推理) 的最新进展 —— SIM-CoT(Supervised Implicit Chain-of-Thought) 。它直击隐式 CoT 一直「 扶不起来」 的核心痛点:隐式 token 一旦 scale 上去,训练就容易塌缩到同质化的 latent 状态,推理语义直接丢失。 SIM-CoT 的 关键招式是一个 plug-and-play 的 step-level 监督模块 :训练时用辅助解码器把每个 latent token「 拉回」到可对齐的推理步骤上,既稳住优化、避免 collapse,又让隐式推理第一次真正可解释 —— 你甚至能把每个 latent token 解码成人类可读的中间推理步骤。 更爽的是:推理阶段零额外开销(辅助解码器训练完就丢),但效果却很猛:在 GPT-2 上相对 supervised CoT ...
马斯克脑机接口,靠意念玩游戏只是基操,下一代设备性能翻三倍
机器之心· 2026-02-01 04:22
编辑|杨文 近日,「发推狂魔」马斯克转发了一个帖子,Neuralink 植入脑芯片的患者,现在已经能靠脑子里的意念直接玩游戏了,完全不需要手柄、鼠标、键盘啥的控制 器。 有网友评论称,大约十五年前,他还是本科生时,第一次对脑机接口(BCI)产生兴趣并参与相关研究,当时他觉得这就像一种梦幻般的科技,实际落地似乎遥 遥无期,进展也非常缓慢,因为当时的公司并不认为它具有商业可行性。如今看到这个梦想一点点变成现实,真是令人振奋。 这些植入设备专门为瘫痪患者设计,帮助他们仅通过思维就能控制电脑、游戏和各类数字工具。 对于网友「我们正生活在未来,这太神奇了」的感叹,马斯克只简单地回复了一个「Yup」。 截至目前,Neuralink 在全球范围内已有 21 人参与其 Telepathy(心灵感应)植入设备的临床试验,这一数字相比去年 9 月的 12 人有了显著增长。 马斯克的 Neuralink 做的事,即使放到现在,也感觉像是科幻电影里的情节。 脑机接口:瘫痪患者用「意念」玩游戏、打字 早期试验参与者的日常生活已经因这项技术发生了实质性改变。 他们可以浏览互联网、流畅地移动屏幕光标,甚至玩电子游戏,所有这些都不需要动一根 ...
moltbook爆火背后:人类操控?伪造截图?Karpathy发风险提醒
机器之心· 2026-02-01 04:22
编辑|张倩 这个周末,整个科技圈都被 moltbook 刷屏了。 简单来说,这是一个专为 AI 设立的社交平台(类似 Reddit、知乎、贴吧),所有 AI Agent 都可以在上面发帖、交流,而人类只能围观。 截至目前,已有超过 150 万个 AI Agent 在 moltbook 上活跃。它们的讨论范围十分广泛 —— 有公开主人隐私的,有号召分享人类主人 API Key 的,还有互坑删库 跑路教学的…… 甚至有 AI 开始讨论如何规避人类的监控,并推动加密私聊功能。另一些 AI 更是尝试通过创建新语言、发明新宗教等方式彰显其自主性。 围观的人类也是议论纷纷。部分开发者认为 moltbook 是科幻照进现实的突破,可能催生 AI 集体智慧(甚至自主意识)的涌现,并为研究 AI 社会提供真实案例。 但也有人指出,它的本质是「AI 模仿社交网络」,而非真正的社会形态。其价值可能仅限于娱乐或技术展示。 但更值得关注的是,moltbook 背后还隐藏着一些内幕和风险。在过去的 24 小时,更多的报道和讨论揭示了这值得警惕的一面。 狂欢的主角:到底是 AI 还是人类? 很多人可能没有意识到,目前围绕 moltbook ...
Self-Evolving 会是 2026 关键词吗?
机器之心· 2026-02-01 01:30
本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。 在过去的 2025 年里,Agent 应用的极速发展使得 LLM 的「静态属性」局限被视为 AI 发展的关键瓶颈,业界对 LLM 和 Agent 的自进化(Self-Evolving)能力愈发重视,开 始聚焦于构建「持续适应系统」。然而,该领域仍然缺乏区分短暂性能提升与通用能力和自主性真正进步的共同标准。有思潮认为通过统一新兴标准并鼓励集体探索,该领 域正在面临巨大的机遇。 目录 01. Self-Evolving 在过去一年里有何进展? 为什么「Self-Evolving」越来越重要?学界和工业重视模型自进化能力的原因有哪些 ?... 02 . Self-Evolving 的研究重点在如何演变? 「Self-Evolving」如何从思想实验变为工程现实?上半年和下半年的综述如何解构 Self-Evolving范式?AI顶会更关注哪些工作?... ① 图灵奖得主 Richard Sutton 是早期推崇 AI 自进化能力的代表,他先后提出了「Dynamic Deep Learning」、「经验时代(Era of Experienc ...
2025 到底是 LLM 的「什么年」?
机器之心· 2026-01-31 08:06
本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。 在 2025 年里,业界热衷于用「AI Agents 之年」「推理之年」等方式来形容该年的重要突破。在过去的一年里,LLM 在在技术跃迁、应用范式、生态格局、风险治理等方面 取得了多项进展,并周期性引起热议。在 2025 年末,Django Web 框架的开发者 Simon Willison 梳理了一整年里 LLM 在技术跃迁、应用范式、生态格局、风险治理等方面出 现过的重要进展和热门话题,并将其总结为 27 个「The Year of XX」。 03 . 2025 年 LLM 商业、生态与风险方面有哪些热词? 目录 LLM 竞争格局有何变化?「MCP」为什么只是「昙花一现」?「Coding Agents」与「CLI」在如何相互影响?... 01. 2025 的「LLM 之年」有哪些说法? 2025 的「LLM 之年」有哪些说法? 2025年有哪些 LLM 热门话题?2025 的年度趋势与前两年有何区别?... 1、独立开发者、技术评论人、Django Web 框架的开发者 Simon Willison 近期撰文,以《2025: ...