Workflow
机器之心
icon
Search documents
美团开放AI代码工具,零代码实现全栈能力,项目负责人揭秘架构细节
机器之心· 2025-05-30 04:16
机器之心报道 编辑:泽南 一句话,呈所想。 谁都没有想到,如此实用的 AI 代码生成工具,竟是出自美团。 上周,有媒体曝出了美团的 AI 零代码工具 NoCode,这是一款无需编程背景和经验,仅通过自然语言和对话形式即可快速生成 应用的工具。 顾名思义,NoCode 可帮助很多人以「零代码」的方式创建个人提效工具、产品原型、可交互页面等。它不仅能生成代码,还可 以进行实时预览,局部修改并一键部署,大幅降低了开发的门槛,可以帮助更多人释放创意。 而且,NoCode 是完全免费的,用美团 App 或微信扫码就能登录。 产品链接:https://nocode.cn/ NoCode 是美团开放 AI 生态的最新实践,旨在通过免费开放自身积累的 AI 技术能力,助力中小商户实现 IT 化与数字化升级, 同时让更多用户体验 AI 技术带来的效率提升与创新乐趣。在公司内部,人们已经利用它构建出了从网站页面到效率工具、数据分 析再到简单游戏等大量不同种类的应用。 虽然目前还未正式发布,不过我们已经在社交网络上看到了一些使用 NoCode 构建产品的案例。 NoCode 由美团研发质量与效率团队研发,该团队属于美团基础研发平台 ...
ICML 2025 Spotlight | 谁导致了多智能体系统的失败?首个「自动化失败归因」研究出炉
机器之心· 2025-05-30 03:28
问题来了:到底是哪个 Agent 出了错?又是在对话流程的哪一环节?调试这样的多智能体系统如同大海捞针,需要翻阅大量复杂日志,极其耗时。 这并非虚构。在多智能体 LLM 系统中,失败常见但难以诊断。随着这类系统愈加普及,我们急需新方法快速定位错误。正因如此,ICML 2025 的一篇 Spotlight 论 文提出了「自动化失败归因(Automated Failure Attribution)」的新研究方向,目标是让 AI 自动回答:是谁、在哪一步导致了失败。 该工作由 Penn State、Duke、UW、Goolge DeepMind 等机构的多位研究人员合作完成。 论文标题:Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems 背景挑战 LLM 驱动的多智能体系统在诸多领域展现出巨大潜力,从自动化助手协同办公到多 Agent 合作完成 Web 复杂操作等。然而,这些系统 脆弱性 也逐渐显现:多个 Agent 之间的误解、信息传递错误或决策不当,都可能导致 ...
谷歌之后,英伟达入局扩散大语言模型,Fast-dLLM推理速度狂飙27.6倍
机器之心· 2025-05-30 03:28
近日,NVIDIA 联合香港大学、MIT 等机构重磅推出 Fast-dLLM,以无需训练的即插即用加速方案 ,实现了推理速度的突破! 在大语言模型(LLM)领域,推理效率是制约其实际应用的关键因素之一。谷歌 DeepMind 的 Gemini diffusion 曾以 1400 tokens / 秒 的生成速度震惊 学界,展现了扩散模型在并行生成上的潜力。然而,开源扩散 LLM 却因 缺乏 KV 缓存机制和并行解码质量衰退 ,实际推理速度长期被自回归模型压制. 通过创新的技术组合,在不依赖重新训练模型的前提下,该工作为扩散模型的推理加速带来了突破性进展。本文将结合具体技术细节与实验数据,解析其核 心优势。 一、 核心技术 分块 KV 缓存与置信度感知并行解码 论文:Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding 项目地址:https://nvlabs.github.io/Fast-dLLM 论文链接:http://arxiv.org/abs/2505.22618 ...
用Veo 3+Suno做了个AI Rapper,吊打音乐节上的流量明星
机器之心· 2025-05-29 11:38
| 机器之心报道 | | --- | 编辑:杨文 太疯狂了!AI生成的嘻哈歌手唱Rap以假乱真,网友直呼「看不出破绽」。 来来来,眼尖的朋友请告诉我,下面这个嘻哈歌手唱 rap 的视频到底是真实的,还是 AI 生成的? 我可以 100% 肯定地说,此为 AI 的手笔。你猜对了吗? 三天前,X 博主 @blizaine 使用 Google Flow Veo3 和 Suno 4.5 制作了这一视频。画面和开场声音是 Veo3 生成的,歌曲和歌词则用 了 Suno 4.5。 由于效果过于逼真,网友直呼「太疯狂」,甚至还让摇滚老炮回想起了当年的舞台时光。 看样子,Veo 3 刚揭开流量明星的遮羞布,这下子又要让歌手瑟瑟发抖了。 循着这个方向在 X 上逛了一圈,发现不少网友热衷于用 Veo 3 生成演唱会视频,而且一个比一个自然。 比如这个另类摇滚迷幻乐队在一家小酒吧的演出片段。主唱站在麦克风前,边弹吉他边演唱成名曲中的副歌部分,情绪饱满但不激烈;贝斯手、吉他手和鼓手沉 醉其中,身体随节奏摇摆着,几乎找不出什么 bug。 Prompt: Mid 90s footage of an alternative rock sh ...
Linear-MoE:线性注意力遇上混合专家的开源实践
机器之心· 2025-05-29 11:38
线性序列建模的崛起 近年来随着大语言模型的爆火,旨在取代 Transformer 的高效模型架构及其预训练成为大模型领域的研究热点,主要包括线性序列建模(如 Linear Attention、SSM、Linear RNN 等)和混合专家(Mixture-of-Experts, MoE)两部分。这两部分分别都有了长足的进步,但两者的结合却鲜少有人研究, 两者结合后的 Linear-MoE 架构开源实现更是完全缺失。 值得一提的是,近期广受好评的 MiniMax-01 模型(使用 Lightning Attention-MoE)和腾讯混元 TurboS 模型(使用 Mamba2-MoE)均属于 Linear-MoE 架构。 来自上海人工智能实验室团队的最新成果 Linear-MoE,首次系统性地实现了线性序列建模与 MoE 的高效结合,并开源了完整的技术框架,包括 Modeling 和 Training 两大部分,并支持层间混合架构。为下一代基础模型架构的研发提供了有价值的工具和经验。 过去两年,线性序列建模技术取得了显著进展,其核心优势在于线性时间复杂度的训练和恒定内存占用的推理。 这类模型主要分为三大类:线性 ...
135 个项目、七大趋势、三大赛道:撕开大模型开源生态真相,你会怎么卷?
机器之心· 2025-05-29 07:10
机器之心原创 编辑:吴昕 不要抗拒趋势 在微软 Build 、谷歌 I/O 、 Code with Claude 三大开发者大会接连登场的一周里,微软为 Windows 加装模 型上下文协议( MCP ), Google Gemini 野心初显「 AI 操作系统」, Claude 4.0 高调抢滩编程主战场。 就在这样的节奏下, 5 月 27 日,蚂蚁集团的开源团队「接棒」发布了一张《 2025 大模型开源开发生态全景 图》。 访问地址: https://antoss-landscape.my.canva.site 完整项目列表和相关数据: https://docs.google.com/spreadsheets/d/1av9kitgnRGtsmDp6AbW96m2cCR4jXZFQmUVG2di8Bjw/edit? gid=0#gid=0 这是一张由开源社区数据驱动的技术演进路线图—— 135 个社区核心项目、 19 个技术领域, 全面覆盖从智能体应用到模型基建,系统性梳理了开源力量在大模型浪 潮下的集结与演化路径。 其中, 模型训练框架、高效推理引擎、低代码应用开发框架 成为当前最具主导力的三条技术赛道。 ...
中国团队让AI拥有「视觉想象力」,像人类一样脑补画面来思考
机器之心· 2025-05-29 07:10
在人类的认知过程中,视觉思维(Visual Thinking)扮演着不可替代的核心角色,这一现象贯穿于各个专业领域和日常生活的方方面面。 生物化学家在探索新的治疗途径时,会在脑海中构建蛋白质的三维立体结构,通过视觉化的分子间相互作用来理解复杂的生化过程;法医分析师在破解疑难 案件时,需要在心中重建犯罪现场的空间布局,通过视觉推理来验证证据之间的逻辑连接;建筑师在设计创新建筑时,会在脑海中不断勾勒和修正建筑草 图,通过视觉想象来优化空间配置和光照效果;篮球运动员在制定战术策略时,需要在脑海中构想队友的跑位路线、防守阵型的变化以及关键时刻的战术配 合,通过视觉化的场景想象来设计最佳的进攻方案;在日常决策中, 一般人也会通过「脑补」各种可能的场景图像来辅助判断和选择,用脑海中自发生成 的图像作为认知媒介。 这种视觉思维能力的独特之处在于,它能够创造概念间的独特组合和新颖连接,帮助我们发现仅通过纯文本推理无法获得的洞察和创意。而在现代认知科学 中,这种「深思熟虑」往往需要多模态的思维过程来支撑。 如今,AI 也迈出了这一步:上海交通大学、上海创智学院、复旦大学和 Generative AI Research Lab( ...
RSS 2025|从说明书学习复杂机器人操作任务:NUS邵林团队提出全新机器人装配技能学习框架Manual2Skill
机器之心· 2025-05-29 04:53
本文共同第一作者为新加坡国立大学博士生铁宸睿和多伦多大学研究助理/本科生孙圣翔。合作者为朱锦轩、刘益伟、郭京翔、胡越、陈浩楠、陈俊廷、吴 睿海。通讯作者为新加坡国立大学计算机学院助理教授邵林,研究方向为机器人和人工智能。 视觉语言模型(Vision-Language Models, VLMs),为真实环境中的机器人操作任务提供了极具潜力的解决方案。 尽管 VLMs 取得了显著进展,机器人仍难以胜任复杂的长时程任务(如家具装配),主要受限于人类演示数据和训练样本的稀缺性。 为解决这一问题,研究团队提出 Manual2Skill,一种基于 VLMs 的创新框架,使机器人能通过高级视觉说明书自主理解并执行家具装配任务,模仿人类学 习装配的过程。该方法弥合了抽象指令与物理执行之间的鸿沟,显著提升了机器人在真实操作场景中的实用性。 目前,该论文已被机器人领域顶级会议 Robotics: Science and Systems XXI(RSS 2025)接收。 论文标题:Manual2Skill: Learning to Read Manuals and Acquire Robotic Skills for Furnit ...
成本暴降88%!通义实验室、北大发布ZeroSearch,无需搜索即可激活LLM检索能力
机器之心· 2025-05-29 04:53
方法 无需搜索的强化学习框架 本文作者来自通义实验室和北京大学,第一作者是北京大学智能学院博士生孙浩,主要研究方向是RAG和Agent,在 NeurIPS、ACL、EMNLP 等国际顶级会议上 发表多篇论文,师从张岩教授。该工作在阿里巴巴通义实验室RAG团队实习期间完成。 信息检索能力对提升大语言模型 (LLMs) 的推理表现至关重要,近期研究尝试引入强化学习 (RL) 框架激活 LLMs 主动搜集信息的能力,但现有方法在训练过程中 面临两大核心挑战: 为了解决这些问题,我们提出了 ZeroSearch 框架 —— 无需真实搜索,直接用大语言模型模拟搜索引擎,并引入课程学习策略,在显著降低 88% 成本的同时,在 多项任务上性能超过依赖真实搜索引擎的方法。 传统训练方法需要在 Rollout 阶段频繁与真实搜索引擎交互,产生大量 API 开销,而大语言模型在预训练阶段积累了丰富的世界知识,具备根据 query 返回相关信 息的能力,因此 ZeroSearch 创新性地引入大语言模型作为模拟搜索引擎(Simulation LLM),无需真实搜索,即可为策略模型生成检索文档,大幅降低了训练成 本: $$\oper ...
刚刚,AI科学家Zochi在ACL「博士毕业」,Beta测试今日上线
机器之心· 2025-05-29 04:53
机器之心报道 编辑:+0 又有一个 AI Scientist 的论文通过了顶会同行评审。 今天,Intology 宣布他们的 AI 科学家 Zochi 的论文被顶会 ACL 主会录用,成为首个独立通过 A* 级别科学会议同行评审的人工智能系统 ,同时开放了 Zochi 的 Beta 测试。 Beta 注册地址:https://docs.google.com/forms/d/e/1FAIpQLSeOMmImoaOchxihSkcBUNQIT65wq62aiHq8wfnyrK0ov4kTOg/viewform 近几个月来,多个团队已证明了人工智能在研讨会级别的会议上能做出贡献,此前 Sakana 的 AI Scientist-v2 就以均分 6.25 通过了 ICLR 会议一个研讨会的同行评 审,详见机器之心报道《 AI 写的论文能过审?双盲评审 6.25 分,达到 ICLR 研讨会水平 》。 但论文被顶级科学会议的主会议录用,则意味着跨越了一个高得多的门槛。 提交给 ICLR 2025 的研讨会论文录用率约为 60-70%,而像 ACL(以及 NeurIPS、ICML、ICLR、CVPR 等)这样的顶级会议的主 ...