Workflow
多智能体
icon
Search documents
「0天复刻Manus」的背后,这名95后技术人坚信:“通用Agent一定存在,Agent也有Scaling Law”| 万有引力
AI科技大本营· 2025-07-11 09:10
以下文章来源于CSDN ,作者万有引力 CSDN . 成就一亿技术人 嘉宾 | 范文栋 对话 | 唐小引 责编 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 今年 3 月,Manus 的横空出世,引爆 了 新一轮 的 AI Agent 热潮 。 人们惊讶地发现,原本复杂繁琐的任务流,如今一个 Agent 就能自动规划、调用工具、执行操作,甚至还能主动 Debug 和自我修复——生成式 AI 从" 语言理解"向"任务执行"演化, Agent 也 不再是只能聊天的大语言模型,而是可以"动手做事"的数字助手 。 然而,在 这场技术热潮中,质疑与分歧也接踵而至:" Agent 的 Scaling Law 是否存在 "、" 通用 Agent 是否真的可行 " , 这些 问题 引发了广泛的 争议与探讨。一方面,部分研究者坚信,随着模型技术的进步,Agent 将能实现从特定任务向通用能力的跨越;而另 一 方面,也有声音指出 , 所谓 的"通用 Agent", 或许 只 是一套被过度期许的工程幻象。 为了解答这些技术 争议,由 CSDN 主办 的《万有引 力》栏目 在 全球机器学习技术大会 的现场特别邀请到了 C ...
马斯克发布“地球最强AI模型”Grok 4:横扫所有榜单,在“人类最终测试”超越人类博士”!
AI科技大本营· 2025-07-10 07:14
北京时间 7 月 10 日,原定于上午 11 点的 xAI Grok 4 发布会,在万众瞩目中"鸽"了整整一小时。期间评论数飙升至 4200 条,转发超 2000 次,点赞 破万,140 万观众在线催更。这期间,xAI 的官推评论区成了大型许愿池和段子集散地。 作者 | 王启隆 出品 | CSDN(ID:CSDNnews) 毕竟,发布会前,老板马斯克亲自下场,在办公室搭帐篷、通宵达旦进行"最后一次大规模训练"的消息早已传遍网络。人们迫切想知道,是怎样的"核武 器",值得如此阵仗。 事实证明,这场等待是值得的。马斯克和他的团队带来的 Grok 4,不仅是一次模型的常规升级,更像是一场对现有 AI 能力边界的悍然宣告。 王座易主?Grok 4 制霸 大模型 考场 发布会的核心,首先是一系列令人瞠目结舌的基准测试(Benchmark)成绩。如果说过去的 AI 评测是诸神之战,那么 Grok 4 的登场,则 是 诸神黄昏 。 最引人注目的,无疑是"人类最终测试"(Humanity's Last Exam, HLE)的成绩。 这是一个涵盖了数学、有机化学、语言学、法学等多个博士级别难 题的超高难度测试,旨在检验 AI ...
师兄自己发了篇自动驾大模型,申博去TOP2了。。。
自动驾驶之心· 2025-07-09 12:56
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 大模型在自动驾驶功能上的落地逐渐清晰化,理想、华为等公司开始推行自己的VLA、VLM方案。那么下一代大 模型需要关注的点有哪些呢? 按照早期自动驾驶技术发展的规律,当数据和方案基本验证有效后,开始重点关注轻量化与硬件适配、知识蒸馏与 量化加速、高效微调大模型等方向! 除此之外目前大火的CoT方案也是后期完成空间感知的重点,VLA+强化学习等高级推理范式也被行业重点关注。 这些问题是学术界和工业界亟需要解决的,相关的论文研究受到审稿人的青睐,国内外越来越多的团队正在从事相 关方向研究。我们了解到不少同学靠着自己的努力,发了篇和自动驾驶相关的大模型工作,申博去了TOP2!前面 收到很多同学的求助,希望能够辅助开展大模型相关的论文指导研究,解决无人带发论文,缺乏指导的痛点。 自动驾驶之心联合业内知名大模型方向学者,开展了1v6的大模型论文指导小班课,解决无人带、易踩坑、不知如 何写稿、投稿的难题。 ⼀、课程介绍⭐ 随着大语言模型(LLM)和多模态模型的快速发展,如何提升模型效率、扩展知识能力以及增强推理性能已成为 ...
DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌
量子位· 2025-07-09 04:57
西风 发自 凹非寺 量子位 | 公众号 QbitAI "人类最后的考试"首次 突破30分 ,还是咱国内团队干的! 该测试集是出了名的超难,刚推出时无模型得分能超过10分。 直到最近, 最高分也不过26.9 ,由Kimi-Research和Gemini Deep Research并列取得。 现在,上海交大联合深势科技团队突然发布了一项新研究,在"人类最后的考试" (HLE,Humanity's Last Exam) 上一举拿下 32.1分 , 创下新纪录。 在这项研究中,团队推出 工具增强推理智能体X-Master 、 多智能体工作流系统X-Master s。 划重点:还直接把这套方案给 开源 了。 网友们纷纷感叹现在AI竞赛太激烈,一天一个样。 另外值得一提的是,这项研究 使用了DeepSeek-R1-0528作为驱动智能体的推理模型 ,由此也有网友表示: R1在函数调用上表现仍欠佳,而且在这项研究里甚至没有针对这一点进行微调。但即便如此,只要给它搭配合适的框架,它在HLE这 个难度很高的测试中就能拿到32%的成绩。 虽然大家可能会习惯性地称R1为"最佳基础模型",但我觉得这其实是给V4打下了基础。我敢肯定, ...
给你一群顶尖AI,如何组队才能发挥最大战力?UIUC用一个新的多智能体协作基准寻找答案
机器之心· 2025-07-09 04:23
朱昆仑是伊利诺伊大学香槟分校(UIUC)计算机科学系的研究生,现隶属于Ulab与Blender Lab,曾在斯坦福大学、卡内基梅隆大学(CMU)与蒙特利尔学习算 法研究所(Mila)进行学术访问。他的研究方向包括大语言模型(LLM)智能体、多智能体系统、AI科学家与工具学习等,在ICML、ICLR、ACL、TMLR等顶 级会议与期刊发表论文10余篇,总引用超过1500次。 他积极参与多个广泛影响的开源项目,包括 OpenManus(RL)、ChatDev(MACNET)、ToolBench 等,累计 在 GitHub 上获得超过 5万+ stars。此外,他曾受邀在 AMD 开发者大会、阿里巴巴云栖大会等重要学术与工业会议中作报告,分享其在AI智能体方面的开源成 果。 这不仅是一个评测集,更是首个能够全面、系统化地评估 LLM 多智能体系统协作与竞争能力的综合性基准。它不仅仅是一套「考题」,而更像一个「模拟 真实社会动态的实验室」,旨在揭示多智能体协作的奥秘,并回答一系列关键问题: …… 论文标题: MultiAgentBench:Evaluating the Collaboration and Compet ...
大模型在自动驾驶后期的落地与研究方向有哪些?
自动驾驶之心· 2025-07-07 23:31
大模型在自动驾驶功能上的落地逐渐清晰化,理想、华为等公司开始推行自己的VLA、VLM 方案。那么下一代大模型需要关注的点有哪些呢? 按照早期自动驾驶技术发展的规律,当数据和方案基本验证有效后,开始重点关注轻量化与硬 件适配、知识蒸馏与量化加速、高效微调大模型等方向! 除此之外目前大火的CoT方案也是后期完成空间感知的重点,VLA+强化学习等高级推理范式 也被行业重点关注。 这些问题是学术界和工业界亟需要解决的,相关的论文研究受到审稿人的青睐,国内外越来越 多的团队正在从事相关方向研究。前面收到很多同学的求助,希望能够辅助开展大模型相关的 论文指导研究,解决无人带发论文,缺乏指导的痛点。 自动驾驶之心联合业内知名大模型方向学者,开展了1v6的大模型论文指导小班课,解决无人 带、易踩坑、不知如何写稿、投稿的难题。 ⼀、课程介绍⭐ 解决只了解大模型相关零散知识,没有清晰的体系的问题,帮助系统掌握指定方向的重点理论知 识,同时做适当拓展,让学员对指定方向内容形成更清晰的体系; 解决没有方向,动手能力差,无法复现论文,帮助同学将模型理论与代码实践相结合,协助同学 开发设计新模型铺垫基础;能让学员将baseline深化拓 ...
MCP 已经起飞了,A2A 才开始追赶
AI前线· 2025-07-07 06:57
作者 | 李冬梅 采访嘉宾|郭伟、汪晟杰 6 月 24 日,谷歌云官宣将 A2A(Agent-to-Agent)协议捐赠给了 Linux 基金会,消息一出引发了 AI 行业地震。这份包含智能体交互协议、SDK 和开发者工具的开源礼包,背后站着亚马逊、微软、思 科等科技巨头组成的"全明星"阵容。 Google Cloud 副总裁兼商业应用平台总经理 Rao Surapaneni 表示:"通过与 Linux 基金会和领先的 技术提供商合作,我们将在值得信赖的开放治理框架下,实现更具创新性和价值的 AI 功能。" 在外界看来,谷歌云捐赠开源 A2A 的决策有点耐人寻味。在 Reddit 平台,有评论认为谷歌这么做是 对 Anthropic MCP 协议、OpenAI 函数等竞品的战略应对,但同时也揭示了行业共识:智能体经济需 要共建底层规则。 也有用户认为,MCP 已经起飞了,A2A 才开始追赶。 甚至有人厌倦了谷歌,认为 A2A 不会成功。 在 A2A 协议引发热议的同时,MCP 已经在企业级市场悄然生根。与 A2A 侧重智能体间通信不同, MCP 解决的是更基础的问题:如何让 AI 模型安全高效地调用现实世界中 ...
探索金融多领域应用 中财融通大模型及上市公司研报智能体发布
Sou Hu Cai Jing· 2025-07-06 14:55
中财融通大模型及上市公司研报智能体CUFEL-A7月5日在中央财经大学主办的2025中关村论坛系列活动-全球财经论坛上正式发布。 王靖一介绍,CUFEL-A智能体通过"资料汇总、规划、架构与反思、撰写"四个步骤,可以对A股上市公司产出独立原创、深度科学的研究报告。研究团队基 于"生成式""端到端""多智能体系统整体强化学习"三大原则构建研报评估算法,基于数十万份券商研报构建研报评价算法,提升研报撰写质量。 "CUFEL-A是我们对人工智能在金融应用范式的第一次探索,这种问题解决流程可以迁移至其他金融领域:基于头部大模型构建多智能体系统产出高质量成 果,通过部署应用产出数据;数据用于微调轻量化模型,轻量化模型部署回多智能体系统满足行业本地化部署需求。"王靖一说。 上证报中国证券网讯(记者 刘暄)中财融通大模型(Chinese Unified Financial and Economic LLMs,下称CUFEL)及上市公司研报智能体CUFEL-A7月5日在 中央财经大学主办的2025中关村论坛系列活动-全球财经论坛上正式发布。 据了解,该模型由中央财经大学金融学院师生团队自主研发。王靖一透露,当前,团队正积极与 ...
ICML 2025 | 多智能体的ChatGPT时刻?上交MAS-GPT实现工作流一键生成
机器之心· 2025-07-05 02:46
本文第一作者叶锐,上海交通大学博士三年级,研究方向是大模型多智能体,联邦学习,博士导师陈思衡,上海交通大学人工智能学院副教授。 OpenAI 将 "组织级智能 (Organizational AI)" 设定为通向 AGI 的第五个重要阶段 —— 期待 AI 能像一个高效协作的组织那样,处理复杂任务并协调大规模运作。多 智能体系统(Multi-Agent Systems, MAS)正是实现这一目标的重要探索方向。 然而,构建能够支撑这种复杂智能的 MAS 并非易事,研究者们常面临结构繁多、Prompt 调试耗时、难以解决通用任务等挑战…… 如今,一种全新的方法出现了,由上海交通大学人工智能学院、上海人工智能实验室、牛津大学等机构联合推出的 MAS-GPT,正式提出: 生成式 MAS 设计范 式 , 只需一句 Query,就能 "一键生成" 一套可执行、组织清晰的 MAS! 这意味着,构建 MAS 变得 " 像与 ChatGPT 聊天一样简单,一个问题直出完整多智能体系统 "!MAS-GPT,正努力让这条通往 AGI 第五阶段的道路,变得更加 平坦和高效。 该工作 "MAS-GPT: Training LLMs ...
大模型这个坑,还有哪些可以发论文的点?
具身智能之心· 2025-07-05 02:25
随着大语言模型(LLM)和多模态模型的快速发展,如何提升模型效率、扩展知识能力以及增强推理性能已成 为当前人工智能研究的核心议题。我们联合业界知名大模型专家,为大家退出了大模型1v6论文辅导小班课! ⼀、有关大模型核心的几个点⭐ 本课程系统性地探讨大模型的前沿优化方法,重点研究参数高效计算、知识动态扩展和复杂推理三大方向的关键 技术。我们将深入分析大模型优化中的核心挑战:在参数压缩方面,研究剪枝稀疏化和量化加速等轻量化方法; 在知识扩展方面,探索检索增强生成(RAG)和参数高效微调(PEFT)等动态知识注入技术;在推理优化方 面,研究链式思维(CoT)和强化学习优化(GRPO)等高级推理范式。同时,课程还将探讨多智能体协作和多 模态理解等前沿方向。 通过本课程的学习,你将掌握大模型优化的核心算法,包括但不限于:结构化剪枝、低比特量化、动态检索、角 色化智能体、多跳推理等关键技术。课程采用理论讲解与实验实践相结合的方式,使用主流大模型(如 LLaMA、GPT等)作为实验平台,重点培养学生在模型优化和推理增强方面的研究能力。 关键词:大模型优化;参数高效计算;检索增强生成;链式推理;多智能体协作;多模态理解 ⼆、 ...