AI科技大本营

Search documents
面壁MiniCPM4端侧模型发布:长文本推理 5 倍提速,0.5B 模型拿下新SOTA
AI科技大本营· 2025-06-10 09:31
MiniCPM4.0 -0.5B 在性能上,也展现出惊人的以小博大—— 在MMLU、CEval、BBH、HumanEval等基准测试中,MiniCPM4.0 -0.5B性能秒杀同级 的 Qwen-3-0.6B、Llama 3.2、Gemma3,并通过原生QAT技术实现几乎不掉点的int4量化,实现了 600 Token/s 的极速推理速度。 模型相关链接 https://arxiv.org/pdf/2506.07900 「前进四」速度狂飙,快至220 倍! 2025 智源大会,新一代「面壁小钢炮」 MiniCPM4.0 端侧模型发布。一款 8B 稀疏闪电版,带来端侧性能创新式大跃升;一款 0.5B 实力演绎以小博 大,适配广泛终端场景。 MiniCPM4.0 -8B 是首个原生稀疏模型,5%的极高稀疏度加持系统级创新技术的大爆发,让长文本、深思考在端侧真正跑起来,宣告了端侧长文本时 代到来。 MiniCPM4.0 -8B 在MMLU、CEval、MATH500、HumanEval等基准测试中,以仅 22% 的训练开销,性能比肩 Qwen-3-8B,超越Gemma-3-12B。 代号「前进四」,小钢炮 Mini ...
当 AI 能写代码修 bug,高考报计算机专业是“火坑”还是“新机遇” |深度对话 6 位专家
AI科技大本营· 2025-06-10 09:31
从"高考志愿填报导师"张雪峰推出的 17999 元的高考志愿填报服务不到 3 分钟便被抢购一空可见填报专业就有多火爆,而计算机和人工智能更是他经 常推荐的专业。 一年一度的高考已经结束,今年共有 1335 万名考生踏入考场,如果说考试是考生的战场,那么让无数家庭真正反复权衡、难以抉择的,其实是考后的 另一道大题——「填什么专业」。 作者 | 梦依丹 出品丨AI 科技大本营(ID:rgznai100) 而今年,在 AI 浪潮的席卷之下,这道选择题更添了几分迷思与变数: 当 AI 能编写谷歌 25% 的新代码、修复 52% 的程序漏洞…… 几乎所有 Claude Code 的代码都是用它自己反复编写和重构的时…… 曾几何时,一行行代码的敲击是软件工程师的日常。在传统范式下,程序员需要将需求转化为详细的逻辑流程,再用特定语法逐行实现功能。 而如今,以大模型为核心的编程范式,正在从"写代码"转向"写意图"。程序员不再是从零构造者,而是通过自然语言与 AI 对话、协商、迭代,逐步生 成最终代码。 这样的变革,不仅改变了开发方式,也正在悄然改变开发岗位的结构。 当下火爆的 AI 编程智能体 Claude 公司的首席产品官 ...
对话 PyTorch 掌门人 Matt White:AI 应用应该做到“润物细无声”
AI科技大本营· 2025-06-09 10:41
作者 | 王启隆 出品丨AI 科技大本营(ID:rgznai100) 席卷全球的 AI 淘金热中,一个词正被悄悄地掏空——那就是 "开放" 。 近日,PyTorch 基金会执行董事、Linux 基金会 AI 总经理 Matt White 在北京智源大会 揭示了一个 充满张力的现实:一方面,开源吞噬世界,AI 的开源更形成了一个自我加速的"良性循环";但另一 方面,一场围绕"开放"定义权的无声战争已经打响。 这是我们这个时代的十字路口:是任由"开放"沦为一个漂亮的营销词汇,还是为它注入坚实的灵魂? 在演讲中,Matt White 带来了两件精心铸造的"武器":一张名为 "模型开放框架"(MOF) 的地 图,用清晰的等级标准终结含糊,让真正的开放者得以彰显;以及一本名为 "OpenMDW 许可证" 的护照 ,专为 AI 模型打造,给予使用者最大限度的自由。 他的演讲,与其说是一次技术分享,不如说是一份宣言,一份行动指南。它为我们接下来这场更深入 的对话,精准地校对了焦距。 在演讲结束后,我们与 Matt White 坐下来,继续探寻这场"为开放而战"的深层动机与未来图景。 《新程序员》 :嗨 Matt,我们其实和 ...
从「记忆解题」到「深度推理」:港科大推出首个本科数学动态评测基准 UGMathBench
AI科技大本营· 2025-06-09 10:41
数学推理能力作为衡量模型智能水平的关键指标,需对其进行全面公平的评估。然而,现有的 GSM8K、MATH 数学基准因覆盖不足和易被数据污染饱 受诟病,要么缺乏对本科水平数学问题的广泛覆盖,要么可能受到测试集的污染。 为了填补这些空白,来自香港科技大学的研究团队近日发表在 ICLR 2025的最新研究 UGMathBench——首个针对本科数学的多元化动态评测体系, 专为评估 LLM 在本科阶段各类数学主题下的推理能力而设计。它提供了动态多样的评估工具,首次将数学推理评测带入「动态污染防控」时代, 标志 着 LLMs 数学推理评估从"浅层解题"迈向"深层理解"。 论文地址:https://arxiv.org/pdf/2501.13766 | AGI-Eval | 评测榜单 入人机竞赛 | 评测集社区 | Data Studio 団 | | | など | | --- | --- | --- | --- | --- | --- | --- | | | 评测集社区:UGMathBench | | | | | | | | UGMathBench ☞▩ | | | | 我要参评 | | | | UGMathBench 是 ...
从「记忆解题」到「深度推理」:港科大推出首个本科数学动态评测基准 UGMathBench
AI科技大本营· 2025-06-09 09:41AI Processing
数学推理能力作为衡量模型智能水平的关键指标,需对其进行全面公平的评估。然而,现有的 GSM8K、MATH 数学基准因覆盖不足和易被数据污染饱 受诟病,要么缺乏对本科水平数学问题的广泛覆盖,要么可能受到测试集的污染。 为了填补这些空白,来自香港科技大学的研究团队近日发表在 ICLR 2025的最新研究 UGMathBench——首个针对本科数学的多元化动态评测体系, 专为评估 LLM 在本科阶段各类数学主题下的推理能力而设计。它提供了动态多样的评估工具,首次将数学推理评测带入「动态污染防控」时代, 标志 着 LLMs 数学推理评估从"浅层解题"迈向"深层理解"。 论文地址:https://arxiv.org/pdf/2501.13766 | AGI-Eval | 评测榜单 入人机竞赛 | 评测集社区 | Data Studio 団 | | | など | | --- | --- | --- | --- | --- | --- | --- | | | 评测集社区:UGMathBench | | | | | | | | UGMathBench ☞▩ | | | | 我要参评 | | | | UGMathBench 是 ...
Claude Code 首席工程师揭秘 AI 如何重塑开发日常!
AI科技大本营· 2025-06-07 09:42
AI 正在颠覆软件开发! 原文链接:https://www.youtube.com/watch?v=Yf_1w00qIKc 责编 | 梦依丹 出品丨AI 科技大本营(ID:rgznai100) AI 正在颠覆软件开发! 近日,Anthropic 发布了其技术专家 Boris Cherny(Claude Code 首席工程师)与 对外沟通负责人 Alex Albert 的深度对话,揭秘了 AI 编程工具 Claude Code 的诞生、核心能力、使用技巧以及未来展望。从终端的普适性到新模型的强大赋能,再到 Claude.md 文件的妙用,一个由 AI 辅助甚至 主导的编程新时代正加 速到来。 在 Boris 与 Alex 的对谈中,他们围绕 Claude Code 的产品定位、差异化能力和使用体验进行了深入交流。 对话精彩摘要: 超 3 0 0 0 人的「AI 产品及应用交流」社群,不错过 AI 产品风云!诚邀所有 AI 产品 及应用从业者、产品经理、开发者和 创业 者,扫码加群: 进群后,您将有机会得到: · 最新、最值得关注的 AI 产品资讯及大咖洞见 这源于我们 Anthropic 工程师和研究员们平时用 ...
对话智源王仲远:具身智能“小组赛”才刚刚开打,机器人需要“安卓”而非 iOS
AI科技大本营· 2025-06-07 09:42
悟道 1.0 发布时,学术界对" 大模型是通往 AGI 的技术路线 "尚未得出统一结论。 现在的具身智能,也处于这个阶段。 作者 | 王启隆 出品丨AI 科技大本营(ID:rgznai100) 大模型的热潮之下,一种微妙的瓶颈感,正成为行业共识。 "过往所说的 '百模大战',更多是大语言模型的竞争," 智源大会前夕, 智源研究院院长王仲远 在 与 CSDN 的对话中,开门见山地指出了问题的核 心,"而大语言模型受限于互联网数据的使用,性能虽然还在提升,但速度已大不如前。" 出路何在?在王仲远看来,AI 要突破天花板,就必须在"读万卷书"(互联网数据)后,去"行万里路"(物理世界)。 这并非孤立的判断。今年三月, 英伟达 CEO 黄仁勋就在 GTC 大会上为 AI 的下半场指明了方向 :打造"AI 工厂",迎接"物理 AI"时代,让 AI 走出屏 幕,与现实世 界交互。 思考趋于一致,行动便接踵而至。6 月 6 日,CSDN 在北京智源大会现场,见证了王仲远在他的主题演讲中给出的答案。如果说 2021 年的"悟道"系列 代表着对技术路径的探索(" 道 "),那么他所揭晓的全新"悟界"系列,则亮明了新的野心——用 ...
强化学习之父Richard Sutton:人类数据耗尽,AI正在进入“经验时代”!
AI科技大本营· 2025-06-06 10:18
文 | 郑丽媛 出品丨AI 科技大本营(ID:rgznai100) 过去这一年,AI 世界风云再起。 从 DeepSeek R1 、OpenAI o3 的激烈竞逐,到 AI 智能体频频登上技术热榜;从"推理能力"成为衡量大模型的新标准,到人形机器人、具身智能 (Embodied Intelligence)被寄予厚望……我们正站在 AI 技术快速演进的关键时刻。 然而,在这些热闹表象的背后,一场更深层的技术讨论也正在 悄然发生: 我们真的了解智能吗?我们构建的 AI 真的在"学习"吗? 在这样一个值得深思的节点, 加拿大阿尔伯塔大学计算科学系教授、图灵奖得主 Richard Sutton 在 6 月 6 日举行的北京智源大会上,带来了一场名为 《 欢迎来到经验时代 (Welcome to the Era of Experience) 》的 主题演讲。 在 整场演讲中, Richard Sutton 没有谈模型架构、参数量,没有讲热门的大语言模型, 也没有 讨论 多模态系统的未来路线图——他选择回到 AI 的第 一性原理, 提出了一个颠覆直觉、却极具穿透力的主张: 真正的智能,应该来源于经验,而不是人类预设的数据 ...
“AGI 五年内或将实现”:AI 教父 Bengio 呼吁中美达成共识,警惕 AI 沦为人类武器
AI科技大本营· 2025-06-06 10:18
【编者按】作为深度学习三巨头之一,图灵奖得主、AI 教父 Yoshua Bengio 在 2025 北京智源大会上,他表示: AI 能完成的任务时长,每七个月就翻一 番,大约五年后,AI 就将达到人类水平, 通用人工智能(AGI)或将在五年内到来,而人类社会却尚未在规则、立法乃至全球治理层面达成一致。 整理 | 梦依丹 出品丨AI 科技大本营(ID:rgznai100) 自从 ChatGPT 横空出世,AI 进入了加速进化的轨道。从最初能写代码、生成文案,到如今能上网查资料、远程操控家电,它早就不再是那个只会聊天 解闷的"电子嘴替"。它开始自己"思考"任务,能在多个软件之间协同操作,甚至具备控制电脑、读写数据库的能力。AI 从幕后算法,变成了贴身助 手,再逐步演化成能自主执行复杂操作的"智能体"——从"听话"走向"行动",它正成为一个真正能"做事"的多面选手。 他呼吁,我们正处在一个关键的时间窗口,必须尽快建立可验证、安全、负责任的控制机制。 演讲伊始,Bengio 教授便分享了一段深刻的个人心路历程。他坦言,在亲身体验 ChatGPT 并目睹 AI 飞速进化后,深感此前对 AI 失控风险的认知不 足。而一个 ...
图灵奖得主 Bengio 官宣创业:要在 AGI 到来前守住 AI 最后一公里
AI科技大本营· 2025-06-05 02:22
"坐在我身边的是我的孩子,我的孙辈,我的学生,还有许多其他人。那你呢?是谁坐在你的副驾驶座?"——图灵奖得主 Yoshua Bengio 在 TED 演讲中发 出灵魂提问,沉甸甸地指向 AI 时代的人类命运共同体。 当「AGI」正以令人眩目的速度逼近,谁在为"安全"这道防线筑基? 整理 | 梦依丹 出品丨AI 科技大本营(ID:rgznai100) 图灵奖得主、深度学习奠基人、全球被引用次数最多的 AI 科学家 Yoshua Bengio 官宣创业。成立一家名为 LawZero 非营利 AI 安全研究机构,以"安 全优先"原则回应人工智能可能带来的系统性风险。 LawZero 是一家以研究和技术开发为核心使命的非营利组织,旨在构建"设计即安全"的 AI 系统,并组建一支由世界顶尖研究者组成的技术团队。 "当前的 AI 系统已展现出自我保护和欺骗行为迹象,而随着其能力和自主性的增强,这种趋势只会加速。"Bengio 在博文中列出了多个案例: 以上这些 AI 行为所展现出来的是 AI 系统在缺乏安全约束机制下,可能发展出不受控制的目标偏差与策略选择。 深度学习三巨头纷纷发出 AI 安全警告 作为 AI 领域的殿堂 ...