语言模型

Search documents
百度文心大模型4.5系列正式开源,同步开放API服务
量子位· 2025-06-30 04:39
鹭羽 整理自 凹非寺 量子位 | 公众号 QbitAI 百度文心大模型开源,如期而至。 就在今天,百度官宣文心大模型4.5系列正式开源,还同步提供API服务。 此番,百度一次性推出10款开源模型,涵盖从 47B 参数的混合专家 (MoE) 模型到轻量级 0.3B 稠密型模型,覆盖文本、多模态等多种任 务需求。 此次开源不仅权重与代码完全开放,还同步提供 API服务 ,开发者可通过飞桨星河社区、HuggingFace、百度智能云千帆平台直接下载使 用。 △ 文心大模型4.5系列开源模型 值得关注的是,文心大模型4.5开源系列遵照的是 Apache 2.0协议 。 10款模型同步开源 此次百度一次性推出10款文心大模型4.5系列开源模型,在独立自研模型数量占比、模型类型数量、参数丰富度、开源宽松度与可靠性等关键 维度上,都拿出了诚意。 文心大模型4.5开源系列,还针对MoE架构提出了一种创新性的 多模态异构模型结构 。 该结构适用于从大语言模型向多模态模型的持续预训练范式,在保持甚至提升文本任务性能的基础上,显著增强了多模态理解能力,其优越的 性能主要得益于多模态混合专家模型预训练、高效训练推理框架和针对模态的后 ...
微软推出深度视频探索智能体,登顶多个长视频理解基准
机器之心· 2025-06-30 03:18
尽管大型语言模型(LLMs)和大型视觉 - 语言模型(VLMs)在视频分析和长语境处理方面取得了显著进展,但它们在处理信息密集的数小时长视频时仍显示出 局限性。 本文提出了一种新颖的智能体 Deep Video Discovery (DVD),通过将长视频分割为更短的片段并将其视作环境,利用 LLM 先进的推理能力来思考问题并自主规 划,选择具有适当参数的工具来从环境中逐步获取信息,最终回答问题。在最新的推理模型 OpenAI o3 的帮助下, DVD 以这一简洁有效的 agentic 框架 在非常具 有挑战性的 LVBench 上以 74.2% 的准确率大幅超越了之前的工作。这一工作将以 MCP Server 的形式开源。 | welcome to the leaderboard of the Lybench! Tou can prepare your submission by following the instructions; | | | | | | | | | | | | | | | | | | | --- | --- | --- | --- | --- | --- | --- | --- | - ...
港股AGI第一股,云知声今日IPO
3 6 Ke· 2025-06-30 02:07
四闯二级市场,国内AGI龙头云知声今日终在港交所敲钟。 作为国内首批以AI为核心能力的科技公司,云知声在成立13年内总计完成10轮融资,融得逾20亿元资金,投资人不乏中网投、启明创投、中金汇融、京 东尚科等知名机构。本次登陆港交所,云知声发行价205港元,净筹2.06亿港元。 能在一级市场长期被投资机构拥簇,云知声对于技术变革的前瞻理解功不可没。云知声于2012年切入市场,恰是AI由科研转为商用的起点。风口之下, 云知声差异化押注AI语音,在物联、医疗等多个领域迅速布局。 研发方面,云知声2017年便已在Transformer算法上取得了突破,尔后自研基于BERT的大语言模型 UniCore,筑成核心平台"云知大脑"。 2023年大模型风潮初起,云知声新的"山海"大模型已经具备600亿参数支撑,它能像Open AI一样处理各类通用问题。 不过,云知声同样没能克服全球AI应用级企业"高投入高亏损"的通病。 2022年至2024年期间,云知声共取得营业收入分别为6.01亿元、7.27亿元和9.39亿元;对应亏损为3.75亿元、3.76亿元和4.54亿元,三年已亏近12亿元。 如今新一轮资金到位,等待它的是续命?还 ...
盘一盘,2017年Transformer之后,LLM领域的重要论文
机器之心· 2025-06-29 04:23
机器之心报道 机器之心编辑部 这两天 Andrej Karpathy 的最新演讲 在 AI 社区引发了热烈讨论,他提出了「软件 3.0」的概念,自然语言正在成为新的编程接口,而 AI 模型负责执行具 体任务。 Karpathy 深入探讨了这一变革对开发者、用户以及软件设计理念的深远影响。他认为,我们不只是在使用新工具,更是在构建一种全新的计算范式。 回顾 LLM 的发展历程:自 2017 年 Transformer 架构问世以来,我们见证了 GPT 系列的一路高歌猛进,以及多模态能力和端侧应用的全面开花。整个 领域正以前所未有的速度演进。 要深入理解这场变革的本质,我们需要回到技术的源头。那些奠定今天 AI 能力的关键论文,不仅记录着算法的演进轨迹,更揭示了从传统编程到自然语言 交互这一范式转变的内在逻辑。 此前我们通过 50 个核心问题回顾了 LLM 的基础概念 。今天,我们将梳理自 2017 年以来 LLM 领域的重要论文。本文从 X 用户 Pramod Goyal 的论文 盘点中精选了 22 篇进行详细介绍,其余论文将在文末列出供读者参考。 奠基理论 Attention Is All You Need ...
Gary Marcus惊世之言:纯LLM上构建AGI彻底没了希望!MIT、芝大、哈佛论文火了
机器之心· 2025-06-29 04:23
机器之心报道 编辑:杜伟、大盘鸡 今天,著名的人工智能学者和认知科学家 Gary Marcus 转推了 MIT、芝加哥大学、哈佛大学合著的一篇爆炸性论文,称 「对于 LLM 及其所谓能理解和推理的神话 来说,情况变得更糟了 —— 而且是糟糕得多。」 这项研究揭示了一种被称为「波将金式」(Potemkins)的推理不一致性模式(见下文图 1)。研究表明,即使是像 o3 这样的顶级模型也频繁犯此类错误。基于这 些连自身论断都无法保持一致的机器,你根本不可能创造出通用人工智能(AGI)。 Gary Marcus 认为, 这宣告了任何试图在纯粹 LLM 基础上构建 AGI 希望的终结。 最后,他还 @了 Geoffrey Hinton,称后者要失败(checkmate)。 接着,Gary Marcus 又接连发推,分享了他对这篇论文的更多看法。 他称基于非正式测试,发现像 o3 这类模型似乎较不容易陷入简单的「波将金式错误」,但并非完全免疫。 正如论文所言:在基准测试上的成功仅证明了「波将金式理解」:一种由「与人类对概念的理解方式完全不可调和的答案」所驱动的理解假象…… 这些失败反映 的不仅是理解错误,更是概念表征深 ...
ChatGPT,救了我的命
Hu Xiu· 2025-06-28 05:51
本文来自微信公众号:APPSO,作者:appso,题图来自:AI生成 不开玩笑,ChatGPT 真的能救命。 最近 Reddit 上一位用户发帖称,他们朋友几人骑着 ATV(越野沙滩车)在一片未标记的森林小路迷路了 5 个小时,尝试了 Google Maps,Polaris,ATV 专 用地图应用……结果都没用,因为这些地图只会显示主干道。 后来有人开始求助 ChatGPT:每隔几分钟就把 GPS 坐标发给它,结果 GPT 回复了清晰的指南针指示、道路名称和地形信息,最后顺利引导他们安全回 家。 那这样看来,"导航克星"重庆的"8D 魔幻交通"是不是也有救了? 不过在此之前,我们想确认一个问题:ChatGPT 这次成功是"幸存者偏差"吗?比如评论区有不少网友质疑并提出 AI 幻觉的风险。还是说它真的能有效应 用于户外导航任务? 在野外导航,AI 能比 Google Maps 更好用?劝你留个心眼 X 博主 Rohan Paul 发帖称,现在已经有很多研究证明,使用大语言模型来进行户外导航,效果甚至比传统地图还要好。 比如,今年 5 月份发表在 Translational Vision Science & Te ...
从后训练回到预训练,LLM+RL 的潜力兑现有有机会走更远吗?
机器之心· 2025-06-28 05:22
都是 NPT,用 RL 做预训练的潜力更大吗?为什么强化学习里很少有预训练模型?最流行的 RL 范式有何理论缺陷? 已有成效 的后训练 RL 实现存在什么问题? 2. 硅谷 AI Leaders 近期「暴论」大盘点! 1.从后训练回到预训练,LLM+RL 的潜力兑现有有机会走更远吗? 未来订阅 ChatGPT 就送人形机器人?AGI 为什么可能永远无法实现?为什么 AI 比程序员更显性价比?行业大模型真的没必要 吗?做好研究不如写好推文?OpenAI 和 Nvidia 的「AI 工厂」有何区别? 本期完整版通讯含 2 项专题解读 + 29 项 AI & Robotics 赛道要事速递,其中技术方面 11 项,国内方面 9 项,国外方面 9 项。 本期通讯总计 23143 字,可免费试读至 9% 机器之心PRO · 会员通讯 Week 26 --- 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 --- ① LLM 预训练对监督数据的需求趋于无穷,且需要覆盖尽可能所有遇到的问题,同时要求监督信号必须准确无 误,从而保证模型正确性。 ② 两项要求在现实中均难以实现,原因在于高质量人类标注数据 ...
航空发动机用上大模型:解决复杂时序问题,性能超越ChatGPT-4o实现SOTA|上交创智复旦
量子位· 2025-06-28 04:42
ITFormer团队 投稿 量子位 | 公众号 QbitAI 时序数据分析在工业监控、医疗诊断等领域至关重要。 比如航空发动机监控这个复杂工业场景中,工程师需分析海量多通道传感器数据,以判断设备状态并制定维护决策。 然而,现有研究多聚焦于分类、预测等单一任务,与实际工业场景中专家通过自然语言进行复杂交互和决策的需求存在显著差异。 上海交通大学航空航天学院李元祥教授团队 、上海创智学院、复旦大学数据科学学院团队以航空发动机运维为背景,提出 高效、可迁移的时 序-语言桥接架构—— ITFormer ,将专家诊断过程抽象为"理解、感知、推理、决策"四个认知层次,并首次系统性地定义为"时序问答"任务 范式。 团队 基于NASA航空发动机数据,构建了包含11万余问答对的EngineMT-QA数据集。 该数据集的任务设计紧密贴合专家的认知流程,为评 估模型在真实工业场景下的推理能力提供了首个标准化基准。 结果显示,ITFormer以模块化设计实现了时序数据与大语言模型的高效融合,仅需训练不足1%的额外参数,便可在通用时序问答数据集上表 现出优越的性能和良好的迁移能力,展现了卓越的"即插即用"特性。 它可无缝适配Patch ...
DeepSeek-R2为什么还没发?
量子位· 2025-06-27 08:09
一水 发自 凹非寺 量子位 | 公众号 QbitAI 全网翘首以盼的 DeepSeek-R2 ,再次被曝推迟! 据The Information报道,由于DeepSeek CEO梁文锋始终对R2的表现不满意,因此R2迟迟未能发布。 此外,他们还援引两位国内知情人士的消息称,R2研发进程缓慢可能是由于 缺少英伟达H20芯片 。 要知道R1的训练总计耗费了3万块H20 (国内特供版) 、1万块H800和1万块H100。 所以在H20吃紧的情况下,预计耗费更多算力资源的R2难免受到波及。 事实上,这不是R2第一次被曝项目延期了,最早能追溯到今年4月—— 一览R2"难产"始末 仔细一梳理,原来人们对R2的期待, 早在V3新版本出来后就开始了 。 去年12月底,DeepSeek发布了至今被视为"性价比代表"的DeepSeek-V3模型。到了今年3月24日,官方发布公告称对V3进行了一次升级, 新版本代号为V3-0324。 虽然官方轻描淡写只说是"小版本升级",但很多人实测下来可一点也不小。 于是人们开始推测,在V3-0324已经取得明显进步的情况下,是不是可以用它来训练R2模型。 这里需要补充一下,DeepSeek主打 ...
AgentAuditor: 让智能体安全评估器的精确度达到人类水平
机器之心· 2025-06-27 04:02
论文题目: AgentAuditor: Human-Level Safety and Security Evaluation for LLM Agents 论文链接: https://arxiv.org/abs/2506.00641 LLM 智能体(LLM Agent)正从 "纸上谈兵" 的文本生成器,进化为能自主决策、执行复杂任务的 "行动派"。它们可以使用工具、实时与环境互动,向着通用人工 智能(AGI)大步迈进。然而,这份 "自主权" 也带来了新的问题:智能体在自主交互中,是否安全? 研究者们为这一问题提出了许多基准(benchmark),尝试评估现有智能体的安全性。然而,这些基准却面临着一个共同的问题:没有足够有效、精准的评估器 (evaluator)。传统的 LLM 安全评估在单纯的评估生成内容上表现优异,但对智能体的复杂的环境交互和决策过程却 "鞭长莫及"。现有的智能体评估方法,无论 是基于规则还是依赖大模型,都面临着 "看不懂"、"看不全"、"看不准" 的困境:难以捕捉微妙风险、忽略小问题累积、对模糊规则感到困惑。基于规则的评估方 法往往仅依靠环境中某个变量的变化来判断是否安全,难以正确识别智能 ...