语言模型

Search documents
MiniMax重磅开源M1模型:百万上下文超DeepSeek R1,实现性能与效率双杀
AI科技大本营· 2025-06-17 02:32
Core Insights - MiniMax has officially open-sourced its latest large language model, MiniMax-M1, marking a significant development in the AI landscape [2][4] - MiniMax-M1 is recognized as the world's first open-weight large-scale hybrid attention inference model, showcasing substantial breakthroughs in performance and inference efficiency [4][6] Model Specifications - MiniMax-M1 features a parameter scale of 456 billion, with each token activating approximately 45.9 billion parameters, and supports a maximum context length of 1 million tokens, which is 8 times longer than that of DeepSeek R1 [7][12] - The model's computational load (FLOPs) for generating 100,000 tokens is only 25% of that required by DeepSeek R1, indicating a significant advantage in long text processing tasks [7][12] Training and Efficiency - The training of MiniMax-M1 utilized a large-scale reinforcement learning (RL) strategy, optimizing performance across various tasks, including mathematical reasoning and software engineering [9][11] - The complete RL training of MiniMax-M1 was accomplished in three weeks using 512 H800 GPUs, with a cost of approximately $534,700, demonstrating high efficiency and cost-effectiveness [11] Performance Comparison - MiniMax-M1 is available in two versions, with maximum generation lengths of 40K and 80K tokens, and has shown superior performance in complex software engineering, tool usage, and long-context tasks compared to leading open-weight models like DeepSeek-R1 and Qwen3-235B [12][19] - In benchmark tests, MiniMax-M1 outperformed other models in various categories, including long-context understanding and tool usage, establishing itself as a strong contender in the AI model landscape [19]
AI成为数学家得力助手还要多久
Ke Ji Ri Bao· 2025-06-17 01:18
为了打破这一局面,美国国防高级研究计划局今年4月启动了"指数性数学"计划,旨在开发一种能 极大提升数学研究效率的人工智能(AI)"合著者"系统。 几十年来,数学家借助计算机进行辅助计算或验证命题,如今的AI或许能更上层楼,挑战那些人 类长年未解的难题。不过,从能解高中题的AI,到能协助攻克前沿数学难关的AI,中间仍隔着一道鸿 沟。 解决重大难题仍力不从心 大型语言模型(LLM)并不擅长数学。它们常常出现"幻觉",甚至可能被误导相信2+2=5。但新一 代大型推理模型,如OpenAI的o3、Anthropic的Claude 4 Thinking等,展现出的进步令数学家眼前一亮。 今年,这些模型在美国数学邀请赛中的表现接近优秀高中生水平。不同于过去"一锤定音"式的输 出,这些模型开始尝试模拟数学家逐步推理的思考过程。 同时,一些将LLM与某种事实核查系统相结合的新型混合模型也取得了突破。例如,谷歌"深度思 维"的AlphaProof系统将语言模型与棋类AI——AlphaZero结合,成为首个取得与国际数学奥林匹克竞赛 银牌得主成绩相当的系统。今年5月,谷歌的AlphaEvolve模型更进一步,在多个长期未解的数学与 ...
刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4
机器之心· 2025-06-17 00:10
机器之心报道 编辑:杜伟 在开源模型领域,DeepSeek 又带来了惊喜。 上个月 28 号,DeepSeek 来了波小更新,其 R1 推理模型升级到了最新版本(0528),并公开了模型及权重。 这一次,R1-0528 进一步改进了基准测试性能,提升了前端功能,减少了幻觉,支持 JSON 输出和函数调用。 今天,业界知名、但近期也陷入争议(曾被指出对 OpenAI、谷歌及 Meta 的大模型存在偏袒)的大模型公共基准测试平台 LMArena 公布了最新的性能排行榜,其 中 DeepSeek-R1(0528)的成绩尤为引人瞩目 。 | | Rank (UB) ↑ Model ↑↓ | | Score 11 | | 95% Cl (±) 1↓ Votes 1J | لا Organization 1 | License 1لا | | --- | --- | --- | --- | --- | --- | --- | --- | | | 1 | G gemini-2.5-pro-preview-06-05 | 1468 | +8/-6 | 8,454 | Google | Proprietary | | | 2 ...
细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈
量子位· 2025-06-16 10:30
MINT-CoT团队 投稿 量子位 | 公众号 QbitAI 思维链(Chain of Thought, CoT)推理方法已被证明能够显著提升大语言模型(LLMs)在复杂任务中的表现。而在多模态大语言模型 (MLLMs)中,CoT 同样展现出了巨大潜力。 3. 过度依赖外部功能 像 MVoT 或 Visual SKETCHPAD 等方法,需要借助外部工具或能力来生成或修改图像,训练和推理过程成本高、不通用。 然而,当视觉信息与数学推理结合时,传统的 CoT 方法就显得力不从心了——视觉输入中的数学细节往往被忽略,导致推理结果不准确。 最近,香港中文大学 MMLab 团队正式发布了全新的视觉推理方案——MINT-CoT,专为解决"多模态数学推理"中的难题而设计。 为什么数学视觉推理这么难? 尽管已有一些研究尝试把视觉信息引入 CoT 推理,例如 Visual-CoT、Visual SKETCHPAD、VPT、ICoT 等方法,但在数学场景下依然存 在 三大瓶颈: 1. 粗粒度图像区域选择 大部分方法依赖边界框(Bounding Box)来截取图像区域。但数学图像里的元素(比如坐标轴、几何图形、标注文字等)高度关 ...
ACL 2025|为什么你设计的 Prompt 会成功?新理论揭示大模型 Prompt 设计的奥秘与效能
机器之心· 2025-06-16 04:04
本文共同一作是张翔和曹峻泰。张翔是英属哥伦比亚大学研究生,主要研究兴趣集中在大模型推理和 AI for Science;曹峻泰是英属哥伦比亚大学研究生, 主要研究兴趣集中在大模型推理和可解释性研究;本文通讯作者是来自纽约大学石溪分校的助理教授尤晨羽,以及来自 Meta Gen AI 的研究员丁渡鉴。 近年来,大型语言模型(LLM)在自然语言处理领域取得了革命性进展。然而,其底层的 Transformer 架构在处理复杂推理任务时仍有不足。尽管「思维 链」(CoT)提示技术提供了一条实用路径,但多数方法依赖通用指令,导致提示工程高度依赖反复试验,缺乏理论指导。 图 1 :Prompt 模板深刻影响着答案空间的配置和导航方式。左侧展示了不同的 Prompt(如 Auto-Prompt、RL-Prompt)如何在「Prompt 空间」中进行搜索,而右侧则展示了在特定 Prompt 指导下,如何在「答案空间」中进行搜索以得到解决方案(如 Tree-of-Thought、Graph-of-Thought)。 来自英属哥伦比亚大学、纽约大学石溪分校和浙江大学的研究团队深入剖析了 Prompt 如何在 LLM 的 CoT ...
迈向人工智能的认识论:窥探黑匣子的新方法
3 6 Ke· 2025-06-16 03:46
Core Insights - The article discusses innovative strategies to better understand and control the reasoning processes of large language models (LLMs) through mechanical analysis and behavioral assessment [1][9]. Group 1: Mechanical Analysis and Attribution - Researchers are breaking down the internal computations of models, attributing specific decisions to particular components such as circuits, neurons, and attention heads [1]. - A promising idea is to combine circuit-level interpretability with chain-of-thought (CoT) verification, using causal tracing methods to check if specific parts of the model are activated during reasoning steps [2]. Group 2: Behavioral Assessment and Constraints - There is a growing interest in developing better fidelity metrics for reasoning, focusing on whether the model's reasoning steps are genuinely contributing to the final answer [3]. - The concept of using auxiliary models for automated CoT evaluation is gaining traction, where a verification model assesses if the answer follows logically from the reasoning provided [4]. Group 3: AI-Assisted Interpretability - Researchers are exploring the use of smaller models as probes to help explain the activations of larger models, potentially leading to a better understanding of complex circuits [5]. - Cross-architecture interpretability is being discussed, aiming to identify similar reasoning circuits in visual and multimodal models [6]. Group 4: Interventions and Model Editing - A promising methodology involves circuit-based interventions, where researchers can modify or disable certain attention heads to observe changes in model behavior [7]. - Future evaluations may include fidelity metrics as standard benchmarks, assessing how well models adhere to known necessary facts during reasoning [7]. Group 5: Architectural Innovations - Researchers are considering architectural changes to enhance interpretability, such as building models with inherently decoupled representations [8]. - There is a shift towards evaluating models in adversarial contexts to better understand their reasoning processes and identify weaknesses [8]. Group 6: Collaborative Efforts and Future Directions - The article highlights significant advancements in interpretability research over the past few years, with collaborations forming across organizations to tackle these challenges [10]. - The goal is to ensure that as more powerful AI systems emerge, there is a clearer understanding of their operational mechanisms [10].
特稿|中国科技为非洲国家发展注入新动能
Xin Hua She· 2025-06-15 13:52
新华社长沙6月15日电 特稿|中国科技为非洲国家发展注入新动能 新华社记者梁子齐 周昊瑾 张玉洁 第四届中国—非洲经贸博览会12日至15日在中国湖南长沙举办。走进会展中心,记者看到,中国参展企 业的讲解员正在为前来观展的非洲客户介绍多年生稻技术,非洲客户频频点头并不时记下要点。 当前,中国科技持续赋能非洲产业升级,在生物科技、数字通信、人工智能等领域取得进展,为改善当 地人民生活并促进非洲国家现代化发展注入新动能。 共享种子芯片的"生命密码" 农网,即偏远农村网络覆盖。2024年底,马达加斯加梅纳贝农网EPC项目正式进入实施阶段。该项目负 责人高博表示,项目建成后,将帮助偏远乡村实现电话通信、网络社交,并带动移动支付、线上交易等 经济活动,进而带动偏远农村的社会进步和经济发展。项目首期将建设73个农网站点,预计网络覆盖 2340平方公里,惠及16.5万农村人口。 谈及未来的落地项目,坦桑尼亚农网项目负责人游晨奕告诉记者,坦桑尼亚偏远地区通信覆盖项目今年 刚开工。在保证网络通畅、建设运维简单的前提下,结合当地充足的光照时长,该项目将以太阳能作为 能源输入,推动降低设备能耗和运营成本。 破除沟通壁垒的"数字桥梁" ...
AI投研应用系列之二:从大模型到智能体,扣子Coze在金融投研中的应用
Tai Ping Yang Zheng Quan· 2025-06-15 06:51
金融工程 证券研究报告 |深度研究报告 2025/06/13 AI投研应用系列之二: 从大模型到智能体,扣子Coze在金融投研中的应用 马自妍 S1190519070001 证券分析师: 分析师登记编号: 刘晓锋 S1190522090001 证券分析师: 分析师登记编号: P2 目录 请务必阅读正文之后的免责条款部分 守正 出奇 宁静 致远 1. AI Agent赋能投研应用 2. Coze核心功能解析 3. Coze投研应用实践 4. Coze投研应用相关插件 5. Coze在投研领域的应用前景展望 1、AI Agent赋能投研应用 1.1 AI Agent助力智能投研落地 2025年大语言模型(LLM)在技术层面迎来爆发式发展,但在实际应用落地中仍面临一定的局限:复 杂任务拆解能力不足、多工具协同效率低、专业场景适配成本高等问题,制约了其从技术能力向生产 力的转化。 AI Agent通过整合LLM的核心认知能力与外部工具、自动化工作流及领域知识库,助力大模型在智能 投研场景应用中高效落地。 字节跳动于2024年2月推出Coze扣子平台,2025年4月发布"扣子空间"协同办公系统,并于2025年5 月全面 ...
本周精华总结:谷歌AI的进阶之路:从技术积累到发现新知的未来探索
老徐抓AI趋势· 2025-06-15 03:41
欢迎大家 点击【预约】 按钮 预约 我 下一场直播 本文重点 观点来自: 6 月 9 日本周一直播 谷歌未来的目标是实现通用人工智能(AGI),即让机器具备与人脑同等的通用智能能力。DeepMind 团队对AGI有清晰定义,认为通用智能即机器能像人脑一样处理各种任务。尽管现阶段AI在某些简单任 务仍有不足,但正在不断弥补"认知漏洞",逐步向真正的通用智能靠近。 【 强 烈建议直接看】 本段视频精华,逻辑更完整 谷歌与特斯拉被认为是最接近实现"世界模型"的两家公司,谷歌依托YouTube海量视频数据,特斯拉则 依靠车辆摄像头采集的现实世界数据。这些多维度的现实数据对训练通用智能极为关键,远超单一文本 数据的深度。 文字版速览 总的来说,谷歌的AI技术不仅扎实,更具备创新和超越的潜力。未来几年,谷歌AI有望在智能发现、 模型完善以及通用智能方向实现突破,继续保持其在AI领域的领先地位。作为关注AI发展的朋友,我 认为谷歌值得持续跟踪和关注。 谷歌作为AI领域的重要玩家,其发展历程和技术积累值得深入分析。谷歌母公司Alphabet的架构设计十 分巧妙,它将多个创新子公司独立运营,如Google、DeepMind、I ...
“AI教父”辛顿最新专访:没有什么人类的能力是AI不能复制的
创业邦· 2025-06-15 03:08
来源丨 腾讯科技(ID:qqtech) 被誉为"AI教父"的杰弗里·辛顿 于 近日接受了调查记者盖昂·埃斯皮纳的远程专访。 他称,AI正在以前所未有的速度演化: 变得更聪明、更少犯错,甚至具备了情感和意识。 他警告, AI不仅可能具备喜怒哀乐等情绪,还已经学会了欺骗。 辛顿大胆预测, AI完全失控的概率在10%到 20%之间,人类未来可能被AI所掌控。 辛顿因在机器学习和神经网络领域的开创性贡献,于2024年荣获诺贝尔物理学奖。他曾在谷歌担任 AI研究负责人长达十年 ,并 于2023年选择离开 。这样,他可以 更坦率地表达对AI潜在风险的深切 担忧。 过去那些只存在于反乌托邦科幻小说中的问题—— "AI会取代人类吗?"、"它会觉醒吗?"、"会反抗 人类吗?" ——如今正逐渐成为现实世界的核心议题,全球社会正在被迫直面这些重大挑战。 问: 当你说"AI更擅长推理"时,具体指的是什么? 辛顿: 过去,只要问题稍微复杂一点,AI就容易出错。但现在,AI在推理上的表现已经接近人类。虽 然人类和AI都会犯错,但AI犯错的概率正在迅速下降。 辛顿的言论再次发出警示: AI不仅仅是技术革命,更是深刻的伦理与社会变革。 未来 ...