Workflow
语言模型
icon
Search documents
刚刚,Gemini 2.5系列模型更新,最新轻量版Flash-Lite竟能实时编写操作系统
机器之心· 2025-06-18 01:24
机器之心报道 编辑:Panda 刚刚,Gemini 系列模型迎来了一波更新: 谷歌 CEO Sundar Pichai 发推表示新推出的 Gemini 2.5 Flash-Lite 是目前性价比最高的 2.5 系列模型。 可以看到,谷歌对 2.5 Flash-Lite 的定位是适合用于「量大且注重成本效率的任务」。相较之下,2.5 Pro 适合编程和高复杂度任务,2.5 Flash 则居中,更适合需要 较快速度的日常任务。 Gemini 2.5 Pro 稳定版发布且已全面可用,其与 6 月 5 日的预览版相比无变化。 Gemini 2.5 Flash 稳定版发布且已全面可用,其与 5 月 20 日的预览版相比无变化,但价格有更新。 新推出了 Gemini 2.5 Flash-Lite 并已开启预览。 | | | 2.5 Flash-Lite | 2.5 Flash | 2.5 Pro | | --- | --- | --- | --- | --- | | | | THINKING OFF | THINKING | THINKING | | Best for | | High volume cost- | Fa ...
OpenAI以65亿美元收购Jony Ive的io背后,软硬件结合的AI原生硬件公司正在崛起
3 6 Ke· 2025-06-17 23:51
近期,硅谷的两条新闻引人注意:OpenAI以65亿美元的价格收购了前苹果硬件设计负责人Jony Ive的公司io,目标是为 OpenAI 打造一系列硬件产品; OpenAI前CTO打造的90亿美元估值新公司Thinking Machines的首个产品疑似曝光,一台专为AI训练打造的"手动调参仪表盘"硬件。 软硬件结合的AI终端产品,一直是科技公司着力发展的方向,从苹果的Siri和百度的小度音箱开始,它就在发展。 但是那个时代,AI的"智力"还不足,不具备真正的理解能力和思考能力,也不能泛化;这就导致当时的智能设备,在与人的交互上,很"死板"。 另一个问题是,这些硬件的易用性较差,要么没有显示能力,要么显示效果差,还是那个问题,如果AI原生硬件体验不如有AI功能的手机好,那它的存 在意义是什么? 硅谷的AI原生硬件创业公司,除了以上问题外,它们还面临供应链和成本的问题,以及这两个因素导致的高价格。 AI原生硬件普及面临几大问题 大语言模型的发展,使得人工智能助理成为可能,而多模态的大语言模型,使得人机交互从GUI(键盘,鼠标,触摸)向多模态交互转变。 交互的变革会带来硬件载体的变革,科技公司们都在追求打造全新的 ...
LLM 翻车现场,ChatGPT 挑战 1979《Video Chess》惨败:连车马象都认错
3 6 Ke· 2025-06-17 09:12
Group 1 - The core event involves ChatGPT losing a chess match against the Atari 2600 chess engine, highlighting the limitations of AI in discrete systems like chess [2][4] - The match was initiated by Robert Jr. Caruso as a nostalgic experiment, where ChatGPT expressed confidence in winning but ultimately struggled with basic chess rules and state tracking [4][5] - The performance of ChatGPT revealed significant flaws, such as misidentifying pieces and losing track of the game state, leading to its eventual resignation after 90 minutes of play [4][5] Group 2 - The underlying issue is that ChatGPT, as a language model, is not designed for tasks requiring state tracking, which is crucial in games like chess [5] - Unlike specialized chess engines like Stockfish, ChatGPT lacks a defined structure for representing game states and rules, resulting in confusion during gameplay [5] - The incident raises questions about the true capabilities of AI, particularly in maintaining logical consistency in more complex scenarios beyond simple games [7]
陈岱孙经济学纪念讲座报名丨熊伟:结构化信念与基金投资
Sou Hu Cai Jing· 2025-06-17 08:25
Group 1 - The event is a lecture titled "Structured Beliefs and Fund Investment," scheduled for June 20, 2025, at Tsinghua University [2] - The lecture will be presented by Xiong Wei, a professor at Princeton University, with a focus on the intersection of finance and economics [4][6] - The event is organized by the Department of Finance at Tsinghua University's School of Economics and Management and the Global Institute for Common Development [2] Group 2 - Xiong Wei's research interests include capital market imperfections, behavioral finance, digital economy, and the Chinese economy [4][6] - He has received several prestigious awards, including the 2018 China Economics Prize and the 2014 Sun Yefang Financial Innovation Award [4][6] - The lecture will utilize insights from a study analyzing fund managers' perceptions of government policies and their impact on investment decisions and market outcomes [7][9] Group 3 - The study constructs a countercyclical policy beliefs measure (CCP) to capture fund expectations about policies mitigating economic shocks [7][9] - Findings indicate that fund managers' market beliefs positively predict market returns, and CCP beliefs enhance this predictive power, improving fund performance [8][9] - The research emphasizes the significance of structured beliefs in shaping investment decisions and market results [8][9] Group 4 - The event is open to Tsinghua University students, with specific registration instructions for students from different departments [10] - The lecture will be conducted in English with Chinese explanations [11]
MiniMax开源首个推理模型,456B参数,性能超DeepSeek-R1,技术报告公开
3 6 Ke· 2025-06-17 08:15
智东西6月17日报道,今日凌晨,"大模型六小虎"之一MiniMax发布全球首个开源大规模混合架构的推理模型MiniMax-M1,并官宣了为期五天的连更计 划。 M1参数规模为4560亿,每个token激活459亿参数,原生支持100万上下文输入以及业内最长的8万token推理输出,输入长度与闭源模型谷歌Gemini 2.5 Pro 一致,是DeepSeek-R1的8倍。此外,研究人员训练了两个版本的MiniMax-M1模型,其思考预算分别为40k和80k。 MiniMax在标准基准测试集上的对比显示,在复杂的软件工程、工具使用和长上下文任务方面,MiniMax-M1优于DeepSeek-R1和Qwen3-235B等开源模 型。 其博客提到,在M1的整个强化学习阶段,研究人员使用512块H800训练了三周,租赁成本为53.74万美金(折合人民币约385.9万元),相比其一开始的成 本预期少了一个数量级。 M1在MiniMax APP和Web上支持不限量免费使用。API价格方面,第一档0-32k的输入长度时,输入0.8元/百万token, 输出8元/百万token;第二档32k- 128k的输入长度时,输入1.2 ...
大模型“拼好题”,45K数据撬动18%提升,数学问题拒绝死记硬背 | MathFusion
量子位· 2025-06-17 07:41
MathFusion通过三种"融合策略",将不同的数学问题巧妙地结合起来,生成封装了二者关系和结构的新问题。 △ 越靠左上角,模型表现越好且数据效率越高。 核心思想:三种"融合策略" MathFusion团队 投稿 量子位 | 公众号 QbitAI 当前数学领域的数据生成方法常常局限于对单个问题进行改写或变换,好比是让学生反复做同一道题的变种,却忽略了数学题目之间内在的关 联性。 为了打破这种局限,让大模型学会"串联"与"并联"知识,上海AI Lab、人大高瓴等团队联合提出了 MathFusion ,通过指令融合增强大语言 模型解决数学问题的能力。 仅使用45K的合成指令,MathFusion在多个基准测试中平均准确率提升了18.0个百分点,展现了卓越的数据效率和性能。 顺序融合(Sequential Fusion) 将两个问题串联起来,前一个问题的答案作为后一个问题的某个输入条件。这就像解决一个多步骤问题,模型需要先解出第一步,才能进 行第二步,从而学会处理问题间的依赖关系。 并列融合(Parallel Fusion) 将两个相似的问题融合在一起,对它们的数学概念进行识别和融合,在原来问题的基础上提出一道新 ...
MiniMax重磅开源M1模型:百万上下文超DeepSeek R1,实现性能与效率双杀
AI科技大本营· 2025-06-17 02:32
Core Insights - MiniMax has officially open-sourced its latest large language model, MiniMax-M1, marking a significant development in the AI landscape [2][4] - MiniMax-M1 is recognized as the world's first open-weight large-scale hybrid attention inference model, showcasing substantial breakthroughs in performance and inference efficiency [4][6] Model Specifications - MiniMax-M1 features a parameter scale of 456 billion, with each token activating approximately 45.9 billion parameters, and supports a maximum context length of 1 million tokens, which is 8 times longer than that of DeepSeek R1 [7][12] - The model's computational load (FLOPs) for generating 100,000 tokens is only 25% of that required by DeepSeek R1, indicating a significant advantage in long text processing tasks [7][12] Training and Efficiency - The training of MiniMax-M1 utilized a large-scale reinforcement learning (RL) strategy, optimizing performance across various tasks, including mathematical reasoning and software engineering [9][11] - The complete RL training of MiniMax-M1 was accomplished in three weeks using 512 H800 GPUs, with a cost of approximately $534,700, demonstrating high efficiency and cost-effectiveness [11] Performance Comparison - MiniMax-M1 is available in two versions, with maximum generation lengths of 40K and 80K tokens, and has shown superior performance in complex software engineering, tool usage, and long-context tasks compared to leading open-weight models like DeepSeek-R1 and Qwen3-235B [12][19] - In benchmark tests, MiniMax-M1 outperformed other models in various categories, including long-context understanding and tool usage, establishing itself as a strong contender in the AI model landscape [19]
AI成为数学家得力助手还要多久
Ke Ji Ri Bao· 2025-06-17 01:18
为了打破这一局面,美国国防高级研究计划局今年4月启动了"指数性数学"计划,旨在开发一种能 极大提升数学研究效率的人工智能(AI)"合著者"系统。 几十年来,数学家借助计算机进行辅助计算或验证命题,如今的AI或许能更上层楼,挑战那些人 类长年未解的难题。不过,从能解高中题的AI,到能协助攻克前沿数学难关的AI,中间仍隔着一道鸿 沟。 解决重大难题仍力不从心 大型语言模型(LLM)并不擅长数学。它们常常出现"幻觉",甚至可能被误导相信2+2=5。但新一 代大型推理模型,如OpenAI的o3、Anthropic的Claude 4 Thinking等,展现出的进步令数学家眼前一亮。 今年,这些模型在美国数学邀请赛中的表现接近优秀高中生水平。不同于过去"一锤定音"式的输 出,这些模型开始尝试模拟数学家逐步推理的思考过程。 同时,一些将LLM与某种事实核查系统相结合的新型混合模型也取得了突破。例如,谷歌"深度思 维"的AlphaProof系统将语言模型与棋类AI——AlphaZero结合,成为首个取得与国际数学奥林匹克竞赛 银牌得主成绩相当的系统。今年5月,谷歌的AlphaEvolve模型更进一步,在多个长期未解的数学与 ...
刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4
机器之心· 2025-06-17 00:10
机器之心报道 编辑:杜伟 在开源模型领域,DeepSeek 又带来了惊喜。 上个月 28 号,DeepSeek 来了波小更新,其 R1 推理模型升级到了最新版本(0528),并公开了模型及权重。 这一次,R1-0528 进一步改进了基准测试性能,提升了前端功能,减少了幻觉,支持 JSON 输出和函数调用。 今天,业界知名、但近期也陷入争议(曾被指出对 OpenAI、谷歌及 Meta 的大模型存在偏袒)的大模型公共基准测试平台 LMArena 公布了最新的性能排行榜,其 中 DeepSeek-R1(0528)的成绩尤为引人瞩目 。 | | Rank (UB) ↑ Model ↑↓ | | Score 11 | | 95% Cl (±) 1↓ Votes 1J | لا Organization 1 | License 1لا | | --- | --- | --- | --- | --- | --- | --- | --- | | | 1 | G gemini-2.5-pro-preview-06-05 | 1468 | +8/-6 | 8,454 | Google | Proprietary | | | 2 ...
细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈
量子位· 2025-06-16 10:30
MINT-CoT团队 投稿 量子位 | 公众号 QbitAI 思维链(Chain of Thought, CoT)推理方法已被证明能够显著提升大语言模型(LLMs)在复杂任务中的表现。而在多模态大语言模型 (MLLMs)中,CoT 同样展现出了巨大潜力。 3. 过度依赖外部功能 像 MVoT 或 Visual SKETCHPAD 等方法,需要借助外部工具或能力来生成或修改图像,训练和推理过程成本高、不通用。 然而,当视觉信息与数学推理结合时,传统的 CoT 方法就显得力不从心了——视觉输入中的数学细节往往被忽略,导致推理结果不准确。 最近,香港中文大学 MMLab 团队正式发布了全新的视觉推理方案——MINT-CoT,专为解决"多模态数学推理"中的难题而设计。 为什么数学视觉推理这么难? 尽管已有一些研究尝试把视觉信息引入 CoT 推理,例如 Visual-CoT、Visual SKETCHPAD、VPT、ICoT 等方法,但在数学场景下依然存 在 三大瓶颈: 1. 粗粒度图像区域选择 大部分方法依赖边界框(Bounding Box)来截取图像区域。但数学图像里的元素(比如坐标轴、几何图形、标注文字等)高度关 ...