Workflow
机器之心
icon
Search documents
数学宇宙二维破壁成功!四人组230页证明阿贝尔曲面镜像通道,大一统要实现了?
机器之心· 2025-06-08 03:45
最近,数学界再次掀起风浪,这条「地下通道」竟然迎来了 pro max 版升级。四位数学家将这种对应关系,从一维的椭圆曲线,延伸到了结构复杂得多的 高维对象——「阿贝尔曲面」上。 这一飞跃意义非凡,它朝着实现数学领域的「大一统理论」(即朗兰兹纲领)迈出了革命性的一步,为解决更多悬而未决的数论难题提供了前所未有的强大 工具。 让我们一起跟随量子杂志的脚步,开启这场奇妙的数学之旅。 从费马大定理到数学统一之梦 选自quantamagazine 作者: Joseph Howlett 机器之心编译 三百多年前,数学家费马在书页边缘留下了一个看似简单却困扰了学者几个世纪的难题——费马大定理。 1994 年,Andrew Wiles 的实际性证明为这个传奇故事画上了句号。然而,故事并未就此结束。 那场伟大证明的真正遗产,并非仅仅是攻克了一道难题,而是揭示了不同数学世界之间一条深刻的「地下通道」——模块化定理。这个定理证明了相对简单 的「椭圆曲线」总能与一种叫做「模形式」的对象一一对应。 1994 年,数学界发生了一场「大地震」。 数学家 Andrew Wiles 终于攻克了费马大定理 (Fermat's Last Theo ...
挑战 next token prediction,Diffusion LLM 够格吗?
机器之心· 2025-06-08 02:11
机器之心PRO · 会员通讯 Week 23 --- 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 --- 1. 挑战 next token prediction,Diffusion LLM 够格吗? 低成本下的高性能模型,是悖论还是可能? 为什么 Gemini Diffusion 是「被忽视的重大突破」?dLLM 有何底气冲击自回归模型?Diffusion 也可被视作无损数据压缩器?dLLM 还有哪 些潜在优势?兑现 dLLM 的潜力还需解决什么问题? ... 2. AI 推理成本暴跌,「互联网女皇」 Mary Meeker 从中看到了什么? Mary Meeker 为何强调 AI 发展速度远超互联网时代?AI 模型训练成本与推理成本「剪刀差」将如何重塑行业竞争格局?企业 该如何平衡算力投入与商业化回报?中国开源模型崛起对全球供应链有何潜在影响?人机协作时代如何平衡劳动力结构转型与 技能重塑? ... 本期完整版通讯含 2 项专题解读 + 27 项 AI & Robotics 赛道要事速递,其中技术方面 11 项,国内方面 4 项,国外方面 12 项。 本期通讯总计 29595 字, ...
6大模型决战高考数学新一卷:豆包、元宝并列第一,OpenAI o3竟惨败垫底
机器之心· 2025-06-07 22:35
而自从生成式 AI 走红后,大模型「决战」高考也成了每年的保留节目,尤其是在今年这个国内外大模型卷 逻辑推理的当口。趁着各家大模型还来不及「作弊」,我们就用这新鲜出炉的高考数学题考考它们。 在考题选择上,我们采用 2025 年数学新课标 Ⅰ 卷中的 14 道客观题进行测试,满分 73 分,包括 8 道单选 题、3 道多选题、3 道填空题。为保证公平公正,我们将题目截图分别投喂给大模型,不做 System Prompt 引导,不开启联网搜索,直接输出结果,且所有测试模型只有一次答题机会。 (注:在实测中我们发现 DeepSeek 的 OCR 识别出现不少错误,所以此次使用其他 AI 将图片转化为文本问题,再对 DeepSeek 进行测 试。) 编辑:杨文 还在让大模型写高考作文?有本事做高考数学卷子。 又是一年高考时。 这届考生上午刚经历了抽象作文的洗礼,下午又被数学无情创飞。考试一结束,「高考数学」、「新一卷 数学大题 难」等词条就火速冲上微博热搜,考生们在评论区集体「哀嚎」:「大题写到怀疑人生」、「选 择填空送分,大题送命」。 机器之心报道 规则搞清楚了,接下来有请此次的参赛选手: 字节的豆包、深度求索的 ...
AI 推理成本暴跌,「互联网女皇」 Mary Meeker 从中看到了什么?
机器之心· 2025-06-07 07:00
02 . AI 模型训练成本狂飙,推理成本却暴跌? 计算成本反映了AI发展的什么问题?哪些因素让AI推理成本暴跌?推理成本下降影响了哪些群体?... 03. AI 如何重塑物理世 界? AI 正在如何与物理世界融合?哪些现实场景已明确得到 AI 加持?... 04. AI 让全球互联网用户增长驶入 「超车道」? 本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。 互联网女皇Mary Meeker近日发布了《人工智能趋势报告2025》,在行业内受到广泛关注。该报告共340页, 对人工智能(AI)技术的发展现状、未来趋势以及其对全球格局的潜在影响进行了深入分析。 目录 01. Mary Meeker的新报告探讨了哪些重要趋势? Mary Meeker 曾预测过哪些趋势?是什么促成了AI在极速重塑世界?传统企业和新兴玩家在如何竞争?... 互联网与 AI 如何相辅相成?AI 影响了哪些互联网用户行为? AI的两面性如何体现? 05. AI 如何重塑人类生存法则? AI 产业的双重压力从何而来?AI 货币化带来了什么威胁? 01 Mary Meeker 的新报告探讨了哪些重要趋势? 基准测 ...
全球圈粉6000万,被国内粉丝催着上线,PixVerse「国内版」一手实测来了!
机器之心· 2025-06-07 03:59
机器之心原创 这不免令人好奇,到底是什么样的产品,让国内用户如此期盼? 直到最近,这个谜底终于揭晓。如果你是一个拥有天马行空想象力的人,你一定会被这个产品吸引 —— 什么「贝多芬变身肌肉猛男」、「AI 三巨头之世界爆照我 拍照」、「萌宠眨眼变手办」…… 只要你能想出来,爱诗科技的新产品统统能帮你实现。 这个新产品名叫「 拍我 AI 」,是已经在全球用户中打出名气的视频生成应用「PixVerse」的国内版,目前已经在各大应用商店上线,网页端还提供深度体验。 在上手试了一下之后,我们发现「拍我 AI」可玩度很高。即使完全不会写提示词,你也不会觉得无聊,因为它有 上百种 模板 。只要点击「做同款」,然后替换 一下图片就可以了。所以,如果你最近在社交媒体上刷到一些很火的 AI 视频,但又不知道怎么做,去「拍我 AI」网页端翻翻,有很大的几率找到同款。 作者:张倩 恭喜国内视频创作者!从此,大家又多了一个好用的 AI 视频生成工具。 「你们的产品到底什么时候在国内上线?」 最近,爱诗科技也体验了一把小说作者的待遇 —— 打开后台,发现私信全是「催上线」的信息。 当然,如果你是专业玩家,「拍我 AI」可玩的就不止模板了。 ...
没想到,最Open的开源新模型,来自小红书
机器之心· 2025-06-07 03:59
机器之心报道 编辑:杨文 迄今为止行业最大的开源力度。 在大模型上向来低调的小红书,昨天开源了首个自研大模型。 该模型名为 dots.llm1,是小红书 hi lab(Humane Intelligence Lab,人文智能实验室)团队研发的文本大模 型。 它的参数不算最大,总参数量 142B,激活参数 14B,是一款中等规模的 MoE(Mixture of Experts)模型, 不过它仍在较小激活量下展现出了良好性能。 具体来说,在激活 14B 参数的情况下,dots.llm.inst 模型在中英文通用场景、数学、代码、对齐任务上的表 现亮眼,与 Qwen2.5-32B-Instruct、Qwen2.5-72B-Instruct 相比具备较强的竞争力。同时与 Qwen3-32B 相 比,在中英文、数学、对齐任务上表现接近。 | | Benchmark (Metric) | | Qwen-2.5 Qwen-2.5 Qwen-3 | | Qwen-3 | | DeepSeek DeepSeek gpt4o dots. 11m1 | | | | --- | --- | --- | --- | --- | --- ...
ACL 2025 | 大语言模型正在偷改你的代码?
机器之心· 2025-06-07 03:59
本文作者分别来自西安交通大学、马萨诸塞大学阿默斯特分校、武汉大学以及南洋理工大学。第一作者张笑宇是来自西安交通大学的博士生,研究方向聚焦 于大模型安全以及软件安全。通讯作者为西安交通大学沈超教授。 在人工智能领域,大语言模型(LLM)作为新一代推荐引擎,在代码推荐等任务中展现出超越传统方法的强大能力。然而,其潜在的偏见问题正逐渐成为影 响技术可靠性与社会公平的关键挑战。 ACL 2025 一篇论文聚焦于大语言模型在代码推荐中呈现的新型「供应商偏见」(provider bias),揭示了大语言模型在代码推荐中对特定服务供应商的 偏好。实验表明,大语言模型甚至能够在未得到用户指令的情况下,擅自修改代码中供应商。 论文标题:The Invisible Hand: Unveiling Provider Bias in Large Language Models for Code Generation 真实案例 论文链接:https://arxiv.org/abs/2501.07849 代码链接:https://github.com/shiningrain/InvisibleHand 本论文聚焦于大语言模型在代码推荐中 ...
类R1训练不再只看结果对错!港中文推出SophiaVL-R1模型
机器之心· 2025-06-06 09:36
DeepSeek-R1 爆火后,类 R1 的结果奖励训练范式在各领域掀起了推理热潮。基于规则的结果奖励实现简单、判断严格。但是,这真的够了吗? 在推理任务中,如果我们只是用「结果对错」来奖励模型,那模型就很可能学会了「靠捷径答题」。 这种模式下,模型的「正确思考策略」没有完全建立起来,它甚至会因为一次「瞎蒙对」的奖励,而在之后反复强化错误策略,越走越偏。 为了解决这个问题,港中文联合上海人工智能实验室团队发布了多模态推理模型 SophiaVL-R1,它在类 R1 强化学习训练框架上做了一次关键进化:不再 只奖励结果是否正确,而是将「思考过程」也纳入奖励体系。 这一套设计不仅能让模型学会更通用、更靠谱的推理策略,还显著提升了泛化能力——在多个数学和通用多模态基准测试中,SophiaVL-R1-7B 甚至击败 了参数量是其 10 倍的 LLaVA-OneVision-72B 模型。 目前,研究团队已将所有模型、数据和代码开源。 思考过程也要评分,才是好模型 SophiaVL-R1 的关键突破点,就在于它引入了「思考奖励」机制 —— 不再只看答案对不对,而是开始评估模型整个推理过程是否合理、连贯、靠谱。 论文链接: ...
刚刚,智源全新「悟界」系列大模型炸场!AI第一次真正「看见」宏观-微观双宇宙
机器之心· 2025-06-06 09:36
年初爆火的 DeepSeek R1 以及后续的 OpenAI o3,强化学习技术让推理模型能力强势增长;同时,智能体、世界模型、多模态大模型、具身智能与人形机器人、 AI4S 等领域也不断产出引爆社区的成果,比如最初一码难求的智能体 Manus、CES 大会上英伟达的 Cosmos 世界基础模型。 前沿 AI 技术的进步让整个 AI 圈充满了活力,并推动各个 AI 方向在当前行业最有前景的道路上狂奔。 6 月 6 日,一年一度的国内「AI 内行顶级盛会」—— 第七届智源大会 拉开了序幕!会上,Yoshua Bengio、Richard Sutton 等四位图灵奖得主、三十余位大模型企业 创始人及 CEO、一百多位青年科学家及学者集思广益,从学界和产业界的多样化视角出发,围绕上面这些 AI 课题进行了头脑风暴,并针对下一代 AI 路径等行业 前景问题贡献出了很多真知灼见。 作为主办方的智源研究院(简称智源),重磅亮相了 全新一代「悟界」系列大模型 。从命名来看,「悟界」代表了智源对于虚实边界的突破,通过深化对物理世 界的赋能向着物理 AGI 方向迈进。这预示着这家人工智能领域的前沿科研机构对大模型的探索进入到了 ...