Workflow
量子位
icon
Search documents
清华推出AI数学家!独立完成数学理论难题,自动调用基本定理、构建证明思路
量子位· 2025-06-04 09:14
清华AIM团队 投稿 量子位 | 公众号 QbitAI AI数学家 来了!清华团队出品—— 他们推出 AI Mathematician(AIM)框架 ,推理模型也能求解前沿理论研究,并且证明完成度很高。 比如一道吸收边界条件问题。这是分析中涉及方程的经典理论问题,通过构造人工边界得到较为精确的近似解。 AIM部分求解过程如下: AIM给出了方程的能量估计,这是求解这个问题的关键的中间结论。它不仅正确推导了这个结论,在后续证明中加以运用。 这是AIM对于方程的近似解的构造和存在唯一性的证明过程。尽管部分运算细节并没有展示出来,但是这里的证明思路和定理运用都是正确 的,也得到了整个问题中的关键结论。 本次成果的作者包括刘远航、黄砚星、王彦桥、李鹏、刘洋,其中刘远航、黄砚星、王彦桥为论文共同第一作者。 AIM数学家智能体 传统大语言模型在数学领域的突破长期局限于竞赛级问题,LRMs快速发展的数学推理能力也让人类数学工作者期待可以使用大模型进行前沿 数学研究。 当前数学理论的研究主要有以下两大挑战: 数学研究的证明内容需要经过严格验证和精确的分析,而自然语言证明的评估一直缺乏有效方法。 基于此,AIM框架首次将LRM ...
陶哲轩转发!华人数学博士后反超DeepMind AI,停滞18年数学问题1个月内3次突破
量子位· 2025-06-04 09:14
DeepMind于5月14日宣布 AlphaEvolve ,不仅改进了矩阵乘法算法,还取得一系列成果,打破 集合和差问题 (Sums and differences of sets problem)自2007年来的纪录也是其中之一。 这一次,人类方法使用测度集中性来计算渐近值, 只需要少量的计算机辅助 。 不到一个月时间,这个 停滞18年 的问题在人类与AI共同努力下3 次取得突破 。 陶哲轩转发评价道: 对我来说,这生动展示了处理数学问题时,大量计算机辅助、适度计算机辅助和传统"纸笔"方法未来的相互作用,这些模式各有优缺 点。 例如当前的AlphaEvolve很难处理后续论文中使用的渐近构造。 但另一方面,如果不先进行类似AlphaEvolve的半自动化搜索,人类方法也很难找到这些改进的机会。 梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 数学家出手反击AI!对AlphaEvolve在"集合和差问题"上的成果进一步改进。 最新成果来自西班牙数学科学研究所ICMAT的博士后 Fan Zheng , 这次他通过构造一系列特殊的集合U,在极限情况下将集合和差问题θ的下界提升至1.173077。 集合和差问 ...
奥特曼:假如给我一千倍算力,我会这样做
量子位· 2025-06-04 07:04
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 完美的人工智能是"一个拥有超人推理能力、1万亿个上下文标记并可以使用你能想到的所有工具的微型模型"。 这是 奥特曼 在最新的访谈中对下一代模型的展望。 他表示,理想中的AGI不需要包含知识——只需要思考、搜索、模拟和解决任何问题的能力。 它应该成为一个能够 自主发现新科学 ,或者成为人类强大工具,使全球科学发现速度提升数倍的系统。 也许到那时,我们可能要 反过来问问AI我们应该怎么做 。 此话一出,有网友表示,奥特曼对AGI的理想倒是始终没有变过:系统能自主探索新的科学发现。 在主持人问到对AGI的定义时,奥特曼表示,不同的人在不同的时期都会对此有不一样的理解。 但也有网友对此表示怀疑,"询问AI该怎么做"就好像把我们手中的钥匙交了出去,令人不安。 访谈中,奥特曼还对一个 一千倍算力 的假设性问题给出了极具概念性的回答。 一起来看看具体内容。 平稳、快速的进步更重要 AGI的定义其实并不重要,重要的是平稳地快速进步。 可能在2020年,人工智能领域的发展还不像如今这样繁荣的时候,如果出现ChatGPT,大多数人可能会认为这就是AGI。 就像这位网友说的,自 ...
图灵奖得主Bengio再创业:启动资金就筹集了3000万美元
量子位· 2025-06-04 07:04
西风 发自 凹非寺 量子位 | 公众号 QbitAI 目前LawZero已通过多家慈善捐赠方筹集到了 3000万美元启动资金 。 具体来说,LawZero要做" 设计 即安 全 (safe-by-design)"的AI系统,要"将安全性置于商业利益之上"。 所要做的AI系统非Agent形态,而可以监督Agent: 它 以理解学习世 界为核心目标, 而非在世界中采取行动 ,通过透明化外部推理,对问题提供可验证的真实答案,"可用于加速科学发现、为 Agent型AI系统提供监督,并深化大家对AI风险及其规避方法的理解"。 Bengio表示,当前AI系统已显现出自我保护和欺骗行为的迹象,随着其能力和自主性的提升,这种趋势只会加速,LawZero是他们针对这些 挑战所给出的建设性回应。 经常有人问我,对AI的未来是乐观还是悲观?我的回答始终是:It doesn't matter (无关紧要) 。 唯一重要的是,我们每个人都能采取行动,推动AI向更好的方向发展。 刚刚,深度学习三巨头之一、图灵奖得主 Yoshua Bengio 官宣再次创业 —— 成立 非营利组织LawZero ,要构建下一代AI系统,而且 明确不做Ag ...
AI还不会独自问诊,o3准确率仅为51.12%,上交大×SII开源高难度复杂疾病诊断测评集
量子位· 2025-06-04 07:04
Pengfei Liu 投稿 量子位 | 公众号 QbitAI AI能够 独自完成 医疗场景下的诊断任务吗? 在真实的临床环境中,医生需要 综合分析 大量的患者信息——包括主诉症状、既往病史、体格检查以及各类辅助检查结果,才能 逐步构建出对病情的全面认知。 这一过程不仅要求强大的信息整合能力,更涉及复杂的推理判断。随着大语言模型在复杂推理能力上的不断突破,AI在应对各种 科学挑战的前景也愈发广阔。那么, 在高度依赖专业知识与临床经验的医疗领域 ,AI是否也能胜任"诊断"这一关键任务? 为系统评估AI在临床诊断任务中的实际表现,来自上海交通大学的SPIRAL Lab与GAIR Lab共同构建了 DiagnosisArena —— 一个用于严格评估AI在专业医学诊断中能力水平的基准测试。 研究团队在DiagnosisArena上对现有多个大语言模型进行测试。 测试结果显示: 即使是o3,在此项高挑战性诊断任务中也只达到了51.12%的准确率 ,而其他开源模型甚至难以取得25%的准确 率。此项结果反映出当前模型在复杂医疗推理任务中仍面临诸多瓶颈。 构造过程:如何打造一个考验医学诊断推理能力的基准? 研究团队设计了一 ...
GPT-4o连验证码都解不了??SOTA模型成功率仅40%
量子位· 2025-06-04 05:21
MetaAgentX团队 投稿 量子位 | 公众号 QbitAI 当前最强多模态Agent连验证码都解不了? 实测结果显示:人类平均成功率达 93.3% ,SOTA多模态模型平均仅 5%-40% 不等。 连 GPT-4o 都被难住了。 验证码是现阶段Agent部署的一大瓶颈 在真实网页场景中部署多模态Agent,你是否也被人机验证(CAPTCHA)卡住过? 项目团队发现,不少大型Benchmarks(包括AgentBench、VisualWebArena等)在构建过程中都 刻意跳过了含验证码的网页 ,仿佛这道拦 路虎根本不存在。 但现实很骨感: 验证码从不是"特例",而是任何实际任务中不可回避的存在 ,尤其在电商、登录、票务等高价值网页中更是常见。 于是,Open CaptchaWorld这个测试平台以及Benchmark应运而生:一个针对多模态大模型Agent的CAPTCHA解题平台与评估基准——专 为视觉-语言-动作交互任务设计。 无论是OpenAI的o3、Anthropic的Claude‑3.7-sonnet、还是Gemini‑2.5-pro,这些最新的多模态大模型Agent尽管在静态感知任务(如图文 ...
00后中国女孩0产品创业实现3亿估值:斯坦福数学博士的AI量化野心
量子位· 2025-06-04 05:21
明敏 鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 斯坦福华人数学博士AI创业, 0产品0用户 ,目标估值3亿美元。 0产品实现3-5亿估值 方向瞄准 数学AI ,要为量化和对冲基金公司提供可解决实际数学问题的模型能力。 (嗯,打造了DeepSeek的幻方量化,也是用AI来做投资量化) △ 来自个人主页 来自中国广州的 洪乐潼 (Carina Letong Hong)近期开启创业,立马一鸣惊人。 据The Information消息,她正在筹集目标为 5000万美元 的融资,公司估值预计 3-5亿美元 ——尽管目前公司还没有开发出一款产品。 为啥能实现如此估值? 来看创始人兼CEO洪乐潼身上的标签: 3年时间完成麻省理工数学和物理本科双修 ,然后拿下斯坦福数学博士录取offer研究方向为数论、组合学和概率学,同时也进修了法律学课 程。 本科期间的论文已经发表在《美国数学会会报》、《拉马努金期刊》等刊物。2021年获得牛津大学罗德奖学金,成为仅有的4名中国获奖者之 一…… 如今,她开启创业,希望利用编程语言来训练模型,使其能掌握形式化证明的"语言"。 洪乐潼创立的公司名叫Axiom (公理) ,它的核心 ...
开源播客生成MoonCast:让AI播客告别"机械味",中英双语对话更自然!
量子位· 2025-06-04 05:21
输入知识源:经典经济学论文 (PDF 链接: https://gwern.net/doc/statistics/decision/1951-nash.pdf) Zeqian Ju 投稿 量子位 | 公众号 QbitAI 英文播客示例: 仅听几秒人声,即可完成逼真复刻,而且是 对话式语音。 这就是 MoonCast , 一款革新性的对话式语音合成模型, 目前已开源 。 MoonCast 的"人味"播客效果如何?立即试听以下示例音频,让耳朵告诉你答案。 (注:本文使用的所有音频仅用于展示,不代表任何真实事件或观点。禁止商用。) 中文播客示例: 输入知识源:诺贝尔物理学奖新闻稿 (URL 链接: https://www.nobelprize.org/prizes/physics/2024/press-release/) 生成一段地道的 相声 ,完全就是郭德纲于谦那味儿啊。 (注:本文使用的所有音频仅用于展示,不代表任何真实事件或观点。禁止商用。) 它专为高质量播客内容创作量身打造, 旨在将文档转化为引人入胜的播客音频。 这些对话无论是文本内容还是说话人音色,MoonCast在训 练时都从未见过。 这得 益于强大的 ...
单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2
量子位· 2025-06-04 05:21
国产开源模型又上大分,这次是在长视频理解领域: 智源研究院联合上海交通大学等机构,正式发布新一代超长视频理解模型 Video-XL-2 。 长视频理解是多模态大模型关键能力之一。尽管OpenAI GPT-4o、Google Gemini等私有模型已在该领域取得显著进展,当前的开源模型在 效果、计算开销和运行效率等方面仍存在明显短板。 而Video-XL-2相较于上一版本的Video-XL,在多个维度全面优化了开源多模态大模型对长视频内容的理解能力: 目前,Video-XL-2的模型权重已全面向社区开放。未来,该模型有望在影视内容分析、异常行为监测等多个实际场景中展现重要应用价值。 允中 发自 凹非寺 量子位 | 公众号 QbitAI 单张显卡,就能处理万帧视频输入,并且编码2048帧视频仅需12秒! 技术简介 在模型架构设计上,Video-XL-2主要由三个核心组件构成: 视觉编码器(Visual Encoder) 、 动态 Token 合成模块(Dynamic Token Synthesis, DTS) 以及 大语言模型(LLM) 。 △ Video-XL-2的模型架构示意图 具体而言,Video-XL-2 ...
奥特曼宫斗要成好莱坞大片了!《哈利波特》同款制片人,主角人选被曝“蜘蛛侠”
量子位· 2025-06-04 05:21
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 奥特曼抓马的宫斗大戏,这下真的成drama了 。 The Hollywood Reporter消息,米高梅计划联手意大利知名导演 卢卡·瓜达尼诺 (Luca Guadagnino) ,将OpenAI高层的争斗翻拍成电 影。 该片名为 《Artificial》 ,米高梅计划今年夏天就开拍,正在和瓜达尼诺积极洽谈。 看到这个消息,网友们开始疯狂cue起了2010年的电影 《社交网络》 (《The Social Network》) ,该电影讲述了扎克伯格的Facebook创 业史。 还有网友表示,剧组很可能希望蜘蛛侠的扮演者、在《社交网络》中扮演Facebook联创萨维林 (Eduardo Saverin) 的 安德鲁·加菲尔德 (Andrew Garfield) 能来扮演奥特曼。 而手更快些的网友,已经把奥特曼电影的结局给安排上了 。 △ 图为电影《社交网络》中剧情 蜘蛛侠扮演者或出演奥特曼 除了意向导演瓜达尼诺之外,The Hollywood Reporter还爆料了《Artificial》的几名制片人。 其中包括将哈利波特改编成八部电影的知名制片人 大卫 ...